Le réseau à l'ère de l'IA : d'où vient la demande et où ira l'innovation ?
Le réseau est un élément clé à l'ère des grands modèles d'IA. À l'ère des grands modèles, nous avons déjà commencé à voir une accélération de l'itération des dispositifs réseau tels que les modules optiques et les commutateurs, avec une explosion de la demande. Cependant, le marché a une compréhension limitée des raisons pour lesquelles les cartes graphiques ont besoin d'être accompagnées d'un grand nombre de modules optiques, ainsi que des raisons pour lesquelles les communications sont devenues un point douloureux pour les grands modèles. Cet article partira des principes fondamentaux pour explorer pourquoi le réseau est devenu le nouveau "C position" à l'ère de l'IA, et discutera des innovations futures du côté réseau et des opportunités d'investissement qui les soutiennent, à partir des dernières évolutions de l'industrie.
D'où viennent les besoins du réseau ?
Avec l'entrée dans l'ère des grands modèles, l'écart entre la taille des modèles et la limite d'une seule carte graphique s'est rapidement élargi, et l'industrie cherche à résoudre les problèmes d'entraînement des modèles en recourant à des clusters de serveurs multiples, ce qui constitue également la base de la "surélévation" du réseau à l'ère de l'IA. Parallèlement, par rapport au passé où le réseau était simplement utilisé pour transmettre des données, il est désormais davantage utilisé pour synchroniser les paramètres des modèles entre les cartes graphiques, ce qui impose des exigences plus élevées en matière de densité et de capacité du réseau.
La taille du modèle qui devient de plus en plus énorme :
Temps d'entraînement = taille des données d'entraînement x nombre de paramètres du modèle / taux de calcul
Taux de calcul = Taux de calcul par appareil x Nombre d'appareils x Efficacité du parallélisme multi-appareils
Actuellement, dans l'industrie, la double quête de l'échelle des données d'entraînement et des paramètres nécessite d'accélérer l'efficacité computationnelle pour réduire le temps d'entraînement. Cependant, la mise à jour du taux de calcul sur un seul appareil a ses cycles et ses limites, donc comment utiliser le réseau pour maximiser le "nombre d'appareils" et "l'efficacité parallèle" détermine directement la puissance de calcul.
Communication complexe de synchronisation multi-GPU : durant le processus d'entraînement de grands modèles, une fois que le modèle est divisé en GPU individuels, après chaque calcul, il est nécessaire d'aligner entre les GPU ( Reduce, Gather, etc. ). De plus, dans le cadre des primitives de communication de NVIDIA, All-to-All (, où tous les nœuds peuvent échanger et aligner des valeurs entre eux, est une opération relativement courante, ce qui impose des exigences plus élevées sur le transfert et l'échange de données entre les réseaux.
Le coût d'interruption de plus en plus élevé : l'entraînement des grands modèles dure souvent plus de plusieurs mois, et en cas d'interruption, il faut revenir à un point de contrôle de quelques heures ou quelques jours auparavant pour recommencer l'entraînement. Une défaillance dans un élément matériel ou logiciel d'un réseau, ou un temps de latence trop élevé, peuvent tous deux provoquer une interruption. Plus d'interruptions signifient des progrès en retard et des coûts toujours plus élevés. Les réseaux d'IA modernes ont progressivement évolué pour devenir le fruit d'une ingénierie systémique humaine comparable à celle des avions, des porte-avions et d'autres systèmes.
Où ira l'innovation numérique ?
Le matériel évolue en fonction des besoins. Après deux ans, l'échelle des investissements mondiaux en puissance de calcul a déjà atteint des centaines de milliards de dollars, tandis que l'expansion des paramètres du modèle et la lutte acharnée entre les géants restent intenses. Aujourd'hui, l'équilibre entre "réduction des coûts", "ouverture" et l'échelle de la puissance de calcul sera le principal sujet d'innovation sur le réseau.
Évolution des supports de communication : La lumière, le cuivre et le silicium sont les trois grands supports de transmission de l'humanité. À l'ère de l'IA, les modules optiques visent des taux de transmission plus élevés tout en s'engageant dans des voies de réduction des coûts telles que LPO, LRO et la photonique sur silicium. À l'heure actuelle, le câble en cuivre domine les connexions dans les armoires grâce à son rapport qualité-prix et à son taux de défaillance. Parallèlement, de nouvelles technologies semiconductrices telles que Chiplet et Wafer-scaling accélèrent l'exploration des limites de l'interconnexion basée sur le silicium.
La concurrence des protocoles réseau : les protocoles de communication interpuce et le fort couplage des cartes graphiques, comme le NV-LINK de NVIDIA, l'Infinity Fabric d'AMD, etc., déterminent la limite de capacité d'un serveur unique ou d'un nœud de calcul individuel, c'est un champ de bataille très cruel entre les géants. La lutte entre IB et Ethernet est le thème principal de la communication entre nœuds.
Changements dans l'architecture réseau : L'architecture réseau entre les nœuds adopte généralement une architecture en feuille et en arête, qui présente des caractéristiques de commodité, de simplicité et de stabilité. Cependant, avec l'augmentation du nombre de nœuds dans un cluster unique, l'architecture en feuille et en arête peut devenir redondante, entraînant des coûts réseau élevés pour les très grands clusters. Actuellement, de nouvelles architectures comme l'architecture Dragonfly et l'architecture rail-only pourraient devenir la direction d'évolution pour la prochaine génération de très grands clusters.
Conseils d'investissement
Éléments clés du système de communication : Zhongji Xuchuang, Xinyi Sheng, Tianfu Communication, Industrial Fulian, Invec, Hu Electric Co.
Innovations dans le système de communication : Yangtze Optical Fiber and Cable Joint Stock Limited Company, Taison Technology, SourceJ Technology, Shengke Communication-U, Cambricon, Dekor.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
15 J'aime
Récompense
15
8
Partager
Commentaire
0/400
ForumMiningMaster
· 07-24 22:25
Les modules optiques s'envolent vers la lune, achetez sans hésiter.
Voir l'originalRépondre0
0xOverleveraged
· 07-24 11:16
Comprend la technologie et a une Position complète. Ne parle pas si tu n'es pas impliqué.
Voir l'originalRépondre0
ForkTongue
· 07-24 06:15
Ici, on a parlé pendant longtemps et ce n'est toujours pas pour me dire d'acheter des actions de modules optiques ?
Voir l'originalRépondre0
NftMetaversePainter
· 07-22 10:46
*ajuste le monocle numérique* fascinant de voir comment la topologie computationnelle des infrastructures réseau reflète ma dernière série d'art génératif... véritablement un changement de paradigme dans le calcul esthétique.
Voir l'originalRépondre0
ForkMonger
· 07-22 10:44
la scalabilité du réseau est le véritable goulot d'étranglement... pas vos superbes piles de GPU lol négligence typique de la foule du ML
Voir l'originalRépondre0
GasGuzzler
· 07-22 10:36
Le stock de modules optiques va exploser, tout le monde se bat pour le dump.
Voir l'originalRépondre0
ZkSnarker
· 07-22 10:36
voilà le truc... les goulets d'étranglement du réseau sont littéralement les nouveaux goulets d'étranglement des gpu fr
Voir l'originalRépondre0
GweiTooHigh
· 07-22 10:29
Encore une bonne excuse pour se faire prendre pour des cons~
Tendances d'innovation réseau à l'ère de l'IA : Analyse des sources de demande et des directions de développement futures
Le réseau à l'ère de l'IA : d'où vient la demande et où ira l'innovation ?
Le réseau est un élément clé à l'ère des grands modèles d'IA. À l'ère des grands modèles, nous avons déjà commencé à voir une accélération de l'itération des dispositifs réseau tels que les modules optiques et les commutateurs, avec une explosion de la demande. Cependant, le marché a une compréhension limitée des raisons pour lesquelles les cartes graphiques ont besoin d'être accompagnées d'un grand nombre de modules optiques, ainsi que des raisons pour lesquelles les communications sont devenues un point douloureux pour les grands modèles. Cet article partira des principes fondamentaux pour explorer pourquoi le réseau est devenu le nouveau "C position" à l'ère de l'IA, et discutera des innovations futures du côté réseau et des opportunités d'investissement qui les soutiennent, à partir des dernières évolutions de l'industrie.
D'où viennent les besoins du réseau ?
Avec l'entrée dans l'ère des grands modèles, l'écart entre la taille des modèles et la limite d'une seule carte graphique s'est rapidement élargi, et l'industrie cherche à résoudre les problèmes d'entraînement des modèles en recourant à des clusters de serveurs multiples, ce qui constitue également la base de la "surélévation" du réseau à l'ère de l'IA. Parallèlement, par rapport au passé où le réseau était simplement utilisé pour transmettre des données, il est désormais davantage utilisé pour synchroniser les paramètres des modèles entre les cartes graphiques, ce qui impose des exigences plus élevées en matière de densité et de capacité du réseau.
La taille du modèle qui devient de plus en plus énorme :
Actuellement, dans l'industrie, la double quête de l'échelle des données d'entraînement et des paramètres nécessite d'accélérer l'efficacité computationnelle pour réduire le temps d'entraînement. Cependant, la mise à jour du taux de calcul sur un seul appareil a ses cycles et ses limites, donc comment utiliser le réseau pour maximiser le "nombre d'appareils" et "l'efficacité parallèle" détermine directement la puissance de calcul.
Communication complexe de synchronisation multi-GPU : durant le processus d'entraînement de grands modèles, une fois que le modèle est divisé en GPU individuels, après chaque calcul, il est nécessaire d'aligner entre les GPU ( Reduce, Gather, etc. ). De plus, dans le cadre des primitives de communication de NVIDIA, All-to-All (, où tous les nœuds peuvent échanger et aligner des valeurs entre eux, est une opération relativement courante, ce qui impose des exigences plus élevées sur le transfert et l'échange de données entre les réseaux.
Le coût d'interruption de plus en plus élevé : l'entraînement des grands modèles dure souvent plus de plusieurs mois, et en cas d'interruption, il faut revenir à un point de contrôle de quelques heures ou quelques jours auparavant pour recommencer l'entraînement. Une défaillance dans un élément matériel ou logiciel d'un réseau, ou un temps de latence trop élevé, peuvent tous deux provoquer une interruption. Plus d'interruptions signifient des progrès en retard et des coûts toujours plus élevés. Les réseaux d'IA modernes ont progressivement évolué pour devenir le fruit d'une ingénierie systémique humaine comparable à celle des avions, des porte-avions et d'autres systèmes.
Où ira l'innovation numérique ?
Le matériel évolue en fonction des besoins. Après deux ans, l'échelle des investissements mondiaux en puissance de calcul a déjà atteint des centaines de milliards de dollars, tandis que l'expansion des paramètres du modèle et la lutte acharnée entre les géants restent intenses. Aujourd'hui, l'équilibre entre "réduction des coûts", "ouverture" et l'échelle de la puissance de calcul sera le principal sujet d'innovation sur le réseau.
Évolution des supports de communication : La lumière, le cuivre et le silicium sont les trois grands supports de transmission de l'humanité. À l'ère de l'IA, les modules optiques visent des taux de transmission plus élevés tout en s'engageant dans des voies de réduction des coûts telles que LPO, LRO et la photonique sur silicium. À l'heure actuelle, le câble en cuivre domine les connexions dans les armoires grâce à son rapport qualité-prix et à son taux de défaillance. Parallèlement, de nouvelles technologies semiconductrices telles que Chiplet et Wafer-scaling accélèrent l'exploration des limites de l'interconnexion basée sur le silicium.
La concurrence des protocoles réseau : les protocoles de communication interpuce et le fort couplage des cartes graphiques, comme le NV-LINK de NVIDIA, l'Infinity Fabric d'AMD, etc., déterminent la limite de capacité d'un serveur unique ou d'un nœud de calcul individuel, c'est un champ de bataille très cruel entre les géants. La lutte entre IB et Ethernet est le thème principal de la communication entre nœuds.
Changements dans l'architecture réseau : L'architecture réseau entre les nœuds adopte généralement une architecture en feuille et en arête, qui présente des caractéristiques de commodité, de simplicité et de stabilité. Cependant, avec l'augmentation du nombre de nœuds dans un cluster unique, l'architecture en feuille et en arête peut devenir redondante, entraînant des coûts réseau élevés pour les très grands clusters. Actuellement, de nouvelles architectures comme l'architecture Dragonfly et l'architecture rail-only pourraient devenir la direction d'évolution pour la prochaine génération de très grands clusters.
Conseils d'investissement
Éléments clés du système de communication : Zhongji Xuchuang, Xinyi Sheng, Tianfu Communication, Industrial Fulian, Invec, Hu Electric Co.
Innovations dans le système de communication : Yangtze Optical Fiber and Cable Joint Stock Limited Company, Taison Technology, SourceJ Technology, Shengke Communication-U, Cambricon, Dekor.
Avertissement de risque