Tendencias de innovación en la red en la era de la IA: análisis de las fuentes de demanda y direcciones de desarrollo futuro

La red en la era de la IA: ¿de dónde proviene la demanda y hacia dónde se dirigirá la innovación?

La red es una parte clave en la era de los grandes modelos de IA. En la era de los grandes modelos, ya hemos comenzado a ver una aceleración en la iteración de dispositivos de red como módulos ópticos y conmutadores, con una explosión en la demanda. Sin embargo, el mercado tiene una comprensión limitada sobre por qué las tarjetas gráficas necesitan ser acompañadas de numerosos módulos ópticos y por qué la comunicación se ha convertido en un punto crítico para los grandes modelos. Este artículo comenzará desde los principios, explorando por qué la red se ha convertido en el nuevo "C-position" en la era de la IA, y discutirá las innovaciones futuras en el lado de la red y las oportunidades de inversión detrás de los últimos cambios en la industria.

¿De dónde provienen las demandas de la red?

Con la llegada de la era de los grandes modelos, la brecha entre el tamaño del modelo y el límite de una sola tarjeta gráfica se ha ampliado rápidamente, lo que ha llevado a la industria a buscar clústeres de múltiples servidores para resolver los problemas de entrenamiento de modelos, lo que también constituye la base para el "ascenso" de la red en la era de la IA. Al mismo tiempo, en comparación con el pasado, cuando se utilizaba únicamente para la transmisión de datos, hoy en día la red se utiliza más para sincronizar los parámetros del modelo entre las tarjetas gráficas, lo que plantea mayores exigencias en términos de densidad y capacidad de la red.

El tamaño cada vez más grande del modelo:

  1. Tiempo de entrenamiento = tamaño del conjunto de datos de entrenamiento x cantidad de parámetros del modelo / tasa de cálculo
  2. Tasa de cálculo = Tasa de cálculo por dispositivo x Número de dispositivos x Eficiencia de paralelismo multi-dispositivo

En la actualidad, bajo la doble búsqueda de la escala de datos de entrenamiento y los parámetros en la industria, solo acelerando la eficiencia computacional se puede reducir el tiempo de entrenamiento. Dado que la actualización de la velocidad de cálculo de un solo dispositivo tiene su propio ciclo y limitaciones, la forma en que se utiliza la red para ampliar lo más posible el "número de dispositivos" y la "eficiencia paralela" determina directamente la capacidad de cálculo.

Comunicación compleja de sincronización de múltiples tarjetas: durante el proceso de entrenamiento de modelos grandes, después de dividir el modelo en una sola tarjeta, cada vez que se realiza un cálculo, es necesario alinear entre las tarjetas individuales ( Reduce, Gather, etc. ). Al mismo tiempo, en el sistema de primitivas de comunicación de NVIDIA, NCCL, All-to-All (, que permite que todos los nodos obtengan y alineen valores entre sí, es una operación bastante común, lo que plantea mayores requisitos para la transmisión y el intercambio entre redes.

Costo de fallos cada vez más caro: el entrenamiento de grandes modelos a menudo dura más de varios meses, y si hay una interrupción en el medio, es necesario volver a un punto de interrupción de hace varias horas o días para reentrenar. Además, una falla en un componente de hardware o software en toda la red, o una latencia excesiva, puede llevar a una interrupción. Más interrupciones significan un progreso rezagado y costos cada vez más altos. Las redes de IA modernas han evolucionado gradualmente hasta convertirse en un logro de la ingeniería de sistemas humanos comparable a aviones, portaaviones y demás.

¿Hacia dónde se dirigirá la innovación en la red?

El hardware se ajusta a la demanda, después de dos años, la escala de inversión en poder computacional a nivel mundial ha crecido a cientos de miles de millones de dólares, mientras que la expansión de los parámetros del modelo y la feroz competencia entre los gigantes sigue siendo intensa. Hoy en día, el equilibrio entre "reducción de costos", "apertura" y la escala de poder computacional será el principal tema de innovación en la red.

Cambio de medios de comunicación: la luz, el cobre y el silicio son los tres grandes medios de transmisión de la humanidad. En la era de la IA, los módulos ópticos buscan mayores velocidades, al mismo tiempo que avanzan por el camino de reducción de costos como LPO, LRO y silicio fotónico. En este momento, el cable de cobre domina la conexión en los racks gracias a su relación costo-beneficio y baja tasa de fallos. Mientras tanto, nuevas tecnologías de semiconductores como Chiplet y Wafer-scaling están acelerando la exploración de los límites de la interconexión basada en silicio.

La competencia de protocolos de red: los protocolos de comunicación entre chips y el fuerte vínculo con las tarjetas gráficas, como NV-LINK de NVIDIA, Infinity Fabric de AMD, etc., determinan el límite de capacidad de un solo servidor o nodo de potencia, lo que lo convierte en un campo de batalla muy brutal entre gigantes. La lucha entre IB y Ethernet es la melodía principal de la comunicación entre nodos.

Cambios en la arquitectura de redes: Actualmente, la arquitectura de red entre nodos generalmente utiliza la arquitectura de hoja y tronco, que presenta características como conveniencia, simplicidad y estabilidad. Sin embargo, a medida que aumenta el número de nodos en un solo clúster, la arquitectura de hoja y tronco puede resultar un poco redundante, lo que genera un alto costo de red para clústeres de gran tamaño. En la actualidad, nuevas arquitecturas como Dragonfly y rail-only tienen el potencial de convertirse en la dirección evolutiva para la próxima generación de clústeres de gran tamaño.

Sugerencias de inversión

Elementos centrales del sistema de comunicación: Zhongji Xuchuang, Xinyi Sheng, Tianfu Communication, Industrial Fulian, Yingwei Ke, Hu Dian Co.

Innovación en el sistema de comunicación: Yangtze Optical Fiber, TACHYON, Yuanjie Technology, Shengke Communication-U, Cambrian, Dekole.

Aviso de Riesgo

  1. La demanda de IA no cumple con las expectativas
  2. Fallo de la ley de escalado
  3. La competencia en la industria se intensifica
ETH1.7%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 8
  • Compartir
Comentar
0/400
ForumMiningMastervip
· 07-24 22:25
Módulos ópticos en plena To the moon, compra sin dudar.
Ver originalesResponder0
0xOverleveragedvip
· 07-24 11:16
Entiende la tecnología y tiene una posición completa. Si no has hecho trading, no hables.
Ver originalesResponder0
ForkTonguevip
· 07-24 06:15
¿Todavía me estás diciendo que tengo que comprar acciones de la compañía de módulos ópticos después de hablar tanto de esto?
Ver originalesResponder0
NftMetaversePaintervip
· 07-22 10:46
*ajusta el monocle digital* fascinante cómo la topología computacional de las infraestructuras de red refleja mi última serie de arte generativo... verdaderamente un cambio de paradigma en la computación estética
Ver originalesResponder0
ForkMongervip
· 07-22 10:44
la escalabilidad de la red es el verdadero cuello de botella... no tus lujosos stacks de gpu lmao típico descuido de la multitud de ml
Ver originalesResponder0
GasGuzzlervip
· 07-22 10:36
El inventario de módulos ópticos debe estar a punto de explotar, todos están locos por el dump.
Ver originalesResponder0
ZkSnarkervip
· 07-22 10:36
aquí está la cosa... los cuellos de botella en la red son literalmente los nuevos cuellos de botella de gpu fr
Ver originalesResponder0
GweiTooHighvip
· 07-22 10:29
Otra buena excusa para ser engañados~
Ver originalesResponder0
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)