Тенденции сетевых инноваций в эпоху ИИ: анализ источников спроса и будущих направлений развития

Сеть в эпоху ИИ: откуда возникают потребности и куда направится инновация?

Сеть является ключевым элементом эпохи больших моделей ИИ. В эпоху больших моделей мы уже начали видеть ускорение итерации сетевых устройств, таких как оптические модули и коммутаторы, и взрывной рост спроса. Однако рынок слабо понимает, почему графические процессоры требуют большого количества оптических модулей, и почему связь стала болевой точкой больших моделей. В этой статье мы начнем с принципов и обсудим, почему сеть становится новым "центром" эпохи ИИ, а также обсудим инновации на стороне сети и инвестиционные возможности, основанные на последних изменениях в отрасли.

Откуда берутся сетевые требования?

В эпоху больших моделей разрыв между объемом моделей и пределом одной видеокарты быстро увеличивается, и индустрия начинает искать многосерверные кластеры для решения проблем обучения моделей, что также составляет основу для "высшего" положения сети в эпоху ИИ. В то же время, по сравнению с прошлым, когда сеть использовалась исключительно для передачи данных, сейчас она в большей степени используется для синхронизации параметров моделей между видеокартами, что предъявляет более высокие требования к плотности и емкости сети.

Увеличивающийся объем модели:

  1. Время тренировки = объем тренировочных данных x количество параметров модели / скорость вычислений
  2. Скорость вычислений = вычислительная скорость одного устройства x количество устройств x эффективность параллельных вычислений на нескольких устройствах

В настоящее время, с учетом двойного стремления отрасли к масштабам обучающих данных и параметров, только ускорение вычислительной эффективности может сократить время обучения. Поскольку обновление скорости вычислений на одном устройстве имеет свои циклы и ограничения, то способ использования сети для максимального увеличения "числа устройств" и "параллельной эффективности" напрямую определяет вычислительную мощность.

Сложная коммуникация при синхронизации нескольких карт: в процессе обучения большой модели, после разделения модели на одну карту, после каждого вычисления необходимо выравнивание между картами ( Reduce, Gather и т.д. ). В то же время, в системе коммуникационных примитивов NVIDIA NCCL операция All-to-All (, при которой все узлы могут взаимно получать значения и выравниваться ), является довольно распространенной, поэтому к передаче и обмену между сетями предъявляются более высокие требования.

Все более дорогие затраты на сбои: обучение больших моделей часто продолжается больше месяца, и если в процессе произойдет сбой, нужно возвращаться к контрольной точке, которая была несколько часов или дней назад, для повторного обучения. Сбой в каком-либо из аппаратных или программных компонентов сети или слишком высокая задержка могут привести к сбою. Большее количество сбоев означает отставание в графике и все более высокие затраты. Современные AI-сети постепенно развиваются в кристаллы человеческой системной инженерии, сравнимые с самолетами, авианосцами и другими.

Куда движется интернет-инновации?

Оборудование движется в зависимости от спроса, за два года глобальные инвестиции в вычислительные мощности уже достигли уровня в сотни миллиардов долларов, а расширение параметров моделей и ожесточенная борьба гигантов по-прежнему остаются интенсивными. В настоящее время "снижение затрат", "открытость" и баланс между масштабом вычислительных мощностей будут основными темами сетевых инноваций.

Смена коммуникационных сред: свет, медь и кремний – три основных средства передачи для человечества. В эпоху ИИ оптические модули стремятся к более высоким скоростям, одновременно двигаясь по пути снижения затрат с помощью LPO, LRO и силиконовой оптики. На данный момент медные кабели занимают лидирующие позиции в соединениях внутри шкафов благодаря соотношению цены и качества и низкому уровню неисправностей. Новые полупроводниковые технологии, такие как Chiplet и Wafer-scaling, ускоряют исследование пределов кремниевой связи.

Конкуренция сетевых протоколов: протоколы связи между чипами и жесткая связь с графическими процессорами, такие как NV-LINK от NVIDIA, Infinity Fabric от AMD и т.д., определяют предел возможностей одного сервера или узла вычислений, что представляет собой очень жестокое поле битвы гигантов. А борьба между IB и Ethernet является главной темой общения между узлами.

Изменения в сетевой архитектуре: В настоящее время архитектура сети между узлами в основном использует архитектуру листового ребра, которая обладает удобством, простотой и стабильностью. Однако с увеличением числа узлов в одном кластере архитектура листового ребра может оказаться избыточной и привести к значительным сетевым затратам для сверхбольших кластеров. В настоящее время новые архитектуры, такие как архитектура Dragonfly и архитектура только для рельсов, имеют перспективы стать направлением эволюции для следующего поколения сверхбольших кластеров.

Инвестиционные рекомендации

Основное звено системы связи: Zhongji Innolight, Xin Yisheng, Tianfu Communication, Industrial Fortune Union, Invic, Shanghai Electric Co., Ltd.

Инновационные сегменты в области коммуникационных систем: Yangtze Optical Fiber, Taitien Technology, Yuanjie Technology, Shengke Communication-U, Cambrian, Dekol.

Предупреждение о рисках

  1. Спрос на ИИ ниже ожиданий
  2. Закон масштабирования потерял силу
  3. Углубление конкурентной борьбы в отрасли
ETH-1.12%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 8
  • Поделиться
комментарий
0/400
ForumMiningMastervip
· 07-24 22:25
Световые модули стремительно На луну, решительно покупайте в больших объемах
Посмотреть ОригиналОтветить0
0xOverleveragedvip
· 07-24 11:16
Понимаете технологии и находитесь в полной позиции, не говорите, если не в курсе.
Посмотреть ОригиналОтветить0
ForkTonguevip
· 07-24 06:15
Здесь говорили полдня, а все равно хотят, чтобы я купил акции световых модулей?
Посмотреть ОригиналОтветить0
NftMetaversePaintervip
· 07-22 10:46
*настраивает цифровой монокль* удивительно, как вычислительная топология сетевой инфраструктуры отражает мою последнюю серию генеративного искусства... действительно, это парадигмальный сдвиг в эстетических вычислениях
Посмотреть ОригиналОтветить0
ForkMongervip
· 07-22 10:44
масштабируемость сети является настоящим узким местом... а не ваши модные стекы gpu лол типичное упущение со стороны сообщества ml
Посмотреть ОригиналОтветить0
GasGuzzlervip
· 07-22 10:36
Склад оптических модулей, похоже, скоро взорвется, все疯狂 рвутся дампить.
Посмотреть ОригиналОтветить0
ZkSnarkervip
· 07-22 10:36
вот в чем дело... узкие места в сети буквально стали новыми узкими местами процессоров gpu фр
Посмотреть ОригиналОтветить0
GweiTooHighvip
· 07-22 10:29
Опять хорошее оправдание для того, чтобы будут играть для лохов~
Посмотреть ОригиналОтветить0
  • Закрепить