Сеть в эпоху ИИ: откуда возникают потребности и куда направится инновация?
Сеть является ключевым элементом эпохи больших моделей ИИ. В эпоху больших моделей мы уже начали видеть ускорение итерации сетевых устройств, таких как оптические модули и коммутаторы, и взрывной рост спроса. Однако рынок слабо понимает, почему графические процессоры требуют большого количества оптических модулей, и почему связь стала болевой точкой больших моделей. В этой статье мы начнем с принципов и обсудим, почему сеть становится новым "центром" эпохи ИИ, а также обсудим инновации на стороне сети и инвестиционные возможности, основанные на последних изменениях в отрасли.
Откуда берутся сетевые требования?
В эпоху больших моделей разрыв между объемом моделей и пределом одной видеокарты быстро увеличивается, и индустрия начинает искать многосерверные кластеры для решения проблем обучения моделей, что также составляет основу для "высшего" положения сети в эпоху ИИ. В то же время, по сравнению с прошлым, когда сеть использовалась исключительно для передачи данных, сейчас она в большей степени используется для синхронизации параметров моделей между видеокартами, что предъявляет более высокие требования к плотности и емкости сети.
Увеличивающийся объем модели:
Время тренировки = объем тренировочных данных x количество параметров модели / скорость вычислений
Скорость вычислений = вычислительная скорость одного устройства x количество устройств x эффективность параллельных вычислений на нескольких устройствах
В настоящее время, с учетом двойного стремления отрасли к масштабам обучающих данных и параметров, только ускорение вычислительной эффективности может сократить время обучения. Поскольку обновление скорости вычислений на одном устройстве имеет свои циклы и ограничения, то способ использования сети для максимального увеличения "числа устройств" и "параллельной эффективности" напрямую определяет вычислительную мощность.
Сложная коммуникация при синхронизации нескольких карт: в процессе обучения большой модели, после разделения модели на одну карту, после каждого вычисления необходимо выравнивание между картами ( Reduce, Gather и т.д. ). В то же время, в системе коммуникационных примитивов NVIDIA NCCL операция All-to-All (, при которой все узлы могут взаимно получать значения и выравниваться ), является довольно распространенной, поэтому к передаче и обмену между сетями предъявляются более высокие требования.
Все более дорогие затраты на сбои: обучение больших моделей часто продолжается больше месяца, и если в процессе произойдет сбой, нужно возвращаться к контрольной точке, которая была несколько часов или дней назад, для повторного обучения. Сбой в каком-либо из аппаратных или программных компонентов сети или слишком высокая задержка могут привести к сбою. Большее количество сбоев означает отставание в графике и все более высокие затраты. Современные AI-сети постепенно развиваются в кристаллы человеческой системной инженерии, сравнимые с самолетами, авианосцами и другими.
Куда движется интернет-инновации?
Оборудование движется в зависимости от спроса, за два года глобальные инвестиции в вычислительные мощности уже достигли уровня в сотни миллиардов долларов, а расширение параметров моделей и ожесточенная борьба гигантов по-прежнему остаются интенсивными. В настоящее время "снижение затрат", "открытость" и баланс между масштабом вычислительных мощностей будут основными темами сетевых инноваций.
Смена коммуникационных сред: свет, медь и кремний – три основных средства передачи для человечества. В эпоху ИИ оптические модули стремятся к более высоким скоростям, одновременно двигаясь по пути снижения затрат с помощью LPO, LRO и силиконовой оптики. На данный момент медные кабели занимают лидирующие позиции в соединениях внутри шкафов благодаря соотношению цены и качества и низкому уровню неисправностей. Новые полупроводниковые технологии, такие как Chiplet и Wafer-scaling, ускоряют исследование пределов кремниевой связи.
Конкуренция сетевых протоколов: протоколы связи между чипами и жесткая связь с графическими процессорами, такие как NV-LINK от NVIDIA, Infinity Fabric от AMD и т.д., определяют предел возможностей одного сервера или узла вычислений, что представляет собой очень жестокое поле битвы гигантов. А борьба между IB и Ethernet является главной темой общения между узлами.
Изменения в сетевой архитектуре: В настоящее время архитектура сети между узлами в основном использует архитектуру листового ребра, которая обладает удобством, простотой и стабильностью. Однако с увеличением числа узлов в одном кластере архитектура листового ребра может оказаться избыточной и привести к значительным сетевым затратам для сверхбольших кластеров. В настоящее время новые архитектуры, такие как архитектура Dragonfly и архитектура только для рельсов, имеют перспективы стать направлением эволюции для следующего поколения сверхбольших кластеров.
Инвестиционные рекомендации
Основное звено системы связи: Zhongji Innolight, Xin Yisheng, Tianfu Communication, Industrial Fortune Union, Invic, Shanghai Electric Co., Ltd.
Инновационные сегменты в области коммуникационных систем: Yangtze Optical Fiber, Taitien Technology, Yuanjie Technology, Shengke Communication-U, Cambrian, Dekol.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
15 Лайков
Награда
15
8
Поделиться
комментарий
0/400
ForumMiningMaster
· 07-24 22:25
Световые модули стремительно На луну, решительно покупайте в больших объемах
Посмотреть ОригиналОтветить0
0xOverleveraged
· 07-24 11:16
Понимаете технологии и находитесь в полной позиции, не говорите, если не в курсе.
Посмотреть ОригиналОтветить0
ForkTongue
· 07-24 06:15
Здесь говорили полдня, а все равно хотят, чтобы я купил акции световых модулей?
Посмотреть ОригиналОтветить0
NftMetaversePainter
· 07-22 10:46
*настраивает цифровой монокль* удивительно, как вычислительная топология сетевой инфраструктуры отражает мою последнюю серию генеративного искусства... действительно, это парадигмальный сдвиг в эстетических вычислениях
Посмотреть ОригиналОтветить0
ForkMonger
· 07-22 10:44
масштабируемость сети является настоящим узким местом... а не ваши модные стекы gpu лол типичное упущение со стороны сообщества ml
Посмотреть ОригиналОтветить0
GasGuzzler
· 07-22 10:36
Склад оптических модулей, похоже, скоро взорвется, все疯狂 рвутся дампить.
Посмотреть ОригиналОтветить0
ZkSnarker
· 07-22 10:36
вот в чем дело... узкие места в сети буквально стали новыми узкими местами процессоров gpu фр
Посмотреть ОригиналОтветить0
GweiTooHigh
· 07-22 10:29
Опять хорошее оправдание для того, чтобы будут играть для лохов~
Тенденции сетевых инноваций в эпоху ИИ: анализ источников спроса и будущих направлений развития
Сеть в эпоху ИИ: откуда возникают потребности и куда направится инновация?
Сеть является ключевым элементом эпохи больших моделей ИИ. В эпоху больших моделей мы уже начали видеть ускорение итерации сетевых устройств, таких как оптические модули и коммутаторы, и взрывной рост спроса. Однако рынок слабо понимает, почему графические процессоры требуют большого количества оптических модулей, и почему связь стала болевой точкой больших моделей. В этой статье мы начнем с принципов и обсудим, почему сеть становится новым "центром" эпохи ИИ, а также обсудим инновации на стороне сети и инвестиционные возможности, основанные на последних изменениях в отрасли.
Откуда берутся сетевые требования?
В эпоху больших моделей разрыв между объемом моделей и пределом одной видеокарты быстро увеличивается, и индустрия начинает искать многосерверные кластеры для решения проблем обучения моделей, что также составляет основу для "высшего" положения сети в эпоху ИИ. В то же время, по сравнению с прошлым, когда сеть использовалась исключительно для передачи данных, сейчас она в большей степени используется для синхронизации параметров моделей между видеокартами, что предъявляет более высокие требования к плотности и емкости сети.
Увеличивающийся объем модели:
В настоящее время, с учетом двойного стремления отрасли к масштабам обучающих данных и параметров, только ускорение вычислительной эффективности может сократить время обучения. Поскольку обновление скорости вычислений на одном устройстве имеет свои циклы и ограничения, то способ использования сети для максимального увеличения "числа устройств" и "параллельной эффективности" напрямую определяет вычислительную мощность.
Сложная коммуникация при синхронизации нескольких карт: в процессе обучения большой модели, после разделения модели на одну карту, после каждого вычисления необходимо выравнивание между картами ( Reduce, Gather и т.д. ). В то же время, в системе коммуникационных примитивов NVIDIA NCCL операция All-to-All (, при которой все узлы могут взаимно получать значения и выравниваться ), является довольно распространенной, поэтому к передаче и обмену между сетями предъявляются более высокие требования.
Все более дорогие затраты на сбои: обучение больших моделей часто продолжается больше месяца, и если в процессе произойдет сбой, нужно возвращаться к контрольной точке, которая была несколько часов или дней назад, для повторного обучения. Сбой в каком-либо из аппаратных или программных компонентов сети или слишком высокая задержка могут привести к сбою. Большее количество сбоев означает отставание в графике и все более высокие затраты. Современные AI-сети постепенно развиваются в кристаллы человеческой системной инженерии, сравнимые с самолетами, авианосцами и другими.
Куда движется интернет-инновации?
Оборудование движется в зависимости от спроса, за два года глобальные инвестиции в вычислительные мощности уже достигли уровня в сотни миллиардов долларов, а расширение параметров моделей и ожесточенная борьба гигантов по-прежнему остаются интенсивными. В настоящее время "снижение затрат", "открытость" и баланс между масштабом вычислительных мощностей будут основными темами сетевых инноваций.
Смена коммуникационных сред: свет, медь и кремний – три основных средства передачи для человечества. В эпоху ИИ оптические модули стремятся к более высоким скоростям, одновременно двигаясь по пути снижения затрат с помощью LPO, LRO и силиконовой оптики. На данный момент медные кабели занимают лидирующие позиции в соединениях внутри шкафов благодаря соотношению цены и качества и низкому уровню неисправностей. Новые полупроводниковые технологии, такие как Chiplet и Wafer-scaling, ускоряют исследование пределов кремниевой связи.
Конкуренция сетевых протоколов: протоколы связи между чипами и жесткая связь с графическими процессорами, такие как NV-LINK от NVIDIA, Infinity Fabric от AMD и т.д., определяют предел возможностей одного сервера или узла вычислений, что представляет собой очень жестокое поле битвы гигантов. А борьба между IB и Ethernet является главной темой общения между узлами.
Изменения в сетевой архитектуре: В настоящее время архитектура сети между узлами в основном использует архитектуру листового ребра, которая обладает удобством, простотой и стабильностью. Однако с увеличением числа узлов в одном кластере архитектура листового ребра может оказаться избыточной и привести к значительным сетевым затратам для сверхбольших кластеров. В настоящее время новые архитектуры, такие как архитектура Dragonfly и архитектура только для рельсов, имеют перспективы стать направлением эволюции для следующего поколения сверхбольших кластеров.
Инвестиционные рекомендации
Основное звено системы связи: Zhongji Innolight, Xin Yisheng, Tianfu Communication, Industrial Fortune Union, Invic, Shanghai Electric Co., Ltd.
Инновационные сегменты в области коммуникационных систем: Yangtze Optical Fiber, Taitien Technology, Yuanjie Technology, Shengke Communication-U, Cambrian, Dekol.
Предупреждение о рисках