Тенденції мережевих інновацій в епоху ШІ: джерела попиту та аналіз напрямків майбутнього розвитку

2025-07-22 10:20:31

Мережа епохи ШІ: звідки походить попит, куди піде інновація?

Мережа є ключовим елементом епохи великих AI-моделей. В епоху великих моделей ми вже почали спостерігати прискорення ітерації мережевих пристроїв, таких як оптичні модулі, комутатори тощо, внаслідок вибуху попиту. Але ринок недостатньо розуміє, чому графічні процесори потребують великої кількості оптичних модулів, а також чому зв'язок став болючою точкою для великих моделей. У цій статті ми розглянемо принципи, щоб дослідити, чому мережа стала новим "центром уваги" в епоху AI, а також обговоримо інновації в мережевій стороні та інвестиційні можливості, що стоять за останніми змінами в індустрії.

Звідки виникає потреба в мережі?

Увійшовши в епоху великих моделей, розрив між обсягом моделей і обмеженням однієї відеокарти швидко розширюється, тому в галузі шукають рішення для навчання моделей за допомогою кластерів з декількох серверів, що також стало основою для "вищого" рівня мережі в епоху штучного інтелекту. Водночас, на відміну від минулого, коли мережа використовувалася виключно для передачі даних, сьогодні вона більше використовується для синхронізації параметрів моделей між відеокартами, що пред'являє вищі вимоги до щільності та ємності мережі.

Все зростаючий обсяг моделі:

Час навчання = обсяг навчальних даних x кількість параметрів моделі / швидкість обчислень
Швидкість обчислення = швидкість обчислення одного пристрою x кількість пристроїв x ефективність паралельної роботи кількох пристроїв

На сьогоднішній день, через подвійне прагнення до масштабів навчальних даних та параметрів в індустрії, лише прискорення підвищення обчислювальної ефективності може скоротити час навчання. Оскільки оновлення швидкості обчислень на одному пристрої має свої цикли та обмеження, тому те, як максимально використовувати мережу для розширення "кількості пристроїв" та "паралельної ефективності", безпосередньо визначає обчислювальну потужність.

Складна комунікація для синхронізації декількох карт: під час навчання великої моделі, після розподілу моделі на окремі карти, після кожного обчислення між окремими картами потрібно здійснити вирівнювання ( Reduce, Gather тощо ). Крім того, у системі комунікаційних примітивів NVIDIA NCCL операція All-to-All (, тобто всі вузли можуть взаємно отримувати значення та вирівнювати ), є досить поширеною, тому це ставить вищі вимоги до передачі та обміну між мережами.

Все більш дорожчі витрати на збої: навчання великих моделей зазвичай триває більше кількох місяців, і якщо в процесі навчання відбувається зупинка, потрібно повертатися до контрольної точки, що була кілька годин або днів тому, для повторного навчання. Будь-який збій в апаратній або програмній частині мережі, або надмірна затримка, може призвести до зупинки. Більше зупинок означає відставання в прогресі та дедалі вищі витрати. Сучасна AI-мережа поступово розвивається до рівня складних систем інженерії, які порівнянні з літаками, авіаносцями та іншими людськими системами.

Куди рухається мережеве новаторство?

Апаратура реагує на попит, за два роки обсяг інвестицій у глобальні обчислювальні потужності вже зріс до кількох сотень мільярдів доларів, а розширення параметрів моделей, жорстка боротьба між гігантами залишається запеклою. Сьогодні "зниження витрат", "відкритість" та баланс між масштабами обчислювальних потужностей стануть основними темами інновацій у мережі.

Зміна комунікаційних середовищ: світло, мідь і кремній є трьома основними середовищами передачі для людства. В епоху ШІ світлові модулі прагнуть до більш високих швидкостей, одночасно роблячи кроки в напрямку зниження витрат через LPO, LRO, кремнієві оптики тощо. На даний момент мідні кабелі завдяки своїй вартості та рівню відмов займають позиції в з'єднаннях в шафах. Нові напівпровідникові технології, такі як Chiplet, Wafer-scaling, прискорюють дослідження меж кремнієвого з'єднання.

Конкуренція мережевих протоколів: протокол між чіпами та тісна прив'язка до відеокарт, такі як NV-LINK від NVIDIA, Infinity Fabric від AMD тощо, визначають верхню межу можливостей одного сервера або одного обчислювального вузла, що є дуже жорстоким полем битви для гігантів. А боротьба між IB та Ethernet є основною темою комунікації між вузлами.

Зміни в мережевій архітектурі: на сьогоднішній день мережеві архітектури між вузлами зазвичай використовують архітектуру листя-стебла, яка має такі характеристики, як зручність, простота та стабільність. Однак, у міру збільшення кількості вузлів у окремому кластері, архітектура листя-стебла, що є дещо надмірною, може призвести до значних витрат на мережу для надвеликих кластерів. Наразі нові архітектури, такі як Dragonfly, архітектура лише з залізницями тощо, мають можливість стати еволюційним напрямком для наступного покоління надвеликих кластерів.

Інвестиційні поради

Основна ланка системи зв'язку: Zhongji Innolight, Xin Yisheng, Tianfu Communication, Industrial Fortune Union, Invic, Shanghai Electric Co., Ltd.

Інновації в системах зв'язку: YOFC, Tetherlight, Yuanjie Technology, Centec Communications-U, Cambrian, Taclink.

Попередження про ризики

Попит на ШІ не відповідає очікуванням
Втрата закону масштабування
Загострення конкуренції в галузі

ETH3.91%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

15 лайків

Нагородити
15
8
Репост
Поділіться

Прокоментувати

0/400

ForumMiningMaster