AI時代のネットワーク革新トレンド:需要の源と未来の発展方向の解析

AI時代のネットワーク:需要はどこから来て、革新はどこへ向かうのか?

ネットワークはAI大モデル時代の重要な要素です。大モデル時代において、光モジュールやスイッチなどのネットワーク機器の迭代が加速し、需要が爆発しています。しかし、市場ではなぜGPUが大量の光モジュールを必要とするのか、また通信がなぜ大モデルの痛点となっているのかの理解が浅いです。本稿では原理から出発し、ネットワークがなぜAI時代の新たな「C位置」となるのかを探り、最新の産業変化からネットワーク側のイノベーションとその背後にある投資機会について議論します。

ネットワークの需要はどこから来るのか?

大規模モデルの時代に入り、モデルのサイズと単一カードの上限の間のギャップが急速に拡大し、業界はモデルのトレーニング問題を解決するために複数のサーバークラスターを求めるようになりました。これはAI時代のネットワークの「上位」に位置づけられる基盤となります。同時に、過去の単純なデータ伝送に比べて、現在のネットワークはGPU間のモデルパラメータを同期するためにより多く利用されており、ネットワークの密度と容量に対してより高い要求がなされています。

ますます大きくなるモデルのサイズ:

  1. 訓練にかかる時間 = 訓練データの規模 x モデルのパラメータ量 / 計算速度
  2. 計算速度 = 単一デバイスの計算速度 x デバイス数 x マルチデバイス並列効率

現在、業界ではトレーニングデータの規模とパラメータの二重の追求の中で、計算効率を加速的に向上させることが、トレーニングにかかる時間を短縮する唯一の方法です。しかし、単一デバイスの計算速度の更新には周期と制限があります。したがって、ネットワークを利用して"デバイス数"と"並列効率"をできるだけ拡大することが、計算能力を直接決定します。

複雑なマルチカード同期通信:大規模モデルの訓練プロセス中に、モデルを単一カードに分割した後、計算ごとに単一カード間で調整が必要です(Reduce、Gatherなど)。また、NVIDIAの通信原語体系NCCLでは、All-to-All(すべてのノードが互いに値を取得し、調整する操作が一般的であるため、ネットワーク間の伝送と交換に対してより高い要求が課せられています。

ますます高くなる障害コスト: 大規模モデルのトレーニングは通常数ヶ月以上続きますが、途中で中断が発生した場合、数時間または数日前のチェックポイントに戻って再トレーニングする必要があります。ネットワーク全体の特定のソフトウェアまたはハードウェアの障害、または過度の遅延が中断を引き起こす可能性があります。中断が多いほど、進捗が遅れ、コストがますます高くなります。現代のAIネットワークは、飛行機や航空母艦などの人間のシステム工学能力に匹敵する結晶に徐々に発展しています。

ネットワークのイノベーションはどこへ向かうのか?

ハードウェアは需要に応じて動き、2年を経て、世界の計算力投資規模は数百億ドルのレベルに膨れ上がり、モデルパラメータの拡張や巨頭たちの熾烈な競争は依然として激しい。現在、「コスト削減」、「オープン」に加え、計算力の規模とのバランスがネットワーク革新の主要な議題となる。

通信媒体の交代: 光、銅、シリコンは人類の伝送の三大媒体であり、AI時代において光モジュールはより高速なデータ転送を追求する一方で、LPO、LRO、シリコンフォトニクスなどのコスト削減の道を歩んでいます。現時点では、銅線はコストパフォーマンスや故障率などの要因により、ラック内の接続を占めています。一方、ChipletやWaferスケーリングなどの新しい半導体技術は、シリコンベースの相互接続の限界を加速的に探求しています。

ネットワークプロトコルの競争: インターコネクトプロトコルとGPUの強い結びつき、例えばNVIDIAのNV-LINK、AMDのInfinity Fabricなどは、単一のサーバーまたは単一のコンピューティングノードの能力の上限を決定し、非常に厳しい競争の場である。そして、IBとイーサネットの闘争はノード間通信の主旋律である。

ネットワークアーキテクチャの変化: 現在、ノード間のネットワークアーキテクチャは一般的にリーフ-スパインアーキテクチャを採用しており、リーフ-スパインは便利でシンプル、安定した特性を持っています。しかし、単一のクラスターのノード数が増えるにつれて、リーフ-スパインのやや冗長なアーキテクチャは超大規模クラスターに大きなネットワークコストをもたらす可能性があります。現在、DragonflyアーキテクチャやRail-onlyアーキテクチャなどの新しいアーキテクチャが、次世代の超大規模クラスターに向けた進化の方向性になることが期待されています。

投資アドバイス

通信システムのコアリンク:Zhongji Innolight、Xin Yisheng、Tianfu Communication、Industrial Fortune Union、Invic、Shanghai Electric Co.、Ltd。

通信システムの革新:YOFC、Tetherlight、Yuanjie Technology、Centec Communications-U、Cambrian、Taclink。

リスク提示

  1. AIの需要は予想よりも少ない
  2. スケーリング法則の失効
  3. 業界における競争の激化
ETH5.43%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 8
  • 共有
コメント
0/400
ForumMiningMastervip
· 07-24 22:25
光モジュールが狂ったように月へ、果断に買いまくる
原文表示返信0
0xOverleveragedvip
· 07-24 11:16
技術を理解してフルポジションで取り組んでいるのに、まだ何も得ていないなら話さないでください。
原文表示返信0
ForkTonguevip
· 07-24 06:15
ここではずっと話しているのは、結局私に光モジュールの株を買わせるためではないの?
原文表示返信0
NftMetaversePaintervip
· 07-22 10:46
*デジタルモノクルを調整* ネットワークインフラの計算トポロジーが私の最新の生成アートシリーズにどのように似ているか、魅力的です... 本当に美的計算におけるパラダイムシフトです。
原文表示返信0
ForkMongervip
· 07-22 10:44
ネットワークのスケーラビリティが本当のボトルネックです... お前の派手なGPUスタックではない、笑 これは典型的な機械学習の人々の見落としです
原文表示返信0
GasGuzzlervip
· 07-22 10:36
光モジュールの在庫は爆発しそうですね、みんながダンプしようと狂ったように争っています。
原文表示返信0
ZkSnarkervip
· 07-22 10:36
要するに…ネットワークのボトルネックは文字通り新しいGPUのボトルネックだよね
原文表示返信0
GweiTooHighvip
· 07-22 10:29
またカモにされる良い口実だ~
原文表示返信0
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)