# AI時代のネットワーク:需要はどこから来て、革新はどこへ向かうのか?ネットワークはAI大モデル時代の重要な要素です。大モデル時代において、光モジュールやスイッチなどのネットワーク機器の迭代が加速し、需要が爆発しています。しかし、市場ではなぜGPUが大量の光モジュールを必要とするのか、また通信がなぜ大モデルの痛点となっているのかの理解が浅いです。本稿では原理から出発し、ネットワークがなぜAI時代の新たな「C位置」となるのかを探り、最新の産業変化からネットワーク側のイノベーションとその背後にある投資機会について議論します。## ネットワークの需要はどこから来るのか?大規模モデルの時代に入り、モデルのサイズと単一カードの上限の間のギャップが急速に拡大し、業界はモデルのトレーニング問題を解決するために複数のサーバークラスターを求めるようになりました。これはAI時代のネットワークの「上位」に位置づけられる基盤となります。同時に、過去の単純なデータ伝送に比べて、現在のネットワークはGPU間のモデルパラメータを同期するためにより多く利用されており、ネットワークの密度と容量に対してより高い要求がなされています。ますます大きくなるモデルのサイズ:1. 訓練にかかる時間 = 訓練データの規模 x モデルのパラメータ量 / 計算速度2. 計算速度 = 単一デバイスの計算速度 x デバイス数 x マルチデバイス並列効率現在、業界ではトレーニングデータの規模とパラメータの二重の追求の中で、計算効率を加速的に向上させることが、トレーニングにかかる時間を短縮する唯一の方法です。しかし、単一デバイスの計算速度の更新には周期と制限があります。したがって、ネットワークを利用して"デバイス数"と"並列効率"をできるだけ拡大することが、計算能力を直接決定します。複雑なマルチカード同期通信:大規模モデルの訓練プロセス中に、モデルを単一カードに分割した後、計算ごとに単一カード間で調整が必要です(Reduce、Gatherなど)。また、NVIDIAの通信原語体系NCCLでは、All-to-All(すべてのノードが互いに値を取得し、調整する操作が一般的であるため、ネットワーク間の伝送と交換に対してより高い要求が課せられています。ますます高くなる障害コスト: 大規模モデルのトレーニングは通常数ヶ月以上続きますが、途中で中断が発生した場合、数時間または数日前のチェックポイントに戻って再トレーニングする必要があります。ネットワーク全体の特定のソフトウェアまたはハードウェアの障害、または過度の遅延が中断を引き起こす可能性があります。中断が多いほど、進捗が遅れ、コストがますます高くなります。現代のAIネットワークは、飛行機や航空母艦などの人間のシステム工学能力に匹敵する結晶に徐々に発展しています。## ネットワークのイノベーションはどこへ向かうのか?ハードウェアは需要に応じて動き、2年を経て、世界の計算力投資規模は数百億ドルのレベルに膨れ上がり、モデルパラメータの拡張や巨頭たちの熾烈な競争は依然として激しい。現在、「コスト削減」、「オープン」に加え、計算力の規模とのバランスがネットワーク革新の主要な議題となる。通信媒体の交代: 光、銅、シリコンは人類の伝送の三大媒体であり、AI時代において光モジュールはより高速なデータ転送を追求する一方で、LPO、LRO、シリコンフォトニクスなどのコスト削減の道を歩んでいます。現時点では、銅線はコストパフォーマンスや故障率などの要因により、ラック内の接続を占めています。一方、ChipletやWaferスケーリングなどの新しい半導体技術は、シリコンベースの相互接続の限界を加速的に探求しています。ネットワークプロトコルの競争: インターコネクトプロトコルとGPUの強い結びつき、例えばNVIDIAのNV-LINK、AMDのInfinity Fabricなどは、単一のサーバーまたは単一のコンピューティングノードの能力の上限を決定し、非常に厳しい競争の場である。そして、IBとイーサネットの闘争はノード間通信の主旋律である。ネットワークアーキテクチャの変化: 現在、ノード間のネットワークアーキテクチャは一般的にリーフ-スパインアーキテクチャを採用しており、リーフ-スパインは便利でシンプル、安定した特性を持っています。しかし、単一のクラスターのノード数が増えるにつれて、リーフ-スパインのやや冗長なアーキテクチャは超大規模クラスターに大きなネットワークコストをもたらす可能性があります。現在、DragonflyアーキテクチャやRail-onlyアーキテクチャなどの新しいアーキテクチャが、次世代の超大規模クラスターに向けた進化の方向性になることが期待されています。## 投資アドバイス通信システムのコアリンク:Zhongji Innolight、Xin Yisheng、Tianfu Communication、Industrial Fortune Union、Invic、Shanghai Electric Co.、Ltd。通信システムの革新:YOFC、Tetherlight、Yuanjie Technology、Centec Communications-U、Cambrian、Taclink。## リスク提示1. AIの需要は予想よりも少ない2. スケーリング法則の失効3. 業界における競争の激化
AI時代のネットワーク革新トレンド:需要の源と未来の発展方向の解析
AI時代のネットワーク:需要はどこから来て、革新はどこへ向かうのか?
ネットワークはAI大モデル時代の重要な要素です。大モデル時代において、光モジュールやスイッチなどのネットワーク機器の迭代が加速し、需要が爆発しています。しかし、市場ではなぜGPUが大量の光モジュールを必要とするのか、また通信がなぜ大モデルの痛点となっているのかの理解が浅いです。本稿では原理から出発し、ネットワークがなぜAI時代の新たな「C位置」となるのかを探り、最新の産業変化からネットワーク側のイノベーションとその背後にある投資機会について議論します。
ネットワークの需要はどこから来るのか?
大規模モデルの時代に入り、モデルのサイズと単一カードの上限の間のギャップが急速に拡大し、業界はモデルのトレーニング問題を解決するために複数のサーバークラスターを求めるようになりました。これはAI時代のネットワークの「上位」に位置づけられる基盤となります。同時に、過去の単純なデータ伝送に比べて、現在のネットワークはGPU間のモデルパラメータを同期するためにより多く利用されており、ネットワークの密度と容量に対してより高い要求がなされています。
ますます大きくなるモデルのサイズ:
現在、業界ではトレーニングデータの規模とパラメータの二重の追求の中で、計算効率を加速的に向上させることが、トレーニングにかかる時間を短縮する唯一の方法です。しかし、単一デバイスの計算速度の更新には周期と制限があります。したがって、ネットワークを利用して"デバイス数"と"並列効率"をできるだけ拡大することが、計算能力を直接決定します。
複雑なマルチカード同期通信:大規模モデルの訓練プロセス中に、モデルを単一カードに分割した後、計算ごとに単一カード間で調整が必要です(Reduce、Gatherなど)。また、NVIDIAの通信原語体系NCCLでは、All-to-All(すべてのノードが互いに値を取得し、調整する操作が一般的であるため、ネットワーク間の伝送と交換に対してより高い要求が課せられています。
ますます高くなる障害コスト: 大規模モデルのトレーニングは通常数ヶ月以上続きますが、途中で中断が発生した場合、数時間または数日前のチェックポイントに戻って再トレーニングする必要があります。ネットワーク全体の特定のソフトウェアまたはハードウェアの障害、または過度の遅延が中断を引き起こす可能性があります。中断が多いほど、進捗が遅れ、コストがますます高くなります。現代のAIネットワークは、飛行機や航空母艦などの人間のシステム工学能力に匹敵する結晶に徐々に発展しています。
ネットワークのイノベーションはどこへ向かうのか?
ハードウェアは需要に応じて動き、2年を経て、世界の計算力投資規模は数百億ドルのレベルに膨れ上がり、モデルパラメータの拡張や巨頭たちの熾烈な競争は依然として激しい。現在、「コスト削減」、「オープン」に加え、計算力の規模とのバランスがネットワーク革新の主要な議題となる。
通信媒体の交代: 光、銅、シリコンは人類の伝送の三大媒体であり、AI時代において光モジュールはより高速なデータ転送を追求する一方で、LPO、LRO、シリコンフォトニクスなどのコスト削減の道を歩んでいます。現時点では、銅線はコストパフォーマンスや故障率などの要因により、ラック内の接続を占めています。一方、ChipletやWaferスケーリングなどの新しい半導体技術は、シリコンベースの相互接続の限界を加速的に探求しています。
ネットワークプロトコルの競争: インターコネクトプロトコルとGPUの強い結びつき、例えばNVIDIAのNV-LINK、AMDのInfinity Fabricなどは、単一のサーバーまたは単一のコンピューティングノードの能力の上限を決定し、非常に厳しい競争の場である。そして、IBとイーサネットの闘争はノード間通信の主旋律である。
ネットワークアーキテクチャの変化: 現在、ノード間のネットワークアーキテクチャは一般的にリーフ-スパインアーキテクチャを採用しており、リーフ-スパインは便利でシンプル、安定した特性を持っています。しかし、単一のクラスターのノード数が増えるにつれて、リーフ-スパインのやや冗長なアーキテクチャは超大規模クラスターに大きなネットワークコストをもたらす可能性があります。現在、DragonflyアーキテクチャやRail-onlyアーキテクチャなどの新しいアーキテクチャが、次世代の超大規模クラスターに向けた進化の方向性になることが期待されています。
投資アドバイス
通信システムのコアリンク:Zhongji Innolight、Xin Yisheng、Tianfu Communication、Industrial Fortune Union、Invic、Shanghai Electric Co.、Ltd。
通信システムの革新:YOFC、Tetherlight、Yuanjie Technology、Centec Communications-U、Cambrian、Taclink。
リスク提示