🎉 攢成長值,抽華爲Mate三折疊!廣場第 1️⃣ 2️⃣ 期夏季成長值抽獎大狂歡開啓!
總獎池超 $10,000+,華爲Mate三折疊手機、F1紅牛賽車模型、Gate限量週邊、熱門代幣等你來抽!
立即抽獎 👉 https://www.gate.com/activities/pointprize?now_period=12
如何快速賺成長值?
1️⃣ 進入【廣場】,點擊頭像旁標識進入【社區中心】
2️⃣ 完成發帖、評論、點讚、發言等日常任務,成長值拿不停
100%有獎,抽到賺到,大獎等你抱走,趕緊試試手氣!
截止於 8月9日 24:00 (UTC+8)
詳情: https://www.gate.com/announcements/article/46384
#成长值抽奖12期开启#
AI時代網路創新趨勢:需求來源與未來發展方向解析
AI時代的網路:需求從何而來,創新將走向何方?
網路是AI大模型時代的關鍵一環。大模型時代,我們已經開始看到光模塊、交換機等網路設備迭代加速,需求爆發。但市場對爲何顯卡需要搭配大量光模塊,以及通信爲何成爲大模型痛點體會較淺。本文將從原理出發,探討網路爲何成爲AI時代的全新"C位",並從最新的產業變化中,討論未來網路側的創新與背後的投資機會。
網路需求從何而來?
進入大模型時代,模型體積和單卡上限之間的差距迅速拉大,業界轉而尋求多服務器集羣來解決模型訓練問題,這也構成了AI時代網路"上位"的基礎。同時,相較於過去單純用於傳輸數據,如今網路更多用於同步顯卡間的模型參數,對網路的密度、容量都提出了更高要求。
日益龐大的模型體積:
當下,業界對訓練數據規模和參數的雙重追求下,唯有加速提升計算效率,才能縮短訓練耗時。而單設備計算速率的更新有其週期和限制,因此如何利用網路盡可能擴大"設備數"和"並行效率"直接決定了算力。
多卡同步的復雜溝通:在大模型訓練過程中,將模型切分至單卡後,每經過一次計算,單卡之間都需要進行對齊(Reduce、Gather等)。同時,在英偉達的通信原語體系NCCL中,All-to-All(即所有節點都可以互相獲取值並對齊)的操作較爲常見,因此對網路之間的傳輸和交換提出了更高的要求。
愈發昂貴的故障成本:大模型的訓練往往持續數月以上,而中間一旦發生中斷,需要回到幾小時或者幾天前的斷點進行重新訓練。而整個網路中某一個軟硬件環節的故障,或者過高的延遲,都有可能導致中斷。更多的中斷,代表着落後的進度和愈發高昂的成本。現代的AI網路,已經漸漸發展成堪比飛機、航母等的人類系統工程能力的結晶。
網路創新將走向何方?
硬件隨需求而動,經過兩年,全球算力投資規模已經膨脹到數百億美元級別,而模型參數的擴張,巨頭的慘烈廝殺依然激烈。現如今,"降本"、"開放"和算力規模之間的平衡將是網路創新的主要議題。
通信介質的更迭:光、銅與硅是人類傳輸的三大介質,在AI時代,光模塊追求更高速率的同時,也邁出了LPO、LRO、硅光等降本之路。在當前時間點,銅纜憑藉性價比,故障率等因素佔領了機櫃內連接。而Chiplet,Wafer-scaling等新半導體技術,則正在加速探索硅基互聯的上限。
網路協議的競爭:片間通信協議與顯卡強綁定,如英偉達的NV-LINK,AMD的Infinity Fabric等等,其決定了單臺服務器或者單個算力節點的能力上限,是非常殘酷的巨頭戰場。而IB與以太網的鬥爭則是節點間通信的主旋律。
網路架構的變化:當下節點間網路架構普遍採用葉脊架構,葉脊具有便捷、簡單、穩定等特點。但隨着單個集羣節點數增多,葉脊稍顯冗餘的架構會給超大集羣帶來較大的網路成本。當下,如Dragonfly架構,rail-only架構等新架構有望成爲面向下一代超大集羣的演進方向。
投資建議
通信系統核心環節:中際旭創、新易盛、天孚通信、工業富聯、英維克、滬電股份。
通信系統創新環節:長飛光纖、太辰光、源傑科技、盛科通信-U、寒武紀、德科立。
風險提示