導讀:中國移動聯(lián)合新華三、朗美通在河北移動鹿泉智算中心,于 7 月 11 日完成業(yè)界首次 800G 以太網智算協(xié)同訓練的現(xiàn)網技術試驗。
7 月 14 日消息,中國移動聯(lián)合新華三、朗美通在河北移動鹿泉智算中心,于 7 月 11 日完成業(yè)界首次 800G 以太網智算協(xié)同訓練的現(xiàn)網技術試驗。
本次試驗采用 IP 與光融合 GSE-DCI 路由器方案,實現(xiàn)支持多個 800G 波長通道的彩光以太組網(Nx800G)。相較傳統(tǒng)“路由器 + 傳輸設備”方案,新技術降低 40% 單比特成本、35% 功耗及 20% 節(jié)點時延。在跨智算中心 700 億參數(shù)大模型訓練中,采用流水線并行(PP)方式,實現(xiàn) 98% 以上的等效算力效率,是探索跨智算中心互聯(lián)的新架構和新技術的重要突破。
中國移動在中長距離 800G 以太網技術和國際標準領域持續(xù)發(fā)力。2024 年,中國移動在 IEEE 802.3 工作組牽頭完成 800G 以太網 20km 標準立項,是由中國公司主導的首個 IEEE 以太網基礎標準立項;同時主導的 20km 和 40km 標準技術框架被 IEEE 采納,統(tǒng)一了 800G 以太網 20~120km 技術標準路線。
基于此標準基礎,本次試點采用了大容量路由器直接接入 800G 中長距彩光以太網模塊的方案,單臺設備將路由功能和長距光傳輸融合,單光纖可支持 25.6T(基于 32 波長 800G)的超大容量傳輸,避免了傳統(tǒng)方案中“路由器 + 傳輸設備”組網帶來的高功耗、高時延和高成本問題,滿足了大模型協(xié)同訓練對超高帶寬與高密度接口的嚴苛要求。
本次試驗主要面向京津冀、長三角等區(qū)域城市群內分散部署的智算中心場景。這些智算中心通常在百公里級圍繞城市群構建。新技術通過以太網彩光直接互聯(lián),將分散的算力資源高效整合,以低成本實現(xiàn)“聚沙成塔”,解決城市群算力碎片化問題。
本次試點驗證了 GSE-DCI 兩大核心技術創(chuàng)新。
一是以太網層負載均衡:流量在多個 800G 波長通道上均衡分擔,避免了流量分布不均問題。
二是IP 層快速擁塞控制:創(chuàng)新的廣域快速擁塞感知(CNP)技術,通過設備主動監(jiān)控網絡擁塞并及時通知數(shù)據(jù)發(fā)送端降速,克服長距離傳輸引發(fā)的擁塞感知延遲和吞吐量下降,實現(xiàn)端側廣域長距無感。
中國移動表示,本次試驗驗證了基于 IP 與光協(xié)同的 GSE-DCI 技術架構的可行性和先進性。后續(xù),中國移動將繼續(xù)推進 GSE-DCI 技術體系的完善,重點探索原創(chuàng)的 SuperPipe、PhySec 和 FlexLane 等新技術,致力于構建全球領先的 AI 算力網絡基礎設施。