AI計(jì)算集群規(guī)模的不斷擴(kuò)大,如何保持算力的線性擴(kuò)展,這是一個(gè)世界性的難題。以并行計(jì)算的方式,將模型參數(shù)與數(shù)據(jù)拆分到多個(gè)GPU上協(xié)同處理。這樣雖然可充分利用多GPU算力,但是同時(shí)也帶來了密集而頻繁的數(shù)據(jù)交換需求。相比傳統(tǒng)通用計(jì)算,這類任務(wù)對網(wǎng)絡(luò)帶寬的要求通常要高出兩個(gè)數(shù)量級。
除此之外,大模型訓(xùn)練中的數(shù)據(jù)同步具有明顯的周期性,這意味著任何一個(gè)環(huán)節(jié)的性能短板——無論是鏈路擁塞還是設(shè)備故障——都可能成為集群的瓶頸,從而影響整個(gè)任務(wù)的進(jìn)度與穩(wěn)定性。
要確保集群算力能夠隨規(guī)模擴(kuò)展而近似線性增長,就必須最大限度地消除這些網(wǎng)絡(luò)短板,構(gòu)建能夠長期維持高帶寬、低延遲和穩(wěn)定性能的互聯(lián)體系。顯然,傳統(tǒng)網(wǎng)絡(luò)在設(shè)計(jì)之初并未針對如此密集的GPU間通信場景進(jìn)行優(yōu)化,難以在此類高強(qiáng)度AI負(fù)載下保持高效。
因此,需要引入一種以GPU為核心的全新網(wǎng)絡(luò)架構(gòu)。這種架構(gòu)以滿足GPU間高速通信為首要目標(biāo),從拓?fù)湓O(shè)計(jì)、協(xié)議選擇、鏈路管理到擁塞控制,均針對AI的特點(diǎn)進(jìn)行專門優(yōu)化。
全球范圍內(nèi)的工程難題無法單靠硬件堆疊解決,必須依賴一系列體系化的技術(shù)架構(gòu)創(chuàng)新,包括拓?fù)鋬?yōu)化、協(xié)議演進(jìn)、鏈路管理與智能調(diào)度等方面的突破。
在這場AI變革中,在大規(guī)模GPU相互連接,計(jì)算與網(wǎng)絡(luò)緊密交織,性能不再是一個(gè)單一的概念。誰能率先構(gòu)建出具備長期演進(jìn)能力的高性能網(wǎng)絡(luò)互聯(lián)方案,誰就有可能在未來的算力競爭中占據(jù)決定性優(yōu)勢。
面對挑戰(zhàn),在孫凝暉院士提出的C體系技術(shù)路線指引下,早在2022年7月,阿里云和中國科學(xué)院計(jì)算技術(shù)研究所聯(lián)合開啟高通量以太網(wǎng)(ETH+)協(xié)議的制定。此后一年,2023年7月,由阿里云和計(jì)算所發(fā)起的『高通量以太網(wǎng)聯(lián)盟』應(yīng)運(yùn)而生。目前,『高通量以太網(wǎng)聯(lián)盟』會員單位已經(jīng)超過50家,涵蓋云廠商、芯片廠商、系統(tǒng)集成商、科研院所等相關(guān)單位。
AI網(wǎng)絡(luò)進(jìn)入大爭之世,各自為戰(zhàn),還是聯(lián)盟合作?『高通量以太網(wǎng)聯(lián)盟』致力于制定面向AI智算場景的高通量以太網(wǎng)協(xié)議,推動(dòng)國內(nèi)智算網(wǎng)絡(luò)標(biāo)準(zhǔn)化,并積極融入國際智算網(wǎng)絡(luò)組織,打造開源開放融合共贏的產(chǎn)業(yè)生態(tài)。
在Scale out階段,『高通量以太網(wǎng)聯(lián)盟』最先提出構(gòu)建面向AI智算領(lǐng)域的以太網(wǎng)生態(tài),最先實(shí)現(xiàn)Scale-Out網(wǎng)絡(luò)協(xié)議的收斂、協(xié)議標(biāo)準(zhǔn)發(fā)布、及芯片化落地。比如,網(wǎng)卡芯片(2*200G 自研網(wǎng)卡芯片)、交換芯片(25.6T 自研交換芯片)、硅光芯片(1*400G 硅光芯片)等成果;同時(shí),基于阿里云HPN(High-Performance Networking)架構(gòu)體系,實(shí)現(xiàn)全國產(chǎn)的落地方案。
2025年,『高通量以太網(wǎng)聯(lián)盟』伴隨著全國高性能計(jì)算學(xué)術(shù)大會邁上新臺階,努力促進(jìn)全國產(chǎn)化完整產(chǎn)業(yè)鏈的形成。Scale-Out場景的芯片化落地及國產(chǎn)解決方案已經(jīng)完成關(guān)鍵性突破。
隨著戰(zhàn)局的推進(jìn),超節(jié)點(diǎn)走進(jìn)數(shù)據(jù)中心組網(wǎng),Scale up場景成為舞臺C位。在Scale-Up場景,『高通量以太網(wǎng)聯(lián)盟』促進(jìn)產(chǎn)業(yè)共識,推動(dòng)協(xié)議制定和原型驗(yàn)證,首先提出并始終堅(jiān)持Scale-Out和Scale-Up網(wǎng)絡(luò)融合發(fā)展的理念,并基于以太網(wǎng)大芯片容量和光互連構(gòu)建全解耦的UPN(超性能網(wǎng)絡(luò))架構(gòu)解決方案。
2025年8月14日,暖城鄂爾多斯,高通量以太網(wǎng)(ETH +)聯(lián)盟年度發(fā)布會同期舉辦。
本次發(fā)布會涵蓋Scale-Up和Scale-Out網(wǎng)絡(luò)場景,分別發(fā)布了:
(1)白皮書:高通量以太網(wǎng)(ETH+)協(xié)議(1.1)聯(lián)盟標(biāo)準(zhǔn)重磅發(fā)布;
(2)網(wǎng)卡芯片:全量支持高通量以太網(wǎng)(ETH+)特性的首款國產(chǎn)400G智能網(wǎng)卡芯片;
(3)交換芯片:支持高通量以太網(wǎng)(ETH+)關(guān)鍵特性的首款國產(chǎn)25.6T交換芯片;
(4)硅光芯片:支持高通量以太網(wǎng)(ETH+)ERack+、ORack+的國產(chǎn)硅光芯片;
(5)高超柜(ERack+): 首款高通量以太網(wǎng)(ETH+)64 超節(jié)點(diǎn);
(6)UPN 512: 基于高通量以太網(wǎng)(ETH+)光互聯(lián)的超節(jié)點(diǎn)解決方案。
其中,高超柜在整體架構(gòu)設(shè)計(jì)上有如下的核心考量和特點(diǎn):
1、高超柜在設(shè)計(jì)之初就定位了高密高帶寬高速率,相比其他Scale up技術(shù)方案,如NVlink、UAlink等,以太網(wǎng)交換芯片具有大帶寬,大Radix,高速率的優(yōu)勢。
2、超節(jié)點(diǎn)內(nèi)部GPU和CPU的配比由于芯片的性能差異以及不同業(yè)務(wù)需求會存在不同,高超柜支持CPU和GPU解耦和配比靈活調(diào)配,CPU 與GPU解耦。而在非解耦方案下,CPU和GPU共同位于Compute Tray內(nèi)。
3、高超柜的重要目標(biāo)之一就是要成為一個(gè)開放的系統(tǒng),以開放架構(gòu)支持高通量以太網(wǎng)生態(tài)的芯片和系統(tǒng)快速落地;從機(jī)柜到Switch tray、Compute tray,均為開放解耦思想。不同的芯片只要根據(jù)規(guī)范來提供或設(shè)計(jì)模組,可快速在高超柜上適配和集成,快速獲取性能數(shù)據(jù),快速產(chǎn)品化。
4、高通量以太網(wǎng)聯(lián)盟扎根國內(nèi)生態(tài),支持國產(chǎn)化是高超柜的重要考量之一,關(guān)鍵部件選擇上均考慮了國產(chǎn)化,為國產(chǎn)化出一份力。
以機(jī)柜為單位可整體交付和部署,是當(dāng)今主流的超節(jié)點(diǎn)系統(tǒng)方案。高超柜是高通量以太網(wǎng)聯(lián)盟針對百卡規(guī)模超節(jié)點(diǎn)的超高密度開放超節(jié)點(diǎn)系統(tǒng)方案。
聯(lián)盟認(rèn)為,Scale-Up場景需階段性推進(jìn)的策略。
第一階段,2025年8月發(fā)布高通量以太網(wǎng)協(xié)議1.1,以及ERACK+,并已經(jīng)完成ERack+ 64原型系統(tǒng)的驗(yàn)證;
第二階段,推動(dòng)UPN新型系統(tǒng)架構(gòu)完成設(shè)計(jì)和標(biāo)準(zhǔn)制定,構(gòu)建基于以太網(wǎng)光互聯(lián)技術(shù)的分布式可擴(kuò)展系統(tǒng)。
AI格局正在快速重塑,不同企業(yè)的私有協(xié)議與聯(lián)盟此起彼伏,生態(tài)分化明顯。在這種背景下,以太網(wǎng)憑借長期積累的生態(tài)與廣泛的兼容性,依然展現(xiàn)出獨(dú)特的規(guī)模優(yōu)勢。為了將以太網(wǎng)的規(guī)模優(yōu)勢進(jìn)一步轉(zhuǎn)化為產(chǎn)業(yè)競爭力,高通量以太網(wǎng)聯(lián)盟開始承擔(dān)起推動(dòng)國產(chǎn)化與體系化落地的使命。高通量以太網(wǎng)聯(lián)盟將不忘初心,通過打造具備國際競爭力的智算網(wǎng)絡(luò),實(shí)現(xiàn)AI智算大集群到AI智算大算力的質(zhì)變。