亚洲精品国产a久久久久久,亚洲 激情 ,欧美精品,亚洲av日韩综合一区在线观看,亚洲精品不卡av在线播放,无码国产69精品久久久久同性

資訊在沃

高通量以太網(wǎng)聯(lián)盟引領(lǐng)AI智算,Scale-Out到Scale-Up全場景覆蓋新突破

   發(fā)布時(shí)間:2025-08-15 02:34 作者:趙云飛

在人工智能領(lǐng)域,算力集群的持續(xù)擴(kuò)張正面臨前所未有的挑戰(zhàn)。如何確保算力隨著集群規(guī)模的擴(kuò)大而線性增長,成為業(yè)界亟待解決的難題。傳統(tǒng)的并行計(jì)算方式,通過將模型參數(shù)與數(shù)據(jù)分散到多個(gè)GPU上協(xié)同作業(yè),雖然能有效利用多GPU的算力,但同時(shí)也引發(fā)了數(shù)據(jù)交換需求的激增,對網(wǎng)絡(luò)帶寬提出了更高要求。

大模型訓(xùn)練中的數(shù)據(jù)同步呈現(xiàn)出明顯的周期性特點(diǎn),這意味著集群中的任何性能瓶頸,無論是鏈路擁塞還是設(shè)備故障,都可能對整個(gè)任務(wù)的進(jìn)度與穩(wěn)定性構(gòu)成威脅。為了保持集群算力的線性擴(kuò)展,構(gòu)建能夠長期維持高帶寬、低延遲和穩(wěn)定性能的互聯(lián)體系至關(guān)重要。然而,傳統(tǒng)網(wǎng)絡(luò)設(shè)計(jì)并未針對GPU間密集通信場景進(jìn)行優(yōu)化,難以滿足高強(qiáng)度AI負(fù)載的需求。

為了應(yīng)對這一挑戰(zhàn),業(yè)界開始探索以GPU為核心的全新網(wǎng)絡(luò)架構(gòu)。這種架構(gòu)從拓?fù)湓O(shè)計(jì)、協(xié)議選擇、鏈路管理到擁塞控制,均針對AI的特點(diǎn)進(jìn)行了專門優(yōu)化,旨在滿足GPU間高速通信的需求。在全球范圍內(nèi),這一難題的解決不僅依賴于硬件的堆疊,更需要一系列體系化的技術(shù)架構(gòu)創(chuàng)新,包括拓?fù)鋬?yōu)化、協(xié)議演進(jìn)、鏈路管理與智能調(diào)度等方面的突破。

在這一背景下,阿里云與中國科學(xué)院計(jì)算技術(shù)研究所攜手,于2022年7月啟動(dòng)了高通量以太網(wǎng)(ETH+)協(xié)議的制定工作。一年后,由雙方發(fā)起的“高通量以太網(wǎng)聯(lián)盟”正式成立,成員單位已超過50家,涵蓋了云廠商、芯片廠商、系統(tǒng)集成商、科研院所等多個(gè)領(lǐng)域。該聯(lián)盟致力于制定面向AI智算場景的高通量以太網(wǎng)協(xié)議,推動(dòng)國內(nèi)智算網(wǎng)絡(luò)標(biāo)準(zhǔn)化,并積極融入國際智算網(wǎng)絡(luò)組織,構(gòu)建開源開放、融合共贏的產(chǎn)業(yè)生態(tài)。

在Scale-Out階段,“高通量以太網(wǎng)聯(lián)盟”率先提出了構(gòu)建面向AI智算領(lǐng)域的以太網(wǎng)生態(tài),并實(shí)現(xiàn)了Scale-Out網(wǎng)絡(luò)協(xié)議的收斂、協(xié)議標(biāo)準(zhǔn)發(fā)布及芯片化落地。例如,網(wǎng)卡芯片、交換芯片、硅光芯片等關(guān)鍵成果相繼問世,同時(shí)基于阿里云HPN架構(gòu)體系,實(shí)現(xiàn)了全國產(chǎn)的落地方案。隨著戰(zhàn)局的不斷推進(jìn),超節(jié)點(diǎn)開始走進(jìn)數(shù)據(jù)中心組網(wǎng),Scale-Up場景成為關(guān)注焦點(diǎn)。在這一場景下,“高通量以太網(wǎng)聯(lián)盟”促進(jìn)產(chǎn)業(yè)共識,推動(dòng)協(xié)議制定和原型驗(yàn)證,始終堅(jiān)持Scale-Out和Scale-Up網(wǎng)絡(luò)融合發(fā)展的理念,并基于以太網(wǎng)大芯片容量和光互連技術(shù),構(gòu)建了全解耦的UPN(超性能網(wǎng)絡(luò))架構(gòu)解決方案。

在2025年8月14日于鄂爾多斯舉辦的高通量以太網(wǎng)聯(lián)盟年度發(fā)布會(huì)上,聯(lián)盟發(fā)布了涵蓋Scale-Up和Scale-Out網(wǎng)絡(luò)場景的多項(xiàng)重要成果。其中包括高通量以太網(wǎng)(ETH+)協(xié)議1.1聯(lián)盟標(biāo)準(zhǔn)的重磅發(fā)布,以及全量支持高通量以太網(wǎng)特性的首款國產(chǎn)400G智能網(wǎng)卡芯片、首款國產(chǎn)25.6T交換芯片、支持高通量以太網(wǎng)ERack+、ORack+的國產(chǎn)硅光芯片等。還推出了首款高通量以太網(wǎng)64超節(jié)點(diǎn)高超柜(ERack+)以及基于高通量以太網(wǎng)光互聯(lián)的超節(jié)點(diǎn)解決方案UPN 512。

高超柜在設(shè)計(jì)上充分考慮了高密高帶寬高速率的需求,相比其他Scale-Up技術(shù)方案,以太網(wǎng)交換芯片具有大帶寬、大Radix、高速率的優(yōu)勢。同時(shí),高超柜支持CPU和GPU的解耦和靈活配比,以適應(yīng)不同業(yè)務(wù)需求。作為一個(gè)開放的系統(tǒng),高超柜以開放架構(gòu)支持高通量以太網(wǎng)生態(tài)的芯片和系統(tǒng)快速落地,從機(jī)柜到Switch tray、Compute tray,均采用開放解耦思想,便于不同芯片根據(jù)規(guī)范快速適配和集成。高超柜在關(guān)鍵部件選擇上均考慮了國產(chǎn)化,為國產(chǎn)化貢獻(xiàn)力量。

聯(lián)盟認(rèn)為,Scale-Up場景的發(fā)展需要分階段推進(jìn)。第一階段已經(jīng)完成了高通量以太網(wǎng)協(xié)議1.1的發(fā)布以及ERACK+ 64原型系統(tǒng)的驗(yàn)證。第二階段將推動(dòng)UPN新型系統(tǒng)架構(gòu)的設(shè)計(jì)和標(biāo)準(zhǔn)制定,構(gòu)建基于以太網(wǎng)光互聯(lián)技術(shù)的分布式可擴(kuò)展系統(tǒng)。隨著AI格局的快速重塑,不同企業(yè)的私有協(xié)議與聯(lián)盟此起彼伏,生態(tài)分化明顯。以太網(wǎng)憑借長期積累的生態(tài)與廣泛的兼容性,展現(xiàn)出獨(dú)特的規(guī)模優(yōu)勢。為了將這一優(yōu)勢進(jìn)一步轉(zhuǎn)化為產(chǎn)業(yè)競爭力,“高通量以太網(wǎng)聯(lián)盟”正承擔(dān)起推動(dòng)國產(chǎn)化與體系化落地的使命,致力于通過打造具備國際競爭力的智算網(wǎng)絡(luò),實(shí)現(xiàn)AI智算大集群到AI智算大算力的質(zhì)變。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新