在近期舉辦的開放計算項目峰會上,英偉達宣布了一項重大進展:其專為人工智能設(shè)計的Spectrum-X以太網(wǎng)網(wǎng)絡(luò)平臺,已獲得meta平臺與甲骨文兩大科技巨頭的采用。這一舉措標志著數(shù)據(jù)中心正逐步轉(zhuǎn)型為“大型人工智能工廠”,而網(wǎng)絡(luò)架構(gòu)則成為推動這一變革的核心力量。
Spectrum-X并非傳統(tǒng)以太網(wǎng)的簡單升級,而是從底層架構(gòu)開始就針對AI工作負載的獨特需求進行優(yōu)化。它能夠高效處理大規(guī)模GPU間的全對全同步、低延遲消息傳遞,以及易發(fā)擁塞的流量模式。英偉達宣稱,相較于傳統(tǒng)以太網(wǎng),Spectrum-X在AI通信領(lǐng)域的網(wǎng)絡(luò)性能提升了1.6倍,這一提升直接轉(zhuǎn)化為GPU利用率的顯著提高和訓(xùn)練推理效率的飛躍。
對于meta而言,Spectrum-X的引入意味著其開放網(wǎng)絡(luò)架構(gòu)FBOSS將獲得AI加速的強力支持。通過將Spectrum-X集成至FBOSS及Minipack3N交換機中,meta不僅擴展了開放硬件與軟件的理念至AI基礎(chǔ)設(shè)施層,還為萬億參數(shù)模型時代的訓(xùn)練提供了優(yōu)化的加速骨干網(wǎng)。meta網(wǎng)絡(luò)工程副總裁Gaya Nagarajan強調(diào),下一代AI基礎(chǔ)設(shè)施需要前所未有的開放高效網(wǎng)絡(luò),而Spectrum-X正是這一需求的完美回應(yīng)。
甲骨文則采取了規(guī)模化部署的策略,利用Spectrum-X構(gòu)建由英偉達Vera Rubin架構(gòu)驅(qū)動的千兆規(guī)模AI工廠。甲骨文云基礎(chǔ)設(shè)施執(zhí)行副總裁Mahesh Thiagarajan表示,Spectrum-X的引入使得數(shù)百萬GPU能夠以突破性效率實現(xiàn)互連,為全球分布式AI工廠的構(gòu)建奠定了基礎(chǔ)。通過SpectrumXGS技術(shù),甲骨文能夠?qū)⒍鄠€數(shù)據(jù)中心甚至跨國家的集群連接成一個邏輯AI系統(tǒng),實現(xiàn)了真正意義上的分布式AI。
Spectrum-X的架構(gòu)細節(jié)揭示了其成功的關(guān)鍵。它集成了Spectrum4以太網(wǎng)交換機,提供每秒51.2太比特的吞吐量,同時結(jié)合了BlueField-3超級網(wǎng)卡和DPU,卸載并保護網(wǎng)絡(luò)服務(wù),使GPU能夠?qū)W⒂谟嬎?。Spectrum-X還提供了先進的遙測和路由功能,動態(tài)調(diào)整數(shù)據(jù)包流以防止擁塞,并支持高速RDMA和多租戶環(huán)境,實現(xiàn)了GPU到GPU通信的加速和安全的多租戶管理。
隨著AI應(yīng)用的日益數(shù)據(jù)饑渴,網(wǎng)絡(luò)已成為AI時代的實際操作系統(tǒng)。它不僅跨云、邊緣和數(shù)據(jù)中心編排、調(diào)度和同步分布式資源,還成為了AI工廠的控制平面和神經(jīng)系統(tǒng)。英偉達首席執(zhí)行官黃仁勛指出,萬億參數(shù)模型正在將數(shù)據(jù)中心轉(zhuǎn)變?yōu)榍д滓?guī)模的AI工廠,而Spectrum-X則是這一變革的神經(jīng)系統(tǒng)。
meta和甲骨文的采用驗證了AI基礎(chǔ)設(shè)施的一個重要拐點:AI的性能前沿已從計算轉(zhuǎn)向連接。網(wǎng)絡(luò)設(shè)計已成為AI未來的戰(zhàn)略杠桿,決定了性能、成本和能源效率。通過Spectrum-X,英偉達正在將以太網(wǎng)重新定義為AI以太網(wǎng),一個能夠跨地理擴展、完全儀表化、GPU感知且無擁塞的數(shù)據(jù)結(jié)構(gòu)。這一舉措不僅將英偉達置于新大規(guī)模計算堆棧的中心,還向超大規(guī)模廠商傳遞了一個明確的信息:AI性能現(xiàn)在從網(wǎng)絡(luò)開始。