華為在2025年的鯤鵬昇騰開發(fā)者大會上,正式揭曉了其最新的技術創(chuàng)新——昇騰超節(jié)點技術。這一技術不僅實現(xiàn)了業(yè)界前所未有的384卡高速總線互聯(lián)規(guī)模,更為AI大模型的未來發(fā)展開辟了新路徑。
當前,AI大模型的發(fā)展正處于參數(shù)規(guī)模與運行效率交替提升的關鍵階段。一方面,Scaling Law持續(xù)推動模型能力的邊界拓展;另一方面,諸如DeepSeek等創(chuàng)新架構與技術,正加快模型在各行各業(yè)的落地應用步伐。在此背景下,MoE模型結(jié)構逐漸成為主流,但其復雜的混合并行策略給計算帶來了巨大挑戰(zhàn),單次通信量高達GB級別且難以通過技術手段掩蓋。
隨著模型并行規(guī)模的日益擴大,傳統(tǒng)服務器跨機帶寬的限制愈發(fā)凸顯,成為制約訓練效率的關鍵因素。傳統(tǒng)服務器主要依賴以太網(wǎng)絡實現(xiàn)跨機互聯(lián),通信帶寬有限。實踐表明,當分布式策略的混合并行域超過8卡時,跨機通信帶寬便成為明顯的性能瓶頸,導致整體性能顯著下滑。
為了突破這一瓶頸,華為推出了昇騰超節(jié)點技術。該技術打破了傳統(tǒng)的以CPU為中心的馮諾依曼架構,創(chuàng)新性地提出了對等計算架構。通過高速總線互聯(lián)技術,華為成功將總線從服務器內(nèi)部擴展至整機柜乃至跨機柜,實現(xiàn)了通信性能的重大飛躍。在超節(jié)點范圍內(nèi),高速總線互聯(lián)替代了傳統(tǒng)的以太網(wǎng),通信帶寬提升了15倍,單跳通信時延從2微秒降低至200納秒,降幅達10倍。這一變革使得集群內(nèi)的各節(jié)點能夠像一臺計算機一樣協(xié)同工作,從而有效突破了系統(tǒng)性能的限制。
據(jù)悉,此次推出的昇騰384超節(jié)點由12個計算柜和4個總線柜組成,是當前業(yè)界規(guī)模最大的超節(jié)點。依托華為在ICT領域的深厚積累與卓越技術實力,該超節(jié)點通過最佳負載均衡組網(wǎng)方案,可進一步擴展為包含數(shù)萬卡的Atlas 900 SuperCluster超節(jié)點集群,為未來更大規(guī)模模型的演進提供了堅實支撐。
性能測試數(shù)據(jù)顯示,在昇騰超節(jié)點集群上運行LLaMA 3等千億級稠密模型時,性能相比傳統(tǒng)集群提升了2.5倍以上。而在通信需求更高的Qwen、DeepSeek等多模態(tài)、MoE模型上,性能提升更是達到了3倍以上,相較于業(yè)界其他集群,性能高出1.2倍,彰顯了華為昇騰超節(jié)點在AI計算領域的領先地位。