在人工智能與高性能計算領(lǐng)域需求激增的今天,數(shù)據(jù)存儲的效能與穩(wěn)定性成為了推動算力發(fā)展的關(guān)鍵基石。近日,上海霄云信息科技有限公司震撼發(fā)布了其全新一代AI存儲力作——霄云銀河存儲系統(tǒng)。該系統(tǒng)專為人工智能模型訓(xùn)練、高性能計算(HPC)及生命科學(xué)等前沿應(yīng)用場景量身打造,憑借“極致速度、高可用性以及全鏈路可視化”的核心理念,重塑了企業(yè)級存儲的性能標(biāo)準(zhǔn)。
霄云銀河存儲系統(tǒng)在三大核心場景中展現(xiàn)出了卓越的性能:
針對人工智能模型訓(xùn)練與推理,該系統(tǒng)內(nèi)置GPU Direct Storage技術(shù),實現(xiàn)了數(shù)據(jù)繞開CPU直達GPU顯存的高效傳輸,讀取速度高達90GB/s,寫入速度也達到了75GB/s,極大提升了超大規(guī)模模型訓(xùn)練的效率。單個元數(shù)據(jù)服務(wù)器能夠管理高達50億個文件,優(yōu)化了檢查點存儲,加速了模型訓(xùn)練的恢復(fù)過程。
在高性能計算領(lǐng)域,霄云銀河存儲系統(tǒng)支持百萬級別的IOPS以及微秒級的延遲,通過并行文件系統(tǒng)和InfiniBand高速網(wǎng)絡(luò),輕松應(yīng)對氣象模擬、石油勘探等復(fù)雜場景對海量數(shù)據(jù)的并行處理需求。同時,Multi-Rail多網(wǎng)卡聚合技術(shù)確保了90%以上的帶寬利用率,保障了多客戶端并發(fā)訪問的流暢無阻。
在生命科學(xué)領(lǐng)域,該系統(tǒng)能夠高效處理基因測序、蛋白折疊等超大規(guī)模非結(jié)構(gòu)化數(shù)據(jù),結(jié)合RAID 10/5/6冗余架構(gòu),確保了科研數(shù)據(jù)的完整性和分析工作的連續(xù)性。
霄云銀河存儲系統(tǒng)的顛覆性設(shè)計構(gòu)建在“應(yīng)用-雙控-存儲”的三層架構(gòu)之上,通過軟硬件的深度協(xié)同創(chuàng)新,徹底革新了存儲的底層邏輯。雙控服務(wù)器層內(nèi)置高性能并行文件系統(tǒng),支持無縫橫向擴展,性能隨節(jié)點增加呈線性增長。同時,雙控機箱具備10秒級故障切換能力,配合共享硬件RAID,實現(xiàn)了控制器故障時的業(yè)務(wù)零中斷。
在存儲節(jié)點層,全閃存RAID陣列支持熱插拔和在線擴容,數(shù)據(jù)冗余無需軟件同步,既簡化了軟件復(fù)雜性,又避免了節(jié)點間數(shù)據(jù)交換對網(wǎng)絡(luò)帶寬的占用。統(tǒng)一命名空間管理使得新增節(jié)點能夠自動納入資源池,極大提升了擴展性。
該系統(tǒng)還支持Infiniband/ROCE RDMA網(wǎng)絡(luò)協(xié)議,提供400Gbps的高速傳輸能力,構(gòu)建了低延遲、高帶寬的數(shù)據(jù)通道。
霄云銀河存儲系統(tǒng)的六大功能特性引領(lǐng)了未來存儲的發(fā)展潮流:GPU Direct Storage技術(shù)消除了CPU瓶頸,使模型訓(xùn)練速度提升了兩倍以上;CheckPoint智能優(yōu)化系統(tǒng)自動管理存儲資源,加速了模型訓(xùn)練的恢復(fù);極速故障恢復(fù)機制確保雙控高可用系統(tǒng)在10秒內(nèi)完成I/O接管,保障了關(guān)鍵業(yè)務(wù)的連續(xù)性;企業(yè)級安全與管理功能包括CSI私有客戶端容器化部署以及用戶配額和ACL訪問控制,滿足了金融、醫(yī)療等行業(yè)的合規(guī)要求;硬件級冗余支持RAID 10/5/6,硬盤故障時自動重建,提供了超越傳統(tǒng)軟件RAID方案的數(shù)據(jù)安全性;全鏈路監(jiān)控系統(tǒng)采用獨立模塊化設(shè)計,實時可視化IO性能、硬件狀態(tài)及網(wǎng)絡(luò)負載,有助于精準(zhǔn)故障定位。
在技術(shù)亮點方面,霄云銀河存儲系統(tǒng)通過專用硬件處理XOR運算,徹底釋放了CPU資源,并避免了節(jié)點間數(shù)據(jù)交換對網(wǎng)絡(luò)帶寬的占用。統(tǒng)一命名空間技術(shù)實現(xiàn)了跨節(jié)點文件系統(tǒng)的無縫整合,提升了管理效率。同時,InfiniBand提供400Gbps的基礎(chǔ)傳輸速度,配合Multi-Rail負載均衡技術(shù),實現(xiàn)了大規(guī)模并行訪問的無擁塞。
霄云銀河存儲系統(tǒng)不僅是存儲領(lǐng)域的革新之作,更是AI基礎(chǔ)設(shè)施的核心組件。它通過軟硬件的協(xié)同優(yōu)化,解決了傳統(tǒng)存儲在擴展性、延遲與管理復(fù)雜度上的難題,使數(shù)據(jù)流動與算力增長實現(xiàn)了完美匹配,助力企業(yè)在AI時代搶占先機。
上海霄云信息科技有限公司自2015年成立以來,一直深耕高性能分布式存儲領(lǐng)域。其核心技術(shù)團隊歷經(jīng)多年鉆研,成功將上海市科委“PB級海量存儲系統(tǒng)”課題的科研成果轉(zhuǎn)化為實際應(yīng)用。霄云科技自研的高性能分布式存儲產(chǎn)品憑借其高品質(zhì)、高可靠性以及自主知識產(chǎn)權(quán)和高技術(shù)壁壘,已經(jīng)廣泛應(yīng)用于醫(yī)療、金融、電信、教育、制造等多個行業(yè),贏得了用戶的高度贊譽。