杭州靈汐類腦科技有限公司攜手中國電信、中國電子科技南湖研究院及腦啟社區(qū),于七月底成功啟動(dòng)了“杭州靈汐類腦智算集群”的企業(yè)服務(wù)試運(yùn)行,標(biāo)志著大模型快速推理API正式步入商業(yè)化測(cè)試階段。該集群由杭州電信負(fù)責(zé)集成建設(shè),落戶于中國電信杭州智算中心,算力規(guī)模突破200POPS大關(guān),成為全球首個(gè)以支持大模型快速推理方式投入商用的類腦智算集群。
作為類腦智能技術(shù)的創(chuàng)新實(shí)踐,“杭州靈汐類腦智算集群”憑借其獨(dú)特的“存算一體、眾核并行、稀疏計(jì)算、事件驅(qū)動(dòng)”特性,在計(jì)算效率與能耗控制上實(shí)現(xiàn)了質(zhì)的飛躍。這一技術(shù)革新不僅大幅提升了大語言模型的推理速度,將單用戶推理延遲縮短至毫秒級(jí),相較于傳統(tǒng)方案,其速度性能優(yōu)勢(shì)顯著,能夠流暢應(yīng)對(duì)實(shí)時(shí)交互與深度推理需求,徹底告別卡頓現(xiàn)象。同時(shí),首token延遲也顯著降低,達(dá)到百毫秒乃至十毫秒級(jí)別。該智算集群的功耗較業(yè)界同等推理算力水平降低了二分之一至三分之二以上,展現(xiàn)了極高的能效比。
圖:靈汐智算平臺(tái)大模型登錄界面
異構(gòu)融合類腦芯片是該集群的另一大亮點(diǎn),其內(nèi)置的類CUDA軟件棧兼容PyTorch框架,使得多類開源大模型無需轉(zhuǎn)換類腦算法即可直接享受快速推理服務(wù)。這一特性極大地拓寬了類腦智算集群的應(yīng)用范圍,為行業(yè)提供了更為便捷、高效的解決方案。
圖:靈汐智算平臺(tái)大模型快速推理界面
當(dāng)前,大模型推理領(lǐng)域普遍面臨吞吐速度慢、高延遲等挑戰(zhàn),這對(duì)眾多行業(yè)應(yīng)用場(chǎng)景構(gòu)成了嚴(yán)重制約。針對(duì)這一問題,靈汐科技憑借類腦智能技術(shù),推出了“高實(shí)時(shí)、高吞吐、低延遲”的推理服務(wù)解決方案。該方案在金融應(yīng)用、情感陪聊、快速導(dǎo)覽、大規(guī)模數(shù)據(jù)標(biāo)注以及無人機(jī)實(shí)時(shí)航拍處理、災(zāi)害預(yù)警與應(yīng)急處置等多個(gè)領(lǐng)域展現(xiàn)出巨大潛力,有望推動(dòng)這些行業(yè)向更高效、更智能的方向發(fā)展。