聯(lián)想集團(tuán)近日宣布了一項(xiàng)重大技術(shù)突破,成功在聯(lián)想問(wèn)天WA7780 G3服務(wù)器上單機(jī)部署了DeepSeek-R1/V3 671B大模型。這一成就不僅刷新了企業(yè)級(jí)大模型部署的基準(zhǔn),還以遠(yuǎn)低于行業(yè)公認(rèn)的1TGB顯存要求(實(shí)際僅使用768GB),實(shí)現(xiàn)了流暢支持100并發(fā)用戶(hù)的能力,充分滿(mǎn)足千人以上規(guī)模企業(yè)的使用需求。
在DeepSeek大模型本地化部署逐漸成為企業(yè)關(guān)注焦點(diǎn)的背景下,聯(lián)想的這次技術(shù)革新為企業(yè)提供了寶貴的選型參考。面對(duì)行業(yè)普遍存在的關(guān)鍵問(wèn)題,如單機(jī)能否部署完整版的DeepSeek R1、最低配置需求、高并發(fā)與吞吐量下的用戶(hù)體驗(yàn)保障以及如何避免采購(gòu)陷阱,聯(lián)想給出了明確的答案。
聯(lián)想的研發(fā)團(tuán)隊(duì)通過(guò)一系列創(chuàng)新技術(shù),包括專(zhuān)家并行優(yōu)化、智能訪(fǎng)存架構(gòu)升級(jí)以及PCIe 5.0全互聯(lián)架構(gòu)的應(yīng)用,顯著提升了顯存利用率,從而實(shí)現(xiàn)了性能的大幅提升。在512 token標(biāo)準(zhǔn)測(cè)試環(huán)境下,系統(tǒng)能夠支持100個(gè)并發(fā)用戶(hù)以每秒10 token的速度穩(wěn)定輸出,首token響應(yīng)時(shí)間更是被壓縮至30秒以?xún)?nèi)。即使在面對(duì)4K長(zhǎng)序列的復(fù)雜場(chǎng)景時(shí),系統(tǒng)也能保持25個(gè)并發(fā)用戶(hù)的同等性能。
聯(lián)想問(wèn)天WA7780 G3服務(wù)器僅配置了8張96GB顯存的GPU卡,而DeepSeek-R1大模型的模型參數(shù)就占據(jù)了約700GB顯存,剩余顯存空間有限。如果不進(jìn)行專(zhuān)門(mén)優(yōu)化,系統(tǒng)僅能支持2至3個(gè)用戶(hù)接入。然而,在聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)的加持下,通過(guò)精心優(yōu)化,聯(lián)想成功實(shí)現(xiàn)了用戶(hù)體驗(yàn)的三項(xiàng)關(guān)鍵指標(biāo):首token延遲小于30秒、單token延遲小于100毫秒、支持2K以上長(zhǎng)序列問(wèn)題處理。同時(shí),這一方案還實(shí)現(xiàn)了20%以上的成本節(jié)約,充分展示了聯(lián)想在服務(wù)器技術(shù)領(lǐng)域的深厚積累和創(chuàng)新實(shí)力。
聯(lián)想的這一創(chuàng)新成果不僅為企業(yè)提供了設(shè)備選型的新思路,還提醒企業(yè)在評(píng)估測(cè)試數(shù)據(jù)時(shí),應(yīng)審慎看待總吞吐量和總并發(fā)數(shù)等指標(biāo),而應(yīng)更加關(guān)注用戶(hù)體驗(yàn)和數(shù)據(jù)精度等隱藏信息。例如,將數(shù)據(jù)精度從FP8轉(zhuǎn)為int8或int4(即量化)雖然可以顯著提升性能表現(xiàn),但會(huì)犧牲結(jié)果的準(zhǔn)確性,這顯然不是用戶(hù)所期望的。高吞吐量和高并發(fā)量也并不等同于用戶(hù)體驗(yàn)好。如果服務(wù)器GPU卡配置不高,局部通信瓶頸可能會(huì)引發(fā)響應(yīng)延遲,導(dǎo)致用戶(hù)體驗(yàn)降級(jí)。
聯(lián)想的這一技術(shù)突破將有效破除大模型在企業(yè)落地過(guò)程中的瓶頸,加速大模型在企業(yè)的應(yīng)用進(jìn)程。未來(lái),聯(lián)想基礎(chǔ)設(shè)施業(yè)務(wù)群與聯(lián)想研究院先進(jìn)計(jì)算實(shí)驗(yàn)室將繼續(xù)深化合作,依托聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)對(duì)DeepSeek平臺(tái)從AI預(yù)訓(xùn)練、后訓(xùn)練到推理的全流程進(jìn)行持續(xù)優(yōu)化,為客戶(hù)提供性能更佳、性?xún)r(jià)比更高的產(chǎn)品和解決方案,推動(dòng)DeepSeek大模型的廣泛落地,引領(lǐng)新一輪的生產(chǎn)力革命。