隨著人工智能技術(shù)的快速發(fā)展,大模型訓(xùn)練和推理對計算資源的需求日益增長。異構(gòu)計算硬件體系憑借其多樣化的計算單元組合,成為滿足這一需求的重要解決方案。該體系主要由CPU、GPU、FPGA和ASIC等不同類型的處理器構(gòu)成,每種處理器在特定應(yīng)用場景中展現(xiàn)出獨特優(yōu)勢。
作為通用計算核心的CPU,以其強大的邏輯控制和任務(wù)調(diào)度能力,在處理復(fù)雜串行任務(wù)時表現(xiàn)突出。然而,在AI計算場景中,CPU的并行計算能力相對有限,能效比也低于專用加速器。現(xiàn)代CPU通過集成多核心和SIMD指令集(如AVX-512)等技術(shù),在一定程度上提升了AI計算性能,但仍與專用硬件存在差距。
GPU最初為圖形渲染設(shè)計,因其強大的并行計算能力,現(xiàn)已成為AI訓(xùn)練和推理的主流選擇。GPU配備數(shù)千個計算核心,在矩陣運算和卷積運算等AI核心算法上表現(xiàn)優(yōu)異。盡管GPU在能效比方面優(yōu)于CPU,但功耗較高且成本昂貴。在特定算法場景中,GPU的效率可能不及專用芯片。
FPGA以其硬件可重構(gòu)特性,允許用戶根據(jù)特定應(yīng)用需求定制硬件邏輯,實現(xiàn)高度優(yōu)化的計算加速。FPGA在能效比和靈活性方面具有優(yōu)勢,特別適合需要定制化加速的場景。然而,F(xiàn)PGA開發(fā)復(fù)雜度高,需要專業(yè)硬件設(shè)計知識,且運行頻率相對較低,在大規(guī)模部署時面臨挑戰(zhàn)。
ASIC針對特定應(yīng)用進行優(yōu)化,在能效比和性能方面表現(xiàn)最佳。AI領(lǐng)域的ASIC(如TPU、NPU)針對深度學(xué)習(xí)算法特點進行專門優(yōu)化,實現(xiàn)了極高的計算密度和能效比。然而,ASIC缺乏通用性,開發(fā)成本高且周期長,適合大規(guī)模、固定場景的應(yīng)用。
在大模型場景中,不同芯片各有所長:GPU適合大規(guī)模并行訓(xùn)練,ASIC適合高能效推理,F(xiàn)PGA適合特定算法加速,CPU適合任務(wù)調(diào)度和控制。異構(gòu)計算架構(gòu)通過合理組合這些計算單元,可以充分發(fā)揮各自優(yōu)勢,實現(xiàn)整體系統(tǒng)性能的最優(yōu)化。
從性能功耗比來看,ASIC表現(xiàn)最優(yōu),GPU次之,F(xiàn)PGA再次之,CPU最低。但從靈活性和開發(fā)難度來看,則呈現(xiàn)相反趨勢。在實際異構(gòu)計算系統(tǒng)中,CPU+GPU組合常用于通用AI訓(xùn)練,CPU+FPGA組合用于需要定制化加速的場景,CPU+ASIC組合則用于大規(guī)模推理部署。這種多樣化的硬件組合,為不同場景下的AI計算提供了最優(yōu)解決方案。
國產(chǎn)AI芯片近年來取得顯著進展,形成了多元化的技術(shù)路線和產(chǎn)品體系。主要廠商包括寒武紀(jì)、華為昇騰、海光、壁仞、燧原、沐曦、摩爾線程等,各自推出了具有特色的AI芯片產(chǎn)品。
寒武紀(jì)作為國內(nèi)AI芯片的領(lǐng)軍企業(yè),專注于人工智能芯片產(chǎn)品的研發(fā)與技術(shù)創(chuàng)新,提供云邊端全場景AI芯片產(chǎn)品。其云端產(chǎn)品線包括思元290、思元370等,邊緣端產(chǎn)品線包括MLU220系列,終端產(chǎn)品線包括智能處理器IP。寒武紀(jì)采用自研DSA計算架構(gòu),與特斯拉DOJO的存算一體架構(gòu)和壁仞科技的近存架構(gòu)形成不同的技術(shù)路線。
華為昇騰系列芯片包括昇騰910和昇騰310等,其中昇騰910是面向訓(xùn)練的高性能AI芯片,昇騰310主要面向推理場景。昇騰芯片采用達芬奇架構(gòu),支持3D Cube計算引擎,在AI計算性能方面具有競爭力。華為還推出了MindSpore AI框架,與昇騰芯片深度協(xié)同,形成了全棧AI解決方案。
海光DCU系列是基于GPGPU架構(gòu)的AI加速器,兼容CUDA生態(tài),降低了用戶遷移成本。海光DCU產(chǎn)品深算一號在通用計算和AI計算方面表現(xiàn)均衡,特別適合科學(xué)計算與AI融合的應(yīng)用場景。壁仞B(yǎng)R100系列采用近存計算架構(gòu),在計算密度和能效比方面具有創(chuàng)新,是國內(nèi)高端AI芯片的代表之一。
燧原科技、沐曦集成電路、摩爾線程等新興AI芯片企業(yè)也各具特色。燧原科技推出邃思系列AI芯片,采用自研的GCU架構(gòu);沐曦集成電路專注于高性能GPU研發(fā);摩爾線程則面向圖形計算和AI計算融合場景。這些企業(yè)的創(chuàng)新推動著國產(chǎn)AI芯片技術(shù)的多元化發(fā)展。
在國產(chǎn)AI芯片技術(shù)路線中,多數(shù)廠商采用自研指令集,以實現(xiàn)更好的性能優(yōu)化;在制程工藝方面,普遍采用7nm、5nm等先進工藝;在算力指標(biāo)方面,高端產(chǎn)品已接近國際領(lǐng)先水平;在生態(tài)兼容性方面,通過支持主流AI框架、提供遷移工具等方式,降低開發(fā)者使用門檻。
從技術(shù)路線來看,國產(chǎn)AI芯片主要分為三類:一是以寒武紀(jì)為代表的NPU路線,專注于神經(jīng)網(wǎng)絡(luò)處理;二是以華為昇騰為代表的達芬奇架構(gòu)路線,強調(diào)3D Cube計算技術(shù);三是以壁仞為代表的類GPU路線,兼容CUDA生態(tài)。這些不同的技術(shù)路線反映了國產(chǎn)AI芯片在追趕國際先進水平過程中的多元化探索。