近日,DeepSeek宣布啟動(dòng)“開源周”活動(dòng),并陸續(xù)釋放了三個(gè)重要的代碼庫資源。國產(chǎn)GPU領(lǐng)域的佼佼者摩爾線程迅速響應(yīng),成功完成了對(duì)FlashMLA和DeepGEMM兩大開源項(xiàng)目的適配工作。
摩爾線程此番適配的GPU產(chǎn)品,基于其自主研發(fā)的MUSA Compute Capability 3.1計(jì)算架構(gòu)。這一架構(gòu)不僅提供了原生的FP8精度計(jì)算能力,還對(duì)高性能線性代數(shù)模板庫MUTLASS進(jìn)行了全面升級(jí),從而快速支持了FlashMLA的應(yīng)用。
不僅如此,摩爾線程還充分利用了MUTLASS的優(yōu)勢,在新一代GPU架構(gòu)上實(shí)現(xiàn)了FP8矩陣乘法的優(yōu)化。這一成果使得摩爾線程的GPU能夠完美支持DeepGEMM的相關(guān)功能,進(jìn)一步提升了其在大規(guī)模模型訓(xùn)練和推理方面的性能。
FlashMLA是一個(gè)專注于加速M(fèi)LA推理的內(nèi)核開源項(xiàng)目,特別適用于DeepSeek系列模型,如DeepSeek-V2、V3和R1等。而DeepGEMM則是一個(gè)專為密集矩陣與混合專家(MoE)矩陣乘法設(shè)計(jì)的FP8 GEMM庫,能夠?yàn)閂3/R1的訓(xùn)練與推理提供強(qiáng)大的計(jì)算支持。
這兩個(gè)開源項(xiàng)目均基于高性能通用矩陣乘法(GEMM)的C++模板庫進(jìn)行開發(fā),具有極高的靈活性和可擴(kuò)展性。摩爾線程能夠快速適配這些項(xiàng)目,得益于其GPU架構(gòu)的創(chuàng)新設(shè)計(jì)和MUTLASS庫的強(qiáng)大支持。
摩爾線程的新一代GPU不僅具備全新的Tensor計(jì)算引擎和數(shù)據(jù)搬運(yùn)引擎,還提供了原生FP8計(jì)算能力。這使得摩爾線程的GPU在處理前沿算法時(shí),能夠保持足夠高的累加精度,無需額外的二次精度修正。
MUTLASS 0.2.0版本的發(fā)布,更是為摩爾線程的開源生態(tài)注入了新的活力。借助這一版本,摩爾線程推出了MT-FlashMLA開源倉庫,實(shí)現(xiàn)了對(duì)DeepSeek FlashMLA的快速兼容部署。同時(shí),MUTLASS還提供了一個(gè)全新的參考實(shí)現(xiàn),充分借鑒了FlashAttention3的先進(jìn)算法思想,為摩爾線程GPU設(shè)計(jì)了高效的計(jì)算流水線。
這一計(jì)算流水線的設(shè)計(jì),有效隱藏了數(shù)據(jù)搬運(yùn)的延遲和Softmax計(jì)算的開銷,充分發(fā)揮了摩爾線程MUSA Compute Capability 3.1全功能GPU的Tensor計(jì)算效率。這無疑為摩爾線程在AI計(jì)算領(lǐng)域的競爭力注入了強(qiáng)勁的動(dòng)力。
對(duì)于開發(fā)者而言,摩爾線程的開源資源無疑是一筆寶貴的財(cái)富。他們可以通過訪問以下鏈接,獲取MT-FlashMLA和MUTLASS的相關(guān)資源:
MT-FlashMLA開源地址:https://github.com/MooreThreads/MT-flashMLA
MUTLASS FlashAttention3地址:https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd