近期,B站知名UP主“雖然但是張黑黑”發(fā)布了一段引人注目的視頻,該視頻揭示了蘋果最新滿血版M3 Ultra芯片在運行超大規(guī)模AI模型時的驚人表現(xiàn)。測試中,這款芯片在驅(qū)動DeepSeek R1模型——一個擁有6710億參數(shù)的龐然大物時,展現(xiàn)出了超越8張NVIDIA A100顯卡的性能,而其成本卻遠(yuǎn)低于傳統(tǒng)解決方案。
通常,運行如此大規(guī)模的AI模型需要借助配備6至8張A100顯卡的專業(yè)服務(wù)器,這樣的配置總價往往超過百萬元人民幣,對于大多數(shù)用戶而言,這無疑是一道難以逾越的門檻。然而,滿血版M3 Ultra卻僅憑一臺Mac Studio就實現(xiàn)了相近的性能,其性價比之高令人矚目。
測試數(shù)據(jù)顯示,在運行DeepSeek R1模型時,8張A100顯卡的性能為每秒處理16.41個Tokens,而滿血版M3 Ultra在GGUF格式下達(dá)到了每秒15.78個Tokens。但令人驚喜的是,當(dāng)切換到能充分發(fā)揮統(tǒng)一內(nèi)存優(yōu)勢的MLX格式后,M3 Ultra的速度飆升至每秒19.17個Tokens,成功超越了8張A100顯卡的表現(xiàn)。在運行DeepSeek V3的6710億參數(shù)模型時,M3 Ultra的速度更是達(dá)到了每秒19.66個Tokens。
然而,值得注意的是,M3 Ultra的性能優(yōu)勢并非在所有場景下都能顯現(xiàn)。在進(jìn)行單一模型推理時,主要依賴于內(nèi)存帶寬和容量,此時A100顯卡的潛力可能無法得到完全發(fā)揮。而在多用戶推理和大模型訓(xùn)練等更復(fù)雜的應(yīng)用場景中,M3 Ultra則無法與A100相媲美。
盡管如此,M3 Ultra在大語言模型推理速度測試中的表現(xiàn)依然令人印象深刻。無論是Llama 3.1的70B版本、Gemma2的27B版本還是Qwen 2.5的14B版本,M3 Ultra的速度都明顯優(yōu)于其他M系列芯片。與M2 Ultra相比,M3 Ultra在這些模型上的速度分別提升了13%、34%和18%。
此次測試的滿血版M3 Ultra配備了高達(dá)512GB的統(tǒng)一內(nèi)存,其總價為74249元人民幣。對于大多數(shù)用戶而言,如果不需要運行如此大規(guī)模的模型,可以適當(dāng)降低統(tǒng)一內(nèi)存的容量以節(jié)省成本。這一靈活的配置選項無疑為更多用戶提供了體驗高性能AI計算的可能性。