隨著科技浪潮的不斷推進(jìn),硬件迭代的速度日益加快,每一次更新不僅意味著數(shù)字上的躍升,更預(yù)示著應(yīng)用場景的深刻變革。近期,兩大顯卡巨頭NVIDIA與AMD相繼發(fā)布了全新的消費級顯卡系列——NVIDIA GeForce RTX 50系列與AMD Radeon RX 9070系列,引發(fā)了業(yè)界的廣泛關(guān)注與討論。
與以往不同,此次發(fā)布的顯卡除了在游戲性能上有所提升外,更加引人注目的是它們在人工智能(AI)算力方面的顯著增強(qiáng)。AI,這一曾經(jīng)遙不可及的詞匯,如今正以前所未有的速度滲透到我們數(shù)字生活的方方面面,從視頻編輯中的智能對象摳圖、音頻降噪,到3D渲染中的AI輔助優(yōu)化,再到本地運(yùn)行大型語言模型(LLM)的潛力,無一不彰顯著AI的強(qiáng)大力量。
消費級顯卡的設(shè)計理念正經(jīng)歷著一場深刻的變革。它們不再僅僅局限于驅(qū)動極致游戲畫面的“游戲卡”,而是越來越多地承擔(dān)起內(nèi)容創(chuàng)作加速、復(fù)雜科學(xué)計算,乃至驅(qū)動前沿AI模型的重任。這一轉(zhuǎn)變,無疑對底層硬件的AI處理能力提出了更高的要求。
在各大科技媒體和獨立評測機(jī)構(gòu)的評測報告中,除了常規(guī)的3DMark、游戲幀率等數(shù)據(jù)外,一系列專業(yè)的AI基準(zhǔn)測試工具及其得分也成為了衡量顯卡性能的重要指標(biāo)。這些工具,如MLPerf、UL Procyon AI Inference Benchmark等,正成為衡量顯卡“智慧”程度的標(biāo)尺。
AI,特別是深度學(xué)習(xí),其核心運(yùn)算大多涉及大規(guī)模的矩陣和向量運(yùn)算。而GPU,這一最初為圖形渲染而設(shè)計的硬件,其核心優(yōu)勢在于擁有數(shù)千個小型計算核心,能夠同時執(zhí)行大量并行計算任務(wù),這一特性與AI算法的需求不謀而合,使得GPU在處理AI任務(wù)時遠(yuǎn)比CPU更高效。
以新一代消費顯卡技嘉GeForce RTX 5070 Ti GAMING OC 魔鷹 16G為例,其采用了先進(jìn)的TSMC 4nm制造工藝,核心規(guī)格與性能都有著明顯的提升,尤其是在AI性能方面。該顯卡支持FP4精度模型加速處理,相較FP8精度,能夠?qū)崿F(xiàn)更快的生成速度,同時顯存占用也更低。從實際測試來看,F(xiàn)P4精度模型生成的圖片質(zhì)量與FP8幾乎無異,無論是關(guān)鍵詞的理解還是圖像的質(zhì)量,都表現(xiàn)得相當(dāng)出色。
在AI測試工具的報告中,我們會遇到一系列專業(yè)術(shù)語和指標(biāo),如TOPS/FLOPS(理論峰值算力)、吞吐量(Throughput)、延遲(Latency)、準(zhǔn)確性(Accuracy)以及能效比(Performance per Watt)等。這些指標(biāo)對于衡量顯卡的AI性能至關(guān)重要。例如,TOPS/FLOPS作為衡量GPU理論計算潛力的關(guān)鍵指標(biāo),通常由芯片制造商公布;而吞吐量則指單位時間內(nèi)系統(tǒng)能夠處理的AI任務(wù)數(shù)量,高吞吐量意味著顯卡能夠高效處理大規(guī)模AI任務(wù)。
在AI基準(zhǔn)測試工具方面,MLPerf和UL Procyon AI Benchmark是兩款備受關(guān)注的測試套件。MLPerf是一套行業(yè)標(biāo)準(zhǔn)基準(zhǔn)測試套件,旨在公平、客觀地評估機(jī)器學(xué)習(xí)系統(tǒng)的性能;而UL Procyon AI Benchmark則是一套專業(yè)基準(zhǔn)測試套件,涵蓋了AI計算機(jī)視覺、圖像生成以及文本生成等多個方面的測試。通過這些測試工具,我們可以更加準(zhǔn)確地評估顯卡在AI時代的真實價值。
以技嘉GeForce RTX 5070 Ti GAMING OC 魔鷹 16G顯卡為例,在MLPerf Client的測試中,該顯卡在llama-2-7b-chat-dml模型上的表現(xiàn)相當(dāng)出色,F(xiàn)irst Token響應(yīng)時間與Token平均生成速度都達(dá)到了較高的水平。而在UL Procyon AI Benchmark的測試中,該顯卡在計算機(jī)視覺、圖像生成以及文本生成等多個方面也都展現(xiàn)出了強(qiáng)大的性能。