英偉達(dá)近期在數(shù)學(xué)推理領(lǐng)域邁出了重要一步,推出了兩款專為解決復(fù)雜數(shù)學(xué)問(wèn)題設(shè)計(jì)的先進(jìn)AI模型——OpenMath-Nemotron-32B和OpenMath-Nemotron-14B-Kaggle。
長(zhǎng)久以來(lái),數(shù)學(xué)推理一直是AI技術(shù)難以攻克的難題。盡管傳統(tǒng)的語(yǔ)言模型在生成自然語(yǔ)言文本方面表現(xiàn)出色,但在面對(duì)需要深入理解抽象概念和進(jìn)行多步驟邏輯推導(dǎo)的數(shù)學(xué)問(wèn)題時(shí),卻常常力不從心。為了解決這一挑戰(zhàn),英偉達(dá)精心打造了這兩款新模型。
OpenMath-Nemotron-32B作為系列中的佼佼者,擁有高達(dá)328億的參數(shù),并采用了BF16張量運(yùn)算來(lái)優(yōu)化硬件效率。這款旗艦?zāi)P驮诙囗?xiàng)基準(zhǔn)測(cè)試中,如AIME 2024、AIME 2025和HMMT 2024-25,均取得了令人矚目的成績(jī)。特別是在工具集成推理(TIR)模式下,它在AIME24上的pass@1準(zhǔn)確率高達(dá)78.4%,通過(guò)多數(shù)投票機(jī)制后,這一準(zhǔn)確率更是飆升至93.3%。
除了強(qiáng)大的性能,OpenMath-Nemotron-32B還提供了多種推理模式以滿足不同需求。用戶可以選擇鏈?zhǔn)剿季S(CoT)、工具集成推理(TIR)和生成式選擇(GenSelect)三種模式,根據(jù)科研或生產(chǎn)環(huán)境的具體場(chǎng)景,平衡推理的透明度和答案的精確度。
另一款模型,OpenMath-Nemotron-14B-Kaggle,則是一款更為輕量級(jí)的解決方案。它擁有148億參數(shù),專為AIMO-2 Kaggle競(jìng)賽優(yōu)化設(shè)計(jì)。通過(guò)精選OpenMathReasoning數(shù)據(jù)集的子集進(jìn)行微調(diào),這款模型成功奪得了競(jìng)賽的桂冠。在AIME24測(cè)試中,它在CoT模式下的pass@1準(zhǔn)確率為73.7%,而在GenSelect模式下則提升至86.7%。這款模型在保持高質(zhì)量數(shù)學(xué)解題能力的同時(shí),更適合資源受限或需要低延遲的場(chǎng)景。
英偉達(dá)為這兩款模型提供了完整的開(kāi)源管道,集成于NeMo-Skills框架中。這意味著開(kāi)發(fā)者可以輕松地通過(guò)示例代碼構(gòu)建應(yīng)用,獲取逐步解答或簡(jiǎn)潔答案。模型還針對(duì)NVIDIA的GPU,如Ampere和Hopper架構(gòu),進(jìn)行了深度優(yōu)化。利用CUDA庫(kù)和TensorRT技術(shù),模型能夠高效運(yùn)行。同時(shí),Triton Inference Server的支持確保了低延遲、高吞吐量的部署,而B(niǎo)F16格式則在內(nèi)存占用與性能之間取得了完美的平衡。
這兩款新模型的推出,標(biāo)志著英偉達(dá)在數(shù)學(xué)推理領(lǐng)域取得了重大突破。它們不僅為科研和生產(chǎn)環(huán)境提供了強(qiáng)大的工具,也為AI技術(shù)的發(fā)展開(kāi)辟了新的道路。