亚洲精品国产a久久久久久,亚洲 激情 ,欧美精品,亚洲av日韩综合一区在线观看,亚洲精品不卡av在线播放,无码国产69精品久久久久同性

資訊在沃

阿里QwQ-32B大語言模型:少量參數(shù)媲美DeepSeek R1,性能卓越!

   發(fā)布時(shí)間:2025-03-06 11:31 作者:任飛揚(yáng)

近日,阿里巴巴旗下的Qwen團(tuán)隊(duì)震撼發(fā)布了其最新的科研力作——QwQ-32B大型語言模型。這款模型雖僅有320億參數(shù),卻展現(xiàn)出了與6710億參數(shù)(激活370億)的DeepSeek-R1相抗衡的實(shí)力。

尤為QwQ-32B以DeepSeek-R1約1/21的參數(shù)規(guī)模,通過強(qiáng)化學(xué)習(xí)的精妙運(yùn)用,實(shí)現(xiàn)了性能上的巨大飛躍。這一成就無疑為語言模型領(lǐng)域帶來了新的驚喜。

不僅如此,阿里還在QwQ-32B的推理模型中融入了與Agent相關(guān)的能力,使其能夠在使用工具的同時(shí),展現(xiàn)出批判性思維,并根據(jù)環(huán)境的反饋靈活調(diào)整推理路徑。這一創(chuàng)新設(shè)計(jì)大大增強(qiáng)了模型的實(shí)用性和智能水平。

為了全面評估QwQ-32B的性能,團(tuán)隊(duì)在一系列基準(zhǔn)測試中對其進(jìn)行了檢驗(yàn),涵蓋了數(shù)學(xué)推理、編程能力和通用能力等多個(gè)維度。在數(shù)學(xué)能力的AIME24評測集上,以及代碼能力的LiveCodeBench測試中,QwQ-32B的表現(xiàn)與DeepSeek-R1旗鼓相當(dāng),遠(yuǎn)超o1-mini及同尺寸的R1蒸餾模型。

在由meta首席科學(xué)家楊立昆主導(dǎo)的“最難LLMs評測榜”LiveBench、谷歌提出的指令遵循能力IFeval評測集,以及加州大學(xué)伯克利分校等提出的BFCL測試中,QwQ-32B同樣取得了令人矚目的成績,得分均超過了DeepSeek-R1。

目前,QwQ-32B已經(jīng)通過Hugging Face和ModelScope平臺向公眾開源,用戶可以通過Qwen Chat直接體驗(yàn)這一強(qiáng)大的語言模型。這一舉措無疑將推動語言模型技術(shù)的進(jìn)一步發(fā)展,為人工智能領(lǐng)域注入新的活力。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新