亚洲精品国产a久久久久久,亚洲 激情 ,欧美精品,亚洲av日韩综合一区在线观看,亚洲精品不卡av在线播放,无码国产69精品久久久久同性

資訊在沃

小米開源MiMo大模型,7B參數(shù)挑戰(zhàn)AI推理極限,能否再創(chuàng)佳績?

   發(fā)布時間:2025-04-30 21:35 作者:沈如風(fēng)

小米大模型團隊在“Xiaomi MiMo”公眾號上宣布了一項重大進(jìn)展:4月30日,他們正式開源了首個專為推理設(shè)計的大模型——Xiaomi MiMo。這一舉措標(biāo)志著小米在AI領(lǐng)域邁出了堅實的一步,旨在通過聯(lián)動預(yù)訓(xùn)練與后訓(xùn)練,全面提升模型的推理能力。

MiMo是小米大模型Core團隊這一新興力量的初步探索成果。該團隊致力于推動AI技術(shù)的創(chuàng)新與應(yīng)用,而MiMo正是他們交出的第一份答卷。

在公開測評中,MiMo的表現(xiàn)令人矚目。在數(shù)學(xué)推理(AIME 24-25)和代碼競賽(LiveCodeBench v5)兩大領(lǐng)域,MiMo僅憑7B的參數(shù)規(guī)模,便超越了OpenAI的閉源推理模型o1-mini以及阿里更大規(guī)模的開源推理模型QwQ-32B-Preview。這一成績無疑是對小米大模型團隊實力的有力證明。

小米官方透露,MiMo推理能力的提升得益于預(yù)訓(xùn)練和后訓(xùn)練階段中數(shù)據(jù)與算法等多層面的創(chuàng)新。在預(yù)訓(xùn)練階段,團隊注重讓模型接觸更多推理模式,以拓寬其視野。在數(shù)據(jù)層面,他們深入挖掘富含推理元素的語料,并合成了約200B tokens的推理數(shù)據(jù),為模型提供了豐富的訓(xùn)練素材。訓(xùn)練過程則分為三個階段,逐步提升難度,總共訓(xùn)練了25T tokens,確保了模型的扎實基礎(chǔ)。

在后訓(xùn)練階段,小米團隊引入了高效穩(wěn)定的強化學(xué)習(xí)算法和框架。他們提出了Test Difficulty Driven Reward策略,以緩解困難算法問題中的獎勵稀疏問題,并引入了Easy Data Re-Sampling策略,以穩(wěn)定強化學(xué)習(xí)訓(xùn)練過程。他們還設(shè)計了Seamless Rollout系統(tǒng),使得強化學(xué)習(xí)訓(xùn)練加速2.29倍,驗證加速1.96倍,大大提高了訓(xùn)練效率。

對于廣大開發(fā)者和技術(shù)愛好者而言,這無疑是一個振奮人心的消息。小米開源MiMo大模型,不僅為他們提供了一個強大的推理工具,更為他們探索AI技術(shù)的無限可能提供了寶貴的資源。目前,MiMo大模型已可在Hugging Face平臺上獲取,技術(shù)報告也已在GitHub上公開,供感興趣的人士深入研究和應(yīng)用。

在小米大模型團隊的持續(xù)努力下,我們有理由相信,未來將有更多創(chuàng)新性的AI技術(shù)和產(chǎn)品涌現(xiàn),為人們的生活和工作帶來更多便利和驚喜。讓我們共同期待小米在AI領(lǐng)域的更多精彩表現(xiàn)吧!

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新