小米大模型團(tuán)隊近日通過其官方公眾號“Xiaomi MiMo”宣布了一項重要決定:正式開源專為推理任務(wù)定制的大模型——Xiaomi MiMo。這款模型在多項公開測評中,如數(shù)學(xué)推理和代碼競賽,均展現(xiàn)出了卓越的性能,尤其值得注意的是,它僅以7B參數(shù)就超越了OpenAI的o1-mini(閉源)以及阿里Qwen的QwQ-32B-Preview(開源),后者規(guī)模更為龐大。
MiMo之所以能在推理能力上取得如此顯著的成就,關(guān)鍵在于其在預(yù)訓(xùn)練和后訓(xùn)練階段所采取的創(chuàng)新策略。在預(yù)訓(xùn)練階段,團(tuán)隊精心挑選并合成了大量富含推理信息的語料,總量達(dá)到了約200B tokens。通過分三個階段逐步提升訓(xùn)練難度,MiMo累計接受了25T tokens的訓(xùn)練,這一過程極大地豐富了模型對推理模式的認(rèn)知,為其強(qiáng)大的推理能力奠定了堅實的基礎(chǔ)。
在后訓(xùn)練階段,MiMo團(tuán)隊更是引入了高效且穩(wěn)定的強(qiáng)化學(xué)習(xí)算法和框架,以進(jìn)一步提升模型的推理性能。他們創(chuàng)造性地提出了Test Difficulty Driven Reward(測試難度驅(qū)動獎勵)機(jī)制,這一機(jī)制有效地緩解了困難算法問題中獎勵稀疏的難題。同時,他們還引入了Easy Data Re-Sampling(簡單數(shù)據(jù)重采樣)策略,以確保強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練過程的穩(wěn)定性。
為了進(jìn)一步提高訓(xùn)練效率,MiMo團(tuán)隊還設(shè)計并實現(xiàn)了Seamless Rollout(無縫展開)系統(tǒng)。這一系統(tǒng)使得RL訓(xùn)練的速度提升了2.29倍,驗證速度也提高了1.96倍,從而大大縮短了模型的開發(fā)周期。
Xiaomi MiMo的開源,無疑為推理任務(wù)的大模型研究注入了新的活力。它以其卓越的性能和創(chuàng)新的技術(shù),為行業(yè)樹立了新的標(biāo)桿,也為廣大開發(fā)者提供了寶貴的學(xué)習(xí)和研究資源。