小米公司近日通過其官方公眾號“Xiaomi MiMo”震撼宣布,已將旗下多模態(tài)大模型——Xiaomi MiMo-VL,正式向全球開源。此次開源的版本中,MiMo-VL-7B的強化學(xué)習(xí)(RL)前后模型,以及支持超過50項任務(wù)的框架,均已在GitHub上亮相。
MiMo-VL在多任務(wù)處理上的卓越表現(xiàn),特別是在多模態(tài)推理領(lǐng)域,讓人眼前一亮。盡管MiMo-VL-7B的參數(shù)規(guī)模僅為7B,但在奧林匹克競賽基準測試(OlympiadBench)及多個數(shù)學(xué)競賽(如MathVision、MathVerse)中,其表現(xiàn)均大幅超越了參數(shù)規(guī)模達72B的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview,甚至超過了非開源的GPT-4o。在小米內(nèi)部的大模型競技場中,MiMo-VL-7B同樣以出色的用戶體驗,力壓GPT-4o,成為開源模型中的新標桿。
MiMo-VL-7B不僅在復(fù)雜的圖片推理和問答任務(wù)上游刃有余,還展現(xiàn)了驚人的GUI操作能力,能夠完成多達10余步的復(fù)雜操作。這一能力預(yù)示著在AI Agent時代,MiMo-VL將擁有巨大的應(yīng)用潛力。例如,用戶可以通過MiMo-VL,輕松地將心儀的商品,如小米SU7,添加到心愿單中,享受前所未有的便捷體驗。
小米團隊在構(gòu)建MiMo-VL時,投入了大量精力收集、清洗和合成高質(zhì)量的預(yù)訓(xùn)練多模態(tài)數(shù)據(jù)。這些數(shù)據(jù)涵蓋了圖片-文本對、視頻-文本對以及GUI操作序列等多種類型,總量高達2.4T tokens。通過精細地調(diào)整不同數(shù)據(jù)類型在訓(xùn)練過程中的比例,小米團隊成功地強化了模型的長程多模態(tài)推理能力。
小米還創(chuàng)新性地采用了混合在線強化學(xué)習(xí)算法(MORL),該算法融合了文本推理、多模態(tài)感知推理以及RLHF等多種反饋信號,全方位提升了模型的推理能力、感知性能和用戶體驗。這一算法的引入,無疑為MiMo-VL的卓越表現(xiàn)奠定了堅實的基礎(chǔ)。
MiMo-VL的開源不僅展示了小米在AI領(lǐng)域的深厚積累,更為全球開發(fā)者提供了一個強大的多模態(tài)大模型平臺。未來,隨著更多開發(fā)者的加入和貢獻,MiMo-VL的應(yīng)用場景和性能表現(xiàn)無疑將更加豐富多彩。