蘋果公司近期宣布,其多模態(tài)AI大模型MM1.5正式推出,該模型基于前代MM1架構(gòu)進(jìn)行升級(jí),擁有高達(dá)300億的參數(shù)規(guī)模。
MM1.5模型繼續(xù)堅(jiān)持?jǐn)?shù)據(jù)驅(qū)動(dòng)的訓(xùn)練原則,深入探索了不同訓(xùn)練周期中混合數(shù)據(jù)對模型性能的影響,相關(guān)模型文檔已在Hugging Face平臺(tái)發(fā)布。
此次推出的MM1.5模型提供了從10億到300億的多種參數(shù)規(guī)模選擇,具備圖像識(shí)別與自然語言推理的能力。
在新版本中,蘋果研發(fā)團(tuán)隊(duì)對數(shù)據(jù)混合策略進(jìn)行了優(yōu)化,顯著提升了模型在多文本圖像理解、視覺引用與定位以及多圖像推理等方面的性能。
據(jù)相關(guān)論文介紹,MM1.5在持續(xù)預(yù)訓(xùn)練階段引入了高質(zhì)量的OCR數(shù)據(jù)和合成圖像描述,大幅提高了模型對包含大量文本的圖像的理解能力。
研究人員在監(jiān)督式微調(diào)階段對不同數(shù)據(jù)類型對模型表現(xiàn)的影響進(jìn)行了深入分析,優(yōu)化了視覺指令微調(diào)數(shù)據(jù)的混合方式,使得即便是小規(guī)模的模型版本也能展現(xiàn)出出色的性能,實(shí)現(xiàn)了更高的效率。
蘋果公司還推出了專門用于視頻理解的MM1.5-Video模型以及專門處理移動(dòng)設(shè)備用戶界面(UI)理解的MM1.5-UI模型。
MM1.5-UI模型未來有望成為iOS背后的核心AI技術(shù),能夠處理各種視覺引用與定位任務(wù),總結(jié)屏幕上的功能,甚至通過與用戶的對話進(jìn)行交互。