Hugging Face,這一在人工智能領(lǐng)域備受矚目的平臺,近期宣布了一項重大進(jìn)展:他們成功研發(fā)并開源了一款名為SmolVLM的創(chuàng)新視覺語言模型。此舉意味著,廣大研究者與技術(shù)開發(fā)者將能夠自由訪問該模型的全部資源,包括模型檢查點、數(shù)據(jù)集、訓(xùn)練方法及配套工具,所有內(nèi)容均遵循Apache 2.0許可協(xié)議。
在架構(gòu)設(shè)計上,SmolVLM巧妙融合了Idefics3的先進(jìn)理念,并選用了性能卓越的SmolLM2 1.7B作為其語言處理的核心。該模型通過引入一項創(chuàng)新的像素混洗技術(shù),實現(xiàn)了視覺信息的高效壓縮,壓縮率驚人地提升了9倍,從而大幅提高了處理速度。
為了訓(xùn)練這一強大的模型,Hugging Face精心挑選了Cauldron和Docmatix兩個大型數(shù)據(jù)集。他們還對SmolLM2進(jìn)行了上下文擴(kuò)展,使其能夠輕松應(yīng)對更長的文本輸入以及多張圖像的處理需求。這些優(yōu)化措施不僅顯著降低了內(nèi)存占用,還有效解決了大型模型在普通設(shè)備上運行時的性能瓶頸問題。
在內(nèi)存管理方面,SmolVLM展現(xiàn)出了令人驚嘆的能力。它能夠?qū)?84x384像素的圖像塊高效編碼為81個tokens,這一表現(xiàn)在同類模型中堪稱佼佼者。在與知名模型Qwen2-VL的對比測試中,SmolVLM在相同測試圖片下的內(nèi)存占用大幅降低。在多項基準(zhǔn)測試中,SmolVLM更是展現(xiàn)出了卓越的性能優(yōu)勢:其預(yù)填充吞吐量比Qwen2-VL快了3.3至4.5倍,而生成吞吐量更是達(dá)到了驚人的7.5至16倍提升。