近日,字節(jié)跳動(dòng)在其火山引擎Force大會(huì)上,正式揭曉了一項(xiàng)新的技術(shù)成果——豆包視覺(jué)理解模型。這一多模態(tài)大模型能力,旨在為企業(yè)提供高效且經(jīng)濟(jì)的視覺(jué)處理方案。據(jù)悉,豆包視覺(jué)理解模型在處理大量數(shù)據(jù)時(shí)展現(xiàn)出了顯著的成本優(yōu)勢(shì),其千tokens輸入價(jià)格僅為3厘,換算下來(lái),每處理一張720P的圖片成本不到4分錢(qián),相較于行業(yè)平均水平,價(jià)格降低了85%。
在大會(huì)現(xiàn)場(chǎng),字節(jié)跳動(dòng)還展示了豆包3D生成模型。這款模型與火山引擎的數(shù)字孿生平臺(tái)veOmniverse協(xié)同工作,能夠完成從智能訓(xùn)練到數(shù)據(jù)合成,再到數(shù)字資產(chǎn)制作的完整流程。這一組合被字節(jié)跳動(dòng)譽(yù)為“AIGC創(chuàng)作的物理世界仿真模擬器”,預(yù)示著在數(shù)字內(nèi)容創(chuàng)作領(lǐng)域的一次重要革新。
不僅如此,豆包大模型旗下的多款產(chǎn)品也在此次大會(huì)上迎來(lái)了更新。其中,豆包通用模型pro全面升級(jí),其功能與GPT-4o不相上下,但使用價(jià)格僅為后者的八分之一。音樂(lè)模型則新增了生成3分鐘完整音樂(lè)作品的能力,為音樂(lè)創(chuàng)作提供了更多可能性。文生圖模型也升級(jí)到了2.1版本,能夠更精準(zhǔn)地生成漢字,并實(shí)現(xiàn)了一句話P圖的功能,目前這一功能已經(jīng)接入了即夢(mèng)AI和豆包App。
據(jù)字節(jié)跳動(dòng)透露,豆包視頻生成模型也將在明年春季迎來(lái)1.5版本的更新,新版本將具備更強(qiáng)的長(zhǎng)視頻生成能力。同時(shí),豆包端到端實(shí)時(shí)語(yǔ)音模型也即將上線,這一模型將解鎖多角色演繹、方言轉(zhuǎn)換等全新功能,為語(yǔ)音處理領(lǐng)域帶來(lái)更多的可能性。
字節(jié)跳動(dòng)的這一系列動(dòng)作,無(wú)疑展示了其在人工智能領(lǐng)域的深厚積累和持續(xù)創(chuàng)新的能力。隨著豆包大模型及其旗下產(chǎn)品的不斷更新和完善,我們有理由相信,字節(jié)跳動(dòng)將在未來(lái)為更多企業(yè)和個(gè)人提供更加智能、高效、經(jīng)濟(jì)的解決方案。