騰訊混元團(tuán)隊近日宣布了一項重要技術(shù)進(jìn)展,他們開源了一款名為InstantCharacter的定制化圖像生成插件,并成功實現(xiàn)了與開源文生圖模型Flux的兼容性。這一創(chuàng)新工具為內(nèi)容創(chuàng)作者帶來了前所未有的便利。
通過InstantCharacter插件,用戶只需提供一張圖片和一句簡短的描述,就能讓任意角色以期望的姿勢出現(xiàn)在任何場景中。這一功能極大地豐富了視覺創(chuàng)作的可能性,讓角色在不同場景中的表現(xiàn)更加真實且富有連貫性。
InstantCharacter的顯著優(yōu)勢在于其出色的角色一致性、畫質(zhì)和精度,以及靈活的文本編輯功能。創(chuàng)作者可以根據(jù)需要輕松切換場景,并讓人物生成各種動作,從而高效地創(chuàng)作出符合需求的視覺作品。無論是連環(huán)畫、影片創(chuàng)作還是其他視覺表達(dá)場景,這款插件都能提供強大的支持。
例如,只需輸入一張原始圖片和描述“一只兔子在廚房里拿著勺子喝湯”,InstantCharacter就能生成一張生動的圖片,展示兔子在廚房中的場景。同樣地,輸入“一只兔子在城市中,賽博朋克風(fēng)格”的描述,也能迅速得到一張充滿未來感的圖片。
在實際測評中,InstantCharacter的表現(xiàn)與業(yè)界領(lǐng)先的GPT 4o等模型不相上下。騰訊混元團(tuán)隊表示,現(xiàn)有的基于學(xué)習(xí)的方法在泛化能力和圖像質(zhì)量上存在局限性,而基于優(yōu)化的方法則需要針對特定主體進(jìn)行微調(diào),這降低了文本的可控性。為了克服這些挑戰(zhàn),InstantCharacter采用了創(chuàng)新的DiT模型框架。
該框架引入了一個可擴展的適配器,采用多個transformer encoder來處理開放域的角色特征,并與現(xiàn)代擴散變換器的潛在空間無縫交互。這種設(shè)計使得InstantCharacter能夠靈活適應(yīng)不同的角色特征,從而生成更加真實、連貫的圖像。
騰訊混元的這一技術(shù)突破,無疑為內(nèi)容創(chuàng)作者提供了更加強大的工具,讓他們能夠更高效地創(chuàng)作出優(yōu)質(zhì)的視覺作品,滿足日益增長的視覺內(nèi)容需求。