騰訊混元近期宣布了一項(xiàng)重大技術(shù)進(jìn)展,開源了一款名為InstantCharacter的定制化圖像生成插件,并與開源文生圖模型Flux實(shí)現(xiàn)了完美兼容。這一創(chuàng)新工具為內(nèi)容創(chuàng)作者帶來了前所未有的便利與創(chuàng)意空間。
據(jù)騰訊官方介紹,InstantCharacter插件的功能強(qiáng)大且直觀。用戶只需提供一張圖片和一句簡(jiǎn)短的描述,就能讓任意角色以期望的姿勢(shì)出現(xiàn)在任何場(chǎng)景中。例如,輸入一張?jiān)紙D片,并附上“一只兔子在廚房里拿著勺子喝湯”的提示,系統(tǒng)就能迅速生成一張兔子在廚房中享受美食的生動(dòng)圖像。
更令人驚嘆的是,InstantCharacter插件還能處理更加復(fù)雜和富有創(chuàng)意的提示。例如,輸入“一只兔子在城市中,賽博朋克風(fēng)格”,系統(tǒng)就能生成一張充滿未來感的兔子形象,完美融入賽博朋克的城市背景中。
在多輪文生圖場(chǎng)景中,角色的一致性一直是一個(gè)難題。而InstantCharacter插件憑借其先進(jìn)的技術(shù),確保了角色在不同場(chǎng)景中的一致性和真實(shí)性。同時(shí),生成的圖像畫質(zhì)和精度高,文本編輯性強(qiáng),用戶可以根據(jù)需要靈活切換場(chǎng)景和動(dòng)作,極大地提升了創(chuàng)作效率和自由度。
騰訊混元團(tuán)隊(duì)表示,InstantCharacter插件在角色一致性和圖像生成精確度上超越了業(yè)界此前的相關(guān)技術(shù),能夠處理多種風(fēng)格和復(fù)雜度的圖像。這一創(chuàng)新工具將廣泛應(yīng)用于連環(huán)畫、影片創(chuàng)作等領(lǐng)域,為內(nèi)容創(chuàng)作者提供更加高效和便捷的視覺作品創(chuàng)作方式。
從技術(shù)層面來看,InstantCharacter插件采用了創(chuàng)新的DiT模型框架,并引入了一個(gè)可擴(kuò)展的適配器。這一設(shè)計(jì)使得系統(tǒng)能夠靈活適應(yīng)不同的角色特征,并與現(xiàn)代擴(kuò)散變換器的潛在空間無縫交互。為了有效訓(xùn)練這一框架,騰訊混元團(tuán)隊(duì)還構(gòu)建了一個(gè)包含千萬級(jí)樣本的大規(guī)模角色數(shù)據(jù)集,進(jìn)一步提升了系統(tǒng)的性能和準(zhǔn)確性。