智譜技術(shù)團(tuán)隊(duì)今日宣布,其研發(fā)的文生圖模型CogView3及CogView3-Plus-3B已正式開(kāi)源,并已在“智譜清言”App中上線。據(jù)團(tuán)隊(duì)介紹,CogView3是一款基于級(jí)聯(lián)擴(kuò)散技術(shù)的text2img模型,其生成過(guò)程分為三個(gè)階段:首先生成512x512像素的低分辨率圖像,隨后通過(guò)中繼擴(kuò)散過(guò)程實(shí)現(xiàn)2倍超分辨率,生成1024x1024像素的圖像,最后再次迭代生成2048x2048像素的高分辨率圖像。
在實(shí)際應(yīng)用中,CogView3的表現(xiàn)尤為出色。據(jù)官方數(shù)據(jù)顯示,在人工評(píng)估中,其性能比目前最先進(jìn)的開(kāi)源文本到圖像擴(kuò)散模型SDXL高出77.0%,同時(shí),其推理時(shí)間僅為SDXL的約十分之一。CogView3-Plus模型在CogView3的基礎(chǔ)上引入了最新的DiT框架,進(jìn)一步提升了整體性能。該模型采用了Zero-SNR擴(kuò)散噪聲調(diào)度,并引入了文本-圖像聯(lián)合注意力機(jī)制,有效降低了訓(xùn)練和推理成本。
CogView3-Plus模型使用的VAE潛在維度為16,相較于常用的MMDiT結(jié)構(gòu),它在保持模型基本能力的同時(shí),實(shí)現(xiàn)了成本的有效控制。這兩款模型的開(kāi)源,無(wú)疑將為文本到圖像的生成領(lǐng)域帶來(lái)新的突破。
用戶可以通過(guò)以下鏈接訪問(wèn)CogView3及CogView3-Plus-3B的開(kāi)源倉(cāng)庫(kù):
開(kāi)源倉(cāng)庫(kù)地址:https://github.com/THUDM/CogView3
Plus 開(kāi)源模型倉(cāng)庫(kù):https://huggingface.co/THUDM/CogView3-Plus-3B https://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B