在圖像生成技術(shù)的最新突破中,智象未來科研團(tuán)隊提出了一種創(chuàng)新的圖像生成方法——層級掩碼自回歸模型(Hi-MAR),該方法在ICML 2025大會上大放異彩,因其顯著提升了圖像生成的質(zhì)量和結(jié)構(gòu)完整性而受到廣泛關(guān)注。
傳統(tǒng)自回歸圖像生成模型一直面臨挑戰(zhàn),包括難以捕捉全局結(jié)構(gòu)、訓(xùn)練與推理階段的不一致性,以及在生成過程中缺乏明確的尺度引導(dǎo)。Hi-MAR模型則通過模擬人類的繪畫習(xí)慣,采取了一種自頂向下的層次化生成策略,這一策略不僅增強(qiáng)了模型的全局理解能力,還解決了以往模型中的諸多不足。
為了進(jìn)一步優(yōu)化模型性能,Hi-MAR引入了多尺度聯(lián)合訓(xùn)練策略,這一創(chuàng)新使得模型能夠在不同分辨率下學(xué)習(xí)圖像特征,從而在生成過程中保持結(jié)構(gòu)的一致性和語義的準(zhǔn)確性。實(shí)驗結(jié)果表明,Hi-MAR在圖像質(zhì)量和語義連貫性方面均超越了當(dāng)前的主流方法,顯著提升了生成圖像的整體視覺效果。
智象未來團(tuán)隊在最新發(fā)表的論文《以低分辨率標(biāo)記為中心的層級掩碼自回歸模型》中,詳細(xì)闡述了Hi-MAR的設(shè)計思路和實(shí)現(xiàn)細(xì)節(jié)。該論文不僅展示了團(tuán)隊在多模態(tài)生成式基礎(chǔ)架構(gòu)設(shè)計領(lǐng)域的深厚積累,還為構(gòu)建兼具全局感知與局部細(xì)化能力的生成模型提供了新的思路。
Hi-MAR作為HiDream系列開源模型家族的重要成員,其成功發(fā)布標(biāo)志著智象未來在圖像生成技術(shù)上的又一次重大飛躍。這一創(chuàng)新架構(gòu)不僅為圖像生成領(lǐng)域帶來了新的可能性,也為下一代多模態(tài)生成式基礎(chǔ)架構(gòu)的技術(shù)演進(jìn)奠定了堅實(shí)的基礎(chǔ)。
Hi-MAR模型的提出還引發(fā)了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,眾多專家和學(xué)者對其給予了高度評價,認(rèn)為該模型為解決自回歸圖像生成中的結(jié)構(gòu)失真問題提供了全新的視角和解決方案。
隨著Hi-MAR模型的廣泛應(yīng)用和深入研究,相信未來將有更多基于該架構(gòu)的創(chuàng)新應(yīng)用涌現(xiàn),為圖像生成技術(shù)的發(fā)展注入新的活力。
智象未來團(tuán)隊的這一成果不僅是對圖像生成技術(shù)的重大貢獻(xiàn),更是對人工智能領(lǐng)域的一次有力推動,展現(xiàn)了團(tuán)隊在前沿科技探索上的卓越實(shí)力和無限潛力。