在圖像生成技術(shù)的最新突破中,智象未來(lái)科研團(tuán)隊(duì)提出了一種創(chuàng)新的圖像生成方法——層級(jí)掩碼自回歸模型(Hi-MAR),該方法在ICML 2025大會(huì)上大放異彩,因其顯著提升了圖像生成的質(zhì)量和結(jié)構(gòu)完整性而受到廣泛關(guān)注。
傳統(tǒng)自回歸圖像生成模型一直面臨挑戰(zhàn),包括難以捕捉全局結(jié)構(gòu)、訓(xùn)練與推理階段的不一致性,以及在生成過(guò)程中缺乏明確的尺度引導(dǎo)。Hi-MAR模型則通過(guò)模擬人類(lèi)的繪畫(huà)習(xí)慣,采取了一種自頂向下的層次化生成策略,這一策略不僅增強(qiáng)了模型的全局理解能力,還解決了以往模型中的諸多不足。
為了進(jìn)一步優(yōu)化模型性能,Hi-MAR引入了多尺度聯(lián)合訓(xùn)練策略,這一創(chuàng)新使得模型能夠在不同分辨率下學(xué)習(xí)圖像特征,從而在生成過(guò)程中保持結(jié)構(gòu)的一致性和語(yǔ)義的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,Hi-MAR在圖像質(zhì)量和語(yǔ)義連貫性方面均超越了當(dāng)前的主流方法,顯著提升了生成圖像的整體視覺(jué)效果。
智象未來(lái)團(tuán)隊(duì)在最新發(fā)表的論文《以低分辨率標(biāo)記為中心的層級(jí)掩碼自回歸模型》中,詳細(xì)闡述了Hi-MAR的設(shè)計(jì)思路和實(shí)現(xiàn)細(xì)節(jié)。該論文不僅展示了團(tuán)隊(duì)在多模態(tài)生成式基礎(chǔ)架構(gòu)設(shè)計(jì)領(lǐng)域的深厚積累,還為構(gòu)建兼具全局感知與局部細(xì)化能力的生成模型提供了新的思路。
Hi-MAR作為HiDream系列開(kāi)源模型家族的重要成員,其成功發(fā)布標(biāo)志著智象未來(lái)在圖像生成技術(shù)上的又一次重大飛躍。這一創(chuàng)新架構(gòu)不僅為圖像生成領(lǐng)域帶來(lái)了新的可能性,也為下一代多模態(tài)生成式基礎(chǔ)架構(gòu)的技術(shù)演進(jìn)奠定了堅(jiān)實(shí)的基礎(chǔ)。
Hi-MAR模型的提出還引發(fā)了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,眾多專(zhuān)家和學(xué)者對(duì)其給予了高度評(píng)價(jià),認(rèn)為該模型為解決自回歸圖像生成中的結(jié)構(gòu)失真問(wèn)題提供了全新的視角和解決方案。
隨著Hi-MAR模型的廣泛應(yīng)用和深入研究,相信未來(lái)將有更多基于該架構(gòu)的創(chuàng)新應(yīng)用涌現(xiàn),為圖像生成技術(shù)的發(fā)展注入新的活力。
智象未來(lái)團(tuán)隊(duì)的這一成果不僅是對(duì)圖像生成技術(shù)的重大貢獻(xiàn),更是對(duì)人工智能領(lǐng)域的一次有力推動(dòng),展現(xiàn)了團(tuán)隊(duì)在前沿科技探索上的卓越實(shí)力和無(wú)限潛力。