在圖像生成技術的最新進展中,智象未來團隊提出了一種名為Hi-MAR(Hierarchical Masked Autoregressive models)的創新層級自回歸生成范式,這一成果成功吸引了國際機器學習會議ICML 2025的青睞,并被正式收錄。Hi-MAR不僅在多個圖像生成任務中展現出了卓越的性能,還有效解決了長久以來困擾自回歸圖像生成模型的結構失真問題。
傳統的自回歸圖像生成模型面臨著諸多挑戰,包括全局結構建模能力的缺失、訓練與推理階段分布的不一致性,以及缺乏有效的尺度引導機制。為了解決這些問題,Hi-MAR從人類的繪畫過程汲取靈感,采用了一種自頂向下的層次化生成策略。這種策略不僅讓模型能夠逐步構建圖像的整體結構,還確保了生成過程的邏輯性和連貫性。
Hi-MAR還引入了一項關鍵的創新——多尺度聯合訓練策略。這一策略使得模型能夠在不同分辨率下同時學習圖像的細節和全局特征,從而顯著提升了模型的全局感知能力和生成質量。實驗結果表明,Hi-MAR在圖像質量和語義一致性方面均優于當前的主流方法,為圖像生成領域帶來了新的突破。
智象未來團隊在最新發表的論文《Hierarchical Masked Autoregressive Models with Low-Resolution Token Pivots》中,詳細闡述了Hi-MAR的設計原理和實驗成果。這篇論文不僅展示了團隊在多模態生成式基礎架構設計領域的深厚實力,還為構建具備“全局感知+局部細化”能力的生成基礎架構提供了新的思路。Hi-MAR作為HiDream系列開源模型家族的重要成員,其出現無疑為下一代多模態生成式基礎架構的技術演進注入了新的活力。
值得注意的是,Hi-MAR的成功不僅在于其卓越的技術性能,更在于其背后所蘊含的創新理念。通過借鑒人類的繪畫過程,Hi-MAR實現了從全局到局部的逐步生成,這種生成方式不僅符合人類的視覺感知習慣,也為圖像生成技術的發展提供了新的方向。
隨著Hi-MAR的推出,智象未來團隊在圖像生成領域的影響力將進一步擴大。未來,我們期待Hi-MAR能夠在更多應用場景中發揮其優勢,為圖像生成技術的發展貢獻更多的力量。