近日,階躍星辰公司在AI技術領域取得了重大突破,正式推出了其自主研發的3D大模型Step1X-3D,并決定將這一創新成果向公眾開源。此舉不僅彰顯了階躍星辰在多模態技術領域的深厚積累,也進一步拓寬了AI技術的應用場景,涵蓋了圖像、視頻、語音、音樂以及最新的3D內容生成。
Step1X-3D模型擁有驚人的4.8億參數,其中幾何模塊占據了1.3億,而紋理模塊則達到了3.5億。這一龐大的參數規模,加之其堅實的數據基礎和先進的3D原生架構,使得Step1X-3D能夠生成既高保真又可控的3D內容。階躍星辰在設計該模型時,不僅追求視覺上的卓越表現,更注重其實用性和可控性,旨在為3D內容創作者提供一款強大而穩定的技術工具。
Step1X-3D的核心優勢在于其解決了3D內容生成中的一系列關鍵挑戰。首先,在數據方面,階躍星辰對超過500萬份原始數據進行了嚴格的篩選和處理,最終建立了包含200萬份高質量、標準化訓練樣本的數據庫。這一舉措有效解決了行業普遍面臨的數據稀缺和質量不均問題。同時,通過采用增強型網格-SDF轉換技術等方法,Step1X-3D在模型學習的精準性和生成效率上取得了顯著提升,水密幾何轉換成功率提高了20%,展現出強大的泛化能力和細節捕捉能力。
在架構設計上,Step1X-3D采用了創新的3D原生兩階段架構,將幾何與紋理表征進行解耦。這一設計確保了生成的3D內容不僅具有視覺上的吸引力,更具備結構上的可靠性和實用性。幾何生成部分采用了深度優化的混合VAE-DiT架構,能夠生成結構完整、無破面漏點的3D模型。同時,通過引入銳利邊緣采樣等技術,Step1X-3D能夠精準捕捉并還原物體的幾何細節。紋理生成則基于強大的SD-XL模型進行深度定制與優化,通過幾何條件的精準引導和潛在空間多視圖同步技術,實現了與幾何模塊的高效協同,生成的紋理色彩飽滿、質感逼真,且能跨越多視圖保持高度一致。
Step1X-3D在可控性和易用性方面也取得了顯著進展。其VAE-Diffusion整體架構與主流2D生成模型保持高度一致性,使得用戶能夠無縫引入并應用成熟的2D控制技術,如輕量化的LoRA微調。因此,用戶可以對生成的3D資產的對稱性、表面細節等多種屬性進行直觀、精細的調控,使創作更加符合個人意圖。
為了驗證Step1X-3D的實際效果,階躍星辰進行了嚴格的定量與定性評估。他們自建了一個包含110個多樣化測試用例的綜合測試平臺,對Step1X-3D進行了全面測試,并與多款主流模型進行了對比。結果顯示,Step1X-3D在多項關鍵維度上均表現出色,特別是在衡量內容與輸入語義一致性的核心指標CLIP-Score上,Step1X-3D取得了當前所有對比模型中的最高分。這一成績充分證明了Step1X-3D在3D生成領域的競爭力。
目前,Step1X-3D模型已在GitHub、HuggingFace和ModelScope等多個平臺上開源,供全球開發者免費使用和研究。這一舉措無疑將為開源社區注入新的活力,推動3D內容生成技術的進一步發展。
GitHub鏈接:https://github.com/stepfun-ai/Step1X-3D
HuggingFace鏈接:https://huggingface.co/stepfun-ai/Step1X-3D
ModelScope鏈接:https://www.modelscope.cn/models/stepfun-ai/Step1X-3D