蘋果公司與學術界攜手,在人工智能領域取得了一項突破性進展。據最新消息,蘋果機器學習團隊與南京大學及香港科技大學的科研團隊共同研發出一款名為Matrix3D的3D人工智能模型,該模型能夠在僅依靠少量二維照片的情況下,實現三維物體與場景的精確重建。
傳統的攝影測量技術依賴于復雜的流程,包括姿態估計和深度預測等多個步驟,不僅耗時較長,而且容易出現誤差。而Matrix3D則通過創新的方式,簡化了這一繁瑣過程。它能夠接收圖像、相機參數以及深度數據,利用統一的架構一次性完成所有處理任務,不僅顯著提升了工作效率,同時也提高了重建的準確性。
Matrix3D的訓練方式也別具一格。研究人員借鑒了Transformer架構中的掩蔽學習策略,通過在訓練過程中隨機隱藏部分輸入數據,迫使模型學習如何填補這些信息空白。這一策略使得Matrix3D即使在面對較小或不完整的數據集時,也能實現有效的訓練,從而保證了其強大的泛化能力。
實驗結果顯示,Matrix3D僅需三張輸入圖像,便能夠生成出物體乃至整個環境的詳細3D重建。這一成果無疑為蘋果公司的沉浸式頭顯產品,如Apple Vision Pro等,提供了極為豐富的應用場景和想象空間。用戶可以通過這些重建的3D模型,更加直觀地了解物體和環境的真實情況,從而獲得更加沉浸式的體驗。
為了推動Matrix3D的進一步發展和應用,研究人員已經在GitHub上公開了模型的源代碼,并在學術平臺arXiv上發表了相關論文。他們還創建了一個官方網站,用戶可以在其中觀看更多示例視頻,并親自體驗與一些物體和環境的點云重建進行交互的奇妙過程。