美國斯坦福大學教授李飛飛創立的World Labs近日在空間智能領域取得重要突破,其團隊研發的Marble模型可基于單張圖片或文字描述生成無時間限制、幾何一致且風格多樣的3D世界。這款模型不僅支持用戶自由探索虛擬空間,還能通過開源渲染庫Spark將生成內容無縫集成至Three.js等Web平臺,實現跨設備高效渲染。目前已有VR電影制作人表示,該技術為互動敘事和影視制作提供了全新工具。
與前代模型相比,新版Marble在幾何復雜度、空間連貫性及風格多樣性方面實現顯著提升。用戶可通過瀏覽器零成本進行3D視點導航,生成的虛擬環境不僅支持縮放交互,還能發現隱藏的視覺細節。某測試者利用兩張旅行照片和預設圖像創建的3D場景,成功實現了多層次空間探索。技術層面,該模型突破了大規模持久3D幾何體的生成瓶頸,可滿足合成、拼接等復雜工作流需求。
團隊展示的案例顯示,同一3D房間可被用戶生成質樸、色彩繽紛及奇幻三種截然不同的風格版本。幾何精度方面,新模型生成的地毯紋理已接近真實材質,較前代在空間縱深感和細節真實度上提升明顯。技術實現上,Spark渲染庫可將高斯分布圖直接轉換為Web兼容格式,支持在臺式機、移動設備及VR頭顯等終端流暢運行。
這家由四位計算機視覺領域頂尖專家創立的公司,除李飛飛外,聯合創始人賈斯汀·約翰遜(Justin Johnson)作為實時風格轉換技術發明者,曾任職meta與密歇根大學;克里斯托夫·拉斯納(Christoph Lassner)創建的可微分渲染器Pulsar為3D高斯分布奠定基礎;本·米爾登霍爾(Ben Mildenhall)作為神經輻射場聯合提出者,此前在谷歌擔任高級研究科學家。公司顧問團隊包含謝賽寧、吳佳俊等知名華人學者,技術團隊中亦有十余位華人工程師。
該創業項目獲得A16Z、恩頤投資及Radical Ventures等頂級風投支持,個人投資者名單涵蓋杰夫·迪恩(Jeff Dean)、杰弗里·辛頓(Geoffrey Hinton)、里德·霍夫曼(Reid Hoffman)等科技界重量級人物。團隊在博文中強調,其核心技術突破在于將AI從2D像素處理推向3D時空建模,通過賦予機器空間推理能力,實現虛擬與現實世界的深度交互。目前開發的3D環境生成工具,已能滿足開發者、工程師及藝術工作者的專業需求,同時為普通用戶提供零門檻的創意實現平臺。
2024年對李飛飛而言具有特殊意義,這位空間智能理論倡導者不僅出版了自傳《我看見的世界》,系統梳理個人成長與AI發展史,更在學術休假期間完成World Labs的創立。公司名稱中的"World"與書中重點論述的"世界"概念形成呼應,體現其將哲學思考融入技術創新的獨特路徑。在最新技術博客中,團隊通過引用用戶實踐案例,暗示該技術向商業應用轉化的可能性,回應投資方對技術落地的關注。