美國華人科學家、斯坦福大學計算機科學教授李飛飛,因其對人工智能領域的卓越貢獻,被譽為“AI教母”。近日,由她擔任聯合創始人兼CEO的World Labs公司,正式發布了一款名為RTFM(Real-Time frame Model,實時幀模型)的全新實時生成式世界模型,再次引發科技界廣泛關注。
RTFM基于大規模視頻數據進行端到端訓練,是一款自回歸擴散Transformer模型。其最大亮點在于無需依賴顯式3D表征,僅通過輸入一張或多張2D圖像,即可生成不同視角下的全新2D圖像。業內人士稱其為“學會渲染的AI”,因其能夠精準建模3D幾何、反射、陰影等復雜物理現象,甚至可以利用稀疏照片重建真實場景。
據介紹,該模型具備高效性、可擴展性和持久性三大核心優勢。在硬件配置上,僅需一塊英偉達H100 GPU芯片,即可實現實時渲染持久且3D一致的場景,無論是真實空間還是虛擬想象場景,均能提供交互式體驗。李飛飛團隊在技術文章中指出,隨著算力成本持續下降,生成式世界模型將從中受益,并逐步占據主導地位。
前谷歌高級工程師Rui Diao對RTFM給予高度評價,認為其解決了長期困擾世界模型可擴展性的問題。他指出,傳統視頻架構在生成交互視頻流時面臨巨大挑戰,例如生成60幀的4K視頻每秒需處理超過10萬個token,而維持一小時以上的持續交互,上下文token將突破1億大關。基于當前計算基礎設施,這種方案既不可行也不經濟。
空間智能的概念最早由美國心理學家霍華德·加德納提出,指人類或機器在三維空間中的感知、理解和交互能力。對于人類而言,它包括以三維方式思考、重現和修飾影像的能力;對于機器而言,則是指其在三維空間中處理視覺數據、精準預測并采取行動的能力。李飛飛曾表示,視覺能力引發了寒武紀大爆發,而“我們想要的不僅僅是能看會說的AI,我們想要的是能做的AI”。
隨著生成式AI技術的興起,“空間智能+世界模型”成為實現通用人工智能(AGI)的重要路徑之一。強大的世界模型能夠實時重建、生成并模擬具有持久性、可交互且物理精確的世界,這將徹底改變軟件、機器人等多個領域。李飛飛認為,空間智能與世界模型是解決AI技術難題的關鍵。
今年3月,李飛飛聯合Ben Mildenhall、Justin Johnson、Christoph Lassner三位學者創立World Labs,致力于研發高效、可擴展的生成式世界模型。RTFM的通用端到端架構能夠隨數據與算力增長不斷優化,而“帶位姿幀空間記憶”與“上下文調度”技術則確保了場景的持久性,即使長時間交互也能保持一致性。
在融資方面,World Labs于今年9月宣布獲得2.3億美元(約合人民幣16億元)投資,由a16z、NEA恩頤投資和Radical Ventures領投,AMD、Adobe、Databricks的風投部門以及Shinrai Investments LLC參與,英偉達創投部門也加入其中。公司目前擁有約24名員工,其中華人約占三分之一,成立僅三個月估值便達到10億美元(約合70億元)。
投資人透露,World Labs的未來規劃分為三個階段:第一階段構建對三維、物理以及空間和時間概念有深入理解的空間智能大模型LWM;第二階段支持增強現實(AR)應用;第三階段將模型應用于機器人技術,改進自動駕駛汽車、自動化工廠和人形機器人等領域。李飛飛表示,團隊最早將于2025年推出產品,并承認在盈利模式等方面仍需突破。
除了World Labs,李飛飛還在推動Behavior視覺挑戰比賽的發展。該比賽旨在解決機器人學習中的三大痛點:任務缺乏標準化、任務體系不統一以及訓練數據不足。今年10月,她正式發布了Behavior 1K挑戰,這是一個包含1000個任務的綜合仿真基準與訓練環境,聚焦于日常家庭環境中的“長時序任務”。Behavior為全球研究者提供了開放源碼的訓練與評測平臺,促進不同機構在相同標準下進行比較和評估。
李飛飛近期表示,人類正處在一個文明性的轉折時刻,語言、空間、視覺、具身智能等多種AI技術正在融合,并開始真正改變人類社會。她強調,只要始終將“以人為本”放在心中,這些技術就能成為造福人類的力量。





