科技領域近日迎來一項突破性進展,蘋果公司通過最新研究報告展示了大語言模型(LLM)在活動識別領域的創新應用。這項名為"后期多模態傳感器融合"的技術,通過整合文本描述與傳感器數據,實現了對用戶行為的高精度識別,為可穿戴設備的功能升級開辟了新路徑。
研究團隊開發出獨特的雙模型架構:音頻模型負責將環境聲音轉化為文字描述,例如將"水流聲"等環境特征轉化為結構化文本;運動模型則通過慣性測量單元(IMU)數據,生成"切菜動作"等動作類型的文字預測。這種間接處理方式既避免了直接采集原始數據可能引發的隱私爭議,又驗證了LLM在多源信息融合方面的強大能力。
實驗驗證環節采用Ego4D數據集,該數據集包含數千小時的第一人稱視角視頻。研究人員從中精選出12種典型日常活動,涵蓋吸塵、烹飪、運動等場景,每段樣本時長固定為20秒。通過將小型模型生成的文本描述輸入谷歌Gemini-2.5-pro和阿里Qwen-32B等主流大模型,測試其在零樣本和單樣本條件下的識別性能。
測試數據展現驚人效果:未經針對性訓練的LLM在活動識別任務中,F1分數顯著優于隨機猜測基準。當提供單個參考樣本后,模型準確率進一步提升,證明其具備快速適應新場景的能力。這種表現得益于LLM對文本信息的深度理解能力,能夠從不同模態的描述中提取關鍵特征進行綜合判斷。
技術優勢體現在資源利用效率上。傳統方案需要為每個應用場景單獨開發識別模型,而新方法通過通用LLM實現跨場景應用,大幅降低了內存占用和計算資源消耗。蘋果公司已公開實驗數據與代碼庫,為學術界提供標準化驗證平臺,促進相關技術的協同發展。
這項成果為智能穿戴設備帶來想象空間。以Apple Watch為例,未來可能通過分析環境聲音與運動模式的文字描述,實現更精準的健康監測與活動記錄功能。例如在游泳場景中,結合水流聲特征與手臂擺動模式,即可區分自由泳與蛙泳等不同泳姿,為專業訓練提供數據支持。










