麻省理工學院與Empirical Health的研究團隊近日宣布,他們利用大規模可穿戴設備數據開發出一種新型健康預測模型,在疾病早期識別領域取得突破性進展。該研究通過分析300萬“人-天”的Apple Watch數據,成功構建了能夠處理不規則時間序列的基礎模型,為利用消費級設備進行健康監測開辟了新路徑。
研究核心基于meta前首席AI科學家Yann LeCun提出的聯合嵌入預測架構(JEPA)。與傳統AI模型直接重建缺失數據不同,JEPA架構通過上下文推斷缺失部分的語義表征。例如在圖像處理中,該架構會將被遮蔽區域與可見區域映射到共享空間,僅推斷其表征而非還原原始像素。這種設計使模型更擅長理解環境動態,而非簡單記憶數據模式。
研究團隊將JEPA架構創新應用于醫療健康領域,針對可穿戴設備數據的特殊性進行優化。他們收集了16,522名參與者長期記錄的63項生理指標,包括心率、睡眠質量、活動量等,這些數據在時間維度上存在顯著不連續性——部分指標僅0.4%的時間被記錄,而另一些則出現在99%的日常讀數中。面對這種極端不平衡的數據結構,傳統監督學習模型往往束手無策。
為解決這一難題,研究人員開發了自監督預訓練框架。他們將每條觀測數據轉化為由日期、數值、指標類型組成的“三元組”,進而生成可處理的“token”。通過掩碼編碼技術,模型先學習整個數據集的潛在模式,再在僅15%標注數據的子集上進行微調。這種訓練方式使模型能夠從海量無標簽數據中提取有效信息,突破了傳統方法對標注數據的依賴。
在性能驗證階段,新模型(JETS)與多個基線模型展開對比測試。結果顯示,其在多項疾病預測任務中表現優異:高血壓識別AUROC值達86.8%,慢性疲勞綜合征達81%,病態竇房結綜合征同樣達到86.8%。盡管在房撲預測(70.5%)等個別任務中稍遜于某些模型,但整體優勢顯著。研究特別指出,AUROC和AUPRC指標反映的是模型對病例的排序能力,而非簡單準確率,這在實際醫療場景中更具應用價值。
該研究的突破性在于證明了消費級可穿戴設備的潛在價值。盡管用戶不會全天佩戴設備,導致數據存在大量缺失,但通過新型模型架構與訓練策略,仍能從中提取有意義的健康信號。研究團隊強調,這種方法特別適合處理現實世界中的“不完整數據”,為開發低成本、廣覆蓋的健康監測系統提供了技術基礎。隨著可穿戴設備普及率的提升,此類模型有望在疾病早期預警和個性化健康管理中發揮關鍵作用。








