蘋果最新研究報告揭示了語音處理技術在非傳統領域的新應用——通過心音估算心率。這項名為《基于聽診的心率估算:探索語音處理基礎模型的隱藏表征》的研究,探討了利用語音處理模型來估算心率的潛力。
通常,語音處理模型主要用于語音識別任務,但蘋果的研究人員意外發現,這些模型同樣能夠處理心音圖(PCG)數據。心音圖是通過特殊設備將心臟的機械震動轉換為電信號并記錄下來的圖形,對心臟健康監測至關重要。為了驗證這一發現,研究團隊對多個主流語音處理模型進行了測試,包括Whisper、wav2vec2和wavLM等,并與蘋果自研的CLAP模型進行了對比。
實驗中,研究團隊使用了公開的CirCor DigiScope心音數據集,該數據集包含了約20小時的心音錄音。他們將錄音分割成每秒移動一次的5秒片段,共生成了23381個心音片段用于心率估算。結果顯示,蘋果自研的CLAP模型在不同數據分割中均表現出色,取得了最低的平均絕對誤差(MAE),優于傳統聲學特征訓練的基準模型。這表明,由于CLAP模型的訓練數據更加多樣化,包含了更多非語音內容,因此能夠更好地捕捉心音特征,提高心率估算的準確性。
蘋果的研究人員指出,這一發現意味著語音處理基礎模型在聽診和生命體征估算方面具有巨大潛力,可能成為傳統方法的有力補充。他們還發現,模型規模并非決定心率估算效果的唯一因素,通過進一步的微調,有望進一步提升精度。這一技術未來有望應用于心肺聲音的病理分析,幫助醫生更準確地檢測心律失常、心臟雜音等異常情況。
如果這項技術能夠成功商業化,將極大地拓展音頻設備的應用場景。想象一下,用戶只需佩戴耳機,就能通過內置的麥克風和聲學傳感器實時監測心率,并將數據同步到蘋果的健康生態系統中。這一功能在運動時尤為實用,因為耳機相比手腕設備更加穩定,能夠提供更精確的心率數據,避免因手臂擺動而產生的誤差。這無疑為健康管理帶來了新的可能性和便利。