斯坦福大學近期公布了一項關于臨床醫療人工智能模型的深度評估結果,DeepSeek R1憑借其卓越的表現,在這場九強爭霸中脫穎而出,以66%的勝率及0.75的宏觀平均分榮膺桂冠。此次評估不僅涵蓋了傳統醫療執照考試的內容,更深入模擬了臨床醫生的日常工作環境,為評估增添了實戰色彩。
為了全面而準確地評估各模型的性能,斯坦福大學的評測團隊精心打造了一個名為MedHELM的綜合評估體系,該體系包含35項基準測試,廣泛覆蓋了22個醫療任務子領域。這一體系的科學性和實用性得到了29名來自14個不同醫學??频膱虡I醫生的驗證與認可。評估結果顯示,DeepSeek R1在各項測試中均表現出色,穩定性極高,勝率標準差僅為0.10。緊隨其后的是o3-mini和Claude3.7Sonnet,它們分別以64%的勝率和0.77的最高宏觀平均分,以及64%的勝率獲得了第二和第三名的佳績。
值得注意的是,o3-mini在臨床決策支持方面的表現尤為搶眼,展現了其在特定醫療場景下的強大實力。而Claude系列模型,如Claude3.5和3.7Sonnet,雖然未能奪冠,但也以不俗的勝率緊隨DeepSeek R1和o3-mini之后,顯示出其在醫療AI領域的競爭力。
此次評估還采用了創新的大語言模型評審團(LLM-jury)方法,該方法的結果與臨床醫生的評分高度吻合,進一步驗證了其評估的有效性和準確性。同時,研究團隊還進行了成本效益分析,發現推理模型的使用成本相對較高,更適合對精度和性能有較高要求的用戶;而非推理模型則成本較低,更易于普及和應用。
斯坦福大學的這項評估不僅為醫療AI的發展提供了重要的數據參考,也為未來的臨床實踐提供了更多的選擇和可能性,推動了醫療AI技術的不斷前進。