微軟最新推出的AI醫(yī)療診斷系統(tǒng)MAI-DxO,在復(fù)雜病例的診斷上取得了突破性進(jìn)展。該系統(tǒng)不僅將診斷準(zhǔn)確率提升至人類(lèi)醫(yī)生的四倍,還成功將醫(yī)療成本削減了近70%。這一革命性的表現(xiàn)得益于一項(xiàng)全新的基準(zhǔn)測(cè)試,即順序診斷基準(zhǔn)(SDBench),它模擬了臨床醫(yī)生的實(shí)際診斷流程。
在《利用語(yǔ)言模型進(jìn)行順序診斷》的論文中,研究團(tuán)隊(duì)深入闡述了MAI-DxO的設(shè)計(jì)理念及其卓越表現(xiàn)。面對(duì)極具挑戰(zhàn)性的病例,該系統(tǒng)在準(zhǔn)確性和成本效益方面均大幅超越了人類(lèi)醫(yī)生。為了驗(yàn)證其實(shí)際效果,團(tuán)隊(duì)精心設(shè)計(jì)了SDBench,它不同于傳統(tǒng)的醫(yī)學(xué)AI測(cè)試,而是采用逐步提供信息的方式,模擬真實(shí)的臨床決策過(guò)程。
測(cè)試結(jié)果顯示,來(lái)自美國(guó)和英國(guó)的21名經(jīng)驗(yàn)豐富的全科醫(yī)生,其診斷準(zhǔn)確率僅為19.9%,平均每個(gè)病例的費(fèi)用高達(dá)2963美元。相比之下,結(jié)合了OpenAI的o3模型的MAI-DxO系統(tǒng),診斷準(zhǔn)確率高達(dá)79.9%,而平均成本僅為2397美元。值得注意的是,盡管o3模型在標(biāo)準(zhǔn)測(cè)試中達(dá)到了78.6%的最高準(zhǔn)確率,但其平均費(fèi)用卻高達(dá)7850美元。而MAI-DxO系統(tǒng)在提升準(zhǔn)確率的同時(shí),成功將成本降低了近70%。
MAI-DxO系統(tǒng)的出色表現(xiàn)部分歸功于其獨(dú)特的虛擬醫(yī)生團(tuán)隊(duì)設(shè)計(jì)。該團(tuán)隊(duì)由多個(gè)角色組成,包括“假設(shè)醫(yī)生”、“測(cè)試選擇醫(yī)生”、“質(zhì)疑醫(yī)生”、“成本監(jiān)控醫(yī)生”和“檢查清單醫(yī)生”。這種多元化的結(jié)構(gòu)設(shè)計(jì)旨在避免系統(tǒng)過(guò)早地陷入某一固定假設(shè),從而提高診斷的準(zhǔn)確性和全面性。
然而,研究團(tuán)隊(duì)也坦誠(chéng)地指出了該系統(tǒng)存在的局限性。首先,SDBench的測(cè)試案例均基于復(fù)雜的教學(xué)病例,未能全面反映日常診療中常見(jiàn)病癥的分布情況。其次,成本計(jì)算僅為粗略估算,未考慮現(xiàn)實(shí)世界中多種復(fù)雜因素的影響。參與測(cè)試的醫(yī)生均為全科醫(yī)生,在面對(duì)復(fù)雜病例時(shí)通常會(huì)轉(zhuǎn)介給專(zhuān)科醫(yī)生,且測(cè)試過(guò)程中未允許他們利用外部資源。