滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

OpenAI HealthBench：醫療領域大模型評估新框架，GPT系列表現如何？

時間：2025-05-13 15:13:00 來源：ITBEAR編輯：快訊團隊 IP：北京 發表評論無障礙通道

OpenAI近期發布了一項名為HealthBench的創新評估工具，該工具專為大型語言模型（LLMs）在醫療領域的實際應用和安全性設計。這一開創性項目的成功落地，得益于全球60個國家、26個醫學專業的262名醫生的積極參與與專業指導。HealthBench旨在填補當前評估體系中的空白，特別是在真實臨床場景模擬、專家意見整合以及診斷范圍覆蓋方面。

傳統的醫療AI評估方法往往局限于結構化的測試形式，例如選擇題，這些形式雖然對初步篩選有效，但難以全面反映臨床互動的復雜性和多樣性。相比之下，HealthBench采用了一種更為貼近現實的評估模式，它包含了5000場模擬對話，這些對話發生在模型與普通用戶或醫療專家之間，每場對話均以用戶提問收尾，模型的回答則根據醫生制定的詳細評估標準進行打分。

HealthBench的評估框架精心設計了七個核心領域，涵蓋了緊急轉診決策、全球健康狀況理解、健康數據處理、背景信息探尋、針對性溝通策略、回答的深度以及面對不確定性的反應能力。每個領域都代表了醫療決策和患者互動中面臨的不同挑戰。OpenAI還推出了兩個評估變體，進一步豐富了評估維度：

一是HealthBench Consensus，它聚焦于34項經醫生驗證的關鍵標準，旨在評估模型在提供緊急護理建議或尋求額外背景信息等方面的行為表現；二是HealthBench Hard，這是一個更具挑戰性的子集，包含了精心挑選的1000場對話，專門用于測試當前最先進模型的能力極限。

在評估過程中，OpenAI對多個模型進行了測試，包括GPT-3.5Turbo、GPT-4o、GPT-4.1以及更新的o3模型。結果顯示，模型間的性能差異顯著：GPT-3.5的得分為16%，GPT-4o提升至32%，而o3模型更是達到了60%的高分。值得注意的是，小型且成本效益高的GPT-4.1nano模型，其表現甚至超越了GPT-4o，同時推理成本降低了25倍，展現了作為臨床輔助工具的巨大潛力。

評估還發現，模型在不同評估領域和維度上的表現各不相同。在緊急轉診和針對性溝通方面，模型表現相對較強；而在背景信息探尋和回答完整性方面，則面臨更多挑戰。當將模型輸出與醫生回應進行對比時，盡管未輔助的醫生初始回應得分較低，但在處理模型生成的草稿時，特別是在使用早期版本模型時，醫生能夠取得明顯進步。

為確保評估結果的可靠性，HealthBench還引入了評估模型一致性的機制。OpenAI通過超過60,000個注釋示例進行的元評估顯示，作為默認評估者的GPT-4.1在大多數評估領域中，其表現不遜色于個體醫生，這進一步證明了其作為一致且可靠評估工具的潛力。

感興趣的讀者可以訪問OpenAI的GitHub頁面（https://github.com/openai/simple-evals），了解更多關于HealthBench項目的詳細信息和最新進展。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

迪士尼環球影業聯手起訴AI公司Midjourney版權侵權

據央視新聞，當地時間6月11日，迪士尼和環球影業對人工智能公司Midjourney提起版權訴訟，指控Midjourney盜版了這兩家好萊塢電影公司的版權庫，用于生成和分發其著名角色的“無數未經授權的副本”。據…

06-12

維基百科AI摘要計劃遇阻，編輯擔憂信譽受損緊急叫停

06-12

夸克高考志愿大模型上線，免費助力考生，張雪峰專欄來支招！

06-12

火山引擎PromptPilot：一鍵優化指令，解鎖AI大模型新效能

06-12

夸克高考志愿大模型上線，智能助力考生圓夢理想學府！

06-12

OpenAI聯手沙特印度巨頭籌400億美金，AI版圖再擴張？

06-12

AI重塑技術架構，長沙沙龍共探前沿應用新路徑

06-12

谷歌新設首席AI架構師，深度布局人工智能戰略版圖

06-12

Z世代如何引領具身智能的新浪潮？

06-12

公牛集團攜手阿里云，全棧AI合作開啟智能家居新紀元

06-12

夸克高考志愿大模型上線，讓每個考生擁有自己的AI志愿填報顧問！

“志愿報告”Agent以考生的成績、興趣偏好、家庭背景和地域傾向等為基礎，會首先制定個性化任務規劃（如定位成績段、篩選專業方向、制定填報策略等）；隨后將任務轉化為指令，基于高質量數據完成任務執行。以通義千…

06-12

iPhone 17 Air首發AI電池管理，續航能否一飛沖天？

06-12

Meta新推V-JEPA 2模型，讓機器人更懂物理世界運作

06-12

潤建股份攜手多方共創新，具身智能科技公司盛大啟航，注冊資本達千萬

06-12

游戲成青少年心理療愈新途徑，全國心理咨詢企業超13.5萬家

06-12

點擊查看更多 +

全站最新

月球“偷水”20億年，地球大氣安然無恙？地月系統未來何去何從？

格力鈦新能源18億股權遭凍結，珠海中院執行，背后有何隱情？

廣州力箭二號動力系統試車大捷，火箭回收技術取得階段性突破！

王朔自曝沉迷短視頻，每天刷10小時！正在努力戒斷中……

湖北試跑全球最快高鐵，時速450公里，2026年能否坐上？

工信部重拳出擊！網紅車企生產一致性將迎大考

熱門內容

本欄最新

夸克高考志愿大模型上線，免費助力考生，張雪峰專欄來支招！

AI重塑技術架構，長沙沙龍共探前沿應用新路徑

夸克高考志愿大模型上線，讓每個考生擁有自己的AI志愿填報顧問！

Meta新推V-JEPA 2模型，讓機器人更懂物理世界運作

潤建股份攜手多方共創新，具身智能科技公司盛大啟航，注冊資本達千萬

老鳳祥跨界發布AI眼鏡，豆包大模型賦能，能否開辟新市場？

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

OpenAI HealthBench：醫療領域大模型評估新框架，GPT系列表現如何？

日本精品一区二区三区高清久久

OpenAI HealthBench：醫療領域大模型評估新框架，GPT系列表現如何？