記者|董溫淑
編輯|高宇雷
7月23日,「電廠」獲悉,夸克健康大模型已成功通過中國12門核心學科的主任醫師筆試評測,成為國內首個完成這一挑戰的大模型。
當下“主任級AI醫生”能力已全面集成至夸克的AI搜索中,用戶在查詢健康問題時,選擇深度搜索即可調用。
另據夸克健康運營負責人趙存忠介紹,憑借在醫學領域的專業性,夸克AI搜索已吸引了一大批醫學生和醫生群體。目前平臺在全國醫學生中月活用戶已突破 200 萬,覆蓋率過半,他們廣泛使用夸克用于基礎知識搜索、考試備考和臨床輔助診療。
對于健康大模型而言,如何提高正確率、盡可能降低幻覺,是一個尤為重要的命題。夸克健康算法負責人徐健舉例說,孕婦妊娠期是不能吃布洛芬的,屬于禁忌用藥。圍繞禁忌癥的正確性問題,在Pretrain階段夸克準備好藥品說明書,在SFT階段夸克構造一個禁忌癥問答的有監督學習任務提升模型做得對的概率,再在RLHF階段構造錯和對的對比例子,告訴模型區分錯誤的邊界。
“當我們在模型訓練的3大環節上都掌握了對指定細微錯誤的解決技術,我們就可以全面的去解決好醫療中最重要的幻覺問題”,徐健說。
本次的能力升級,是夸克健康大模型繼5月通過副主任醫師職稱考試后實現的再次突破。與DeepSeek-R1(0528)模型、O3-mini模型的對比測評結果顯示,隨著醫師資格考試等級趨高、試題難度提升,夸克健康大模型呈現出領先優勢增大的趨勢。
在發布會上,夸克團隊介紹了健康大模型本次升級前在數據、訓練方法、訓練流程等方面進行的設計。
比如構建“雙數據產線 + 雙獎勵機制”的工程體系。一方面,將醫學數據劃分為“可驗證”和“不可驗證”兩類,分別對應診斷類任務和健康建議類任務。并且,夸克健康大模型搭建了擁有千人規模的專業醫師標注團隊,其中超過400名均為副主任醫師及以上的高資歷醫療專家。
趙存忠補充道:“除了技術產品策略,我們也根據用戶側的問題,在產品上進行了分層處理,比如偏嚴肅醫療的問題,會對回答的準確性進行明確界定,但是如果是偏健康飲食類的問題,比如‘吃西瓜會不會中毒’,則會進行相對差異化的設計。在產品上線前,我們針對效果會進行評價,滿意度準確率至少達到90%以上才允許產品上線。”
在訓練方法上引入“過程獎勵模型”和“結果獎勵模型”,分別評估模型推理鏈的合理性與最終結論的準確性,顯著提升模型的臨床可解釋性和推理一致性。
徐健總結稱,本次夸克健康大模型的一大創新是構建出了“慢思考能力”。該能力融合了鏈式推理與多階段臨床演繹路徑建模,驅動模型在面對復雜醫療問題時,能夠分階段、層層深入地推導出最終回答。
在發布會后的媒體溝通環節,夸克健康產品負責人姚垚等人對「電廠」強調,夸克健康大模型聚焦在提升用戶價值。
“這是我們業務方面的共識,商業化方面,我們和一些服務機構有一些輕度嘗試,比如說服務機構在用藥分等級方向上結合,但并不是作為主要推進方向。”姚垚講道。