![]()
始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區,始終堅持“中立、開放、共建、共創、合作”五項基本原則,歡迎加入共同成長。
大語言模型(LLM)在醫療健康領域展現出巨大的應用潛力,從輔助復雜診斷到個性化患者護理,這些強大的工具正在逐步改變醫療實踐的面貌。然而,將這些工具安全有效地整合到臨床實踐中,完全取決于我們對其真實能力的嚴格評估能力。隨著通用知識與專家級臨床推理之間差距的擴大,開發復雜、基于臨床的基準測試不僅是學術進步的問題,更是構建可信醫療人工智能的前提條件。
![]()
項目地址
https://wisemodel.cn/datasets/FreedomIntelligence/LiveClin
當前醫療大語言模型的評估領域存在兩個關鍵局限性。首先是數據污染問題:靜態基準測試如MedQA等不僅容易受到數據污染的影響,還面臨知識過時的風險。隨著模型在日益擴大的網絡規模語料庫上進行訓練,流行靜態基準測試的問題和答案不可避免地被吸收到其訓練集中。這種廣泛的污染意味著模型越來越多地在已經見過的數據上進行測試,導致性能分數虛高,這嚴重威脅了評估的完整性。
其次是評估設計的局限性:現有的單輪評估與患者護理的縱向性質不一致。通過在孤立的、合成的快照中評估推理能力,即使是先進的系統如MedXpertQA和AgentClinic也將患者管理簡化為一系列不連貫的任務。這種方法無法評估導航患者整個臨床路徑所需的綜合推理能力,從初始呈現到長期管理。
![]()
圖1. LiveClin 模擬真實患者全臨床路徑的動態推理示例
為了量化數據污染和知識過時的雙重影響,研究團隊進行了一項縱向試點研究。結果顯示,模型在較舊的、可能被污染的數據上的表現與在新的、當代數據上的表現之間存在顯著差距。以GPT-5為例,在其知識截止日期內的數據上得分高達45.0%,但在截止日期后發布的案例上下降了近10個百分點。這種模式在各個模型中一致存在,量化了數據污染的扭曲效應和知識過時的影響。
01
LiveClin基準測試概述
為解決上述挑戰,研究團隊引入了LiveClin——一個旨在近似真實世界臨床實踐的實時基準測試。該基準測試從當代、同行評審的病例報告中構建,每半年更新一次,確保臨床時效性并抵抗數據污染。研究團隊使用經過驗證的AI-人類工作流程(涉及239名醫生),將真實患者病例轉化為復雜的多模態評估場景,覆蓋整個臨床路徑。基準測試目前包含1,407個病例報告和6,605個問題。
LiveClin的核心創新在于其動態性和臨床真實性。與靜態基準測試不同,LiveClin通過持續更新的機制確保評估內容始終反映最新的醫學知識和臨床實踐。每個病例都被轉化為多階段考試,評估模型是否能夠順序整合反映患者病情演變的多模態信息。這種設計模擬了從初始評估到長期管理的完整臨床路徑,在每個關鍵決策點逐步引入新的臨床信息和多樣化的影像模態(如X光、MRI、病理、CT),以挑戰模型在演進場景中的推理能力。
![]()
圖. 不同發表時間的數據集上大語言模型(LLM)的準確率對比。研究發現模型在較早、可能受到數據污染的數據上的表現,與在最新、當代數據上的表現之間存在顯著差距。以 GPT-5 為例:在其知識庫覆蓋范圍內的數據上,其得分可高達 45.0%;但在知識截止時間之后發表的病例上,成績則下降了近 10 個百分點。
02
數據構建流程
2.1臨床分類體系
LiveClin的分類體系是一個多層次性能分析的基礎框架,旨在克服現有基準測試單一分數、范圍狹窄的局限性。該體系采用三級層次結構:第一級為ICD-10章節,包含16個臨床連貫的章節,提供模型在主要醫學專業領域能力的宏觀視角;第二級為疾病群組,定義了72個不同的疾病群組,平衡了特異性和統計可靠性的需求;第三級為ICD-10代碼,實現細粒度的診斷級評估,對于識別模型在眾多疾病中的具體優勢和劣勢至關重要。
2.2病例構建
病例構建階段專注于建立高質量、結構化的當代臨床病例語料庫。研究團隊首先從PubMed Central開放獲取子集中程序化檢索2025年上半年發布的所有XML格式病例報告。然后,自定義構建的流程解析每個文件,提取關鍵元數據并分析文章結構。描述患者病程的部分(如病例呈現)被聚合形成核心病例敘述,而包含作者分析的部分(如討論)被整合為病例討論。為支持多模態能力評估,該流程還將所有表格數據轉換為Markdown格式,并提取所有相關圖像的持久URL及其標題。
在采樣階段,研究團隊首先使用gpt-4.1-2025-04-14對每個病例報告進行三級分類。然后實施分層抽樣協議,以72個二級疾病群組為指導,每個群組抽樣30個獨特病例,同時優先考慮每個樣本中三級疾病的多樣性,以減輕常見疾病的過度代表性。這一嚴格程序最終產生了2,150份高質量病例報告的語料庫。
2.3考試生成
考試生成階段采用生成器-批評器架構,將靜態報告轉化為模擬整個臨床路徑的多步驟問題。生成器代理首先將每個病例重構為漸進式臨床挑戰,創建簡潔的初始臨床場景,然后生成3-6個漸進式、10選項多選題序列。每個問題的上下文在適當的工作流程步驟策略性地引入新的臨床細節,探測模型整合演進信息的能力。
批評器代理負責閉環質量控制。一旦生成器產生問題集,批評器在兩個關鍵維度上評估它:臨床準確性和認知復雜性。如果問題被標記,批評器提供可操作的反饋,促使生成器修訂該集合。這個精煉循環持續進行,直到問題集達到兩個標準:100%的臨床準確性(確保所有內容事實正確)和超過60%問題的高認知復雜性。為確保效率,任何在10個循環內未能收斂的集合將被丟棄。
2.4質量檢查
質量檢查階段實施多層質量保證協議,遵循保守原則:任何有潛在缺陷的問題都被拒絕。該協議結合AI預篩選和多層級醫生驗證。所有評估者應用兩個嚴格標準:事實驗證(確保與源病例完美對齊)和邏輯可解性(確認答案可從可用信息中推導)。AI驅動的預篩選首先由法官代理進行裁決,作為高度保守的預過濾器,自主拒絕根本上有缺陷的問題。隨后,239名持證醫生進行兩階段驗證:標注階段由主治醫生評估每個問題;檢查階段由資深醫生審查標注。任何差異都會觸發與標注者的修訂循環,直到達成共識。
![]()
圖3. LiveClin 的病例檢索、生成與過濾流程
03
實驗結果與分析
3.1整體性能評估
研究團隊對26個領先的大語言模型進行了全面評估。結果顯示,專有模型領先,o3和GPT-5位居榜首。在100個隨機抽樣的LiveClin病例上與醫生進行基準對比,主任醫師準確率最高,主治醫生略低,兩組都超過了大多數模型。只有GPT-5和o3略微超過主治醫生,但仍未達到主任醫師的水平。表現最好的模型僅達到35.7%的案例準確率,這凸顯了基準測試的難度。
開源模型正在縮小差距,大規模模型如InternVL-3.5-241B接近專有領導者,高效設計如GLM-4V-9B超過了較弱的專有系統如GPT-4o。研究發現挑戰了單純通過擴展或新版本發布就能帶來更好臨床推理能力的信念。例如,Claude 3.5 Sonnet超過了其后繼者Claude 3.7 Sonnet,在Gemini系列中,Gemini 2.0 Flash得分高于Gemini 2.5 Flash。這標志著自動升級帶來的收益已經結束,指向需要針對性的、特定領域的優化。
![]()
圖. LiveClin的數據分布與統計
3.2深度分析
對臨床路徑上的錯誤模式分析揭示了不同模型類別的獨特失敗模式。頂級專有模型如o3傾向于在路徑中期失敗,錯誤在認知要求高的診斷與解釋階段達到峰值。相比之下,開源醫療模型表現出后期失敗模式,錯誤集中在最后四分之一的隨訪階段,表明長上下文保留的關鍵性崩潰。通用模型如GLM-4V-9B表現出前端加載的錯誤特征,在過程早期就出現失誤,這凸顯了提高從初始臨床呈現進行有效推理能力的迫切需求。
對ICD-10章節的分析顯示,模型性能高度可變,揭示了獨特的專業化以及普遍的弱點。例如,模型在由清晰系統邏輯支配的領域(如內分泌疾病)表現出色,但在需要細致綜合的領域(如腫瘤)普遍表現不佳。有趣的是,這種專業化超越了規模:頂級o3(68.4%)和緊湊的Claude-3.5-Sonnet(63.2%)在精神和行為障礙方面都達到了出色的準確率。
![]()
圖4. 26款大模型與人類真實醫生在 LiveClin 上的 Case Accuracy(病例完全通關率)評測結果比較3.3多模態分析
多模態推理分析顯示,簡單數據提取與復雜推理之間存在關鍵差距。模型自信地解釋結構化數據如圖表(75.1%),但在需要專家級推理時表現不佳,病理(59.6%)和生物信號(53.6%)等模態上的表現較差。盡管專業訓練顯示出希望,MedGemma-27B在生物信號方面表現出驚人的能力(71.4%),但基礎穩健性仍然是關鍵挑戰。即使是最有能力的模型也可能在看似簡單的輸入如人口統計表上出錯,這凸顯了這一核心問題。
![]()
圖. 各款大模型在不同醫學影像及表格上的準確率熱力圖
04
消融研究
為驗證基于代理的流程中每個組件的貢獻,研究團隊在隨機抽樣的200份病例報告上進行了消融研究。結果顯示,基于LLM的生成在可擴展性和問題復雜性方面都有顯著改善。單獨運行時,生成器代理將時間和財務成本相比醫生撰寫降低了近兩個數量級,同時將簡單問題的比例從38.5%降低到16.5%。添加批評器代理對事實準確性至關重要,將醫生驗證的準確率從84.5%提高到93.0%,并進一步將簡單問題比例降低到5.5%。這種迭代精煉對于大規模產生可靠、臨床要求高的內容至關重要。
最終的法官代理不僅作為過濾器,更是人類審查過程的關鍵增強。雖然其包含名義上將通過率降低到89.5%,但這種降低代表了一個積極的結果:更嚴格的質量標準。通過為醫生提供結構化的審計跟蹤和來自源病例的直接證據,法官使他們能夠識別可能被忽視的細微缺陷。
05
可持續性與污染控制
LiveClin的長期可靠性依賴于可持續性、污染控制和偏見評估。研究團隊維持每半年一次的醫生審查更新周期作為可靠實時醫療AI評估的核心要求。每個周期替換整個評估集,重新評估現有模型,并包括新發布的模型。利用AI-人類協作工作流程,前六個月的病例被收集、驗證并在前兩周內發布。
為限制污染風險,研究團隊實施定期更新,遵循LiveBench和LiveCodeBench的做法。模型數據收集與公開發布之間大約六到八個月的滯后為污染控制提供了有效窗口。為檢測個別開發者頻繁迭代可能帶來的潛在利用,研究團隊運營每月更新的私人排行榜。月度分數變化很小,排名保持穩定,確認監控措施保障了基準測試的完整性。
06
總結與展望
這項工作的主要貢獻包括三個方面:首先,LiveClin是一個新穎、動態、多模態的基準測試,評估完整的臨床路徑,設計為抗污染并持續更新;其次,一個可擴展且經過驗證的AI-人類工作流程,用于生成和維護模擬臨床實踐的高質量評估,證明比僅人類撰寫更具成本效益,并產生更具挑戰性的問題;第三,對26個領先LLM的全面評估,為最先進的臨床推理提供了新的基線,并揭示了關鍵的、獨特的失敗模式,為未來模型開發提供信息。
LiveClin標志著從靜態知識測試到應用臨床推理動態評估的范式轉變。通過提供持續演進、基于臨床的挑戰,研究團隊旨在指導醫療LLM的發展,朝著更大的現實世界可靠性和安全性邁進。評估結果顯示了明顯的性能差距,頂級案例準確率僅為35.7%,揭示了頂級模型中期的綜合困難以及專業模型后期階段的上下文丟失等獨特失敗模式。這些發現為醫療AI的進一步發展指明了方向,強調了在強大通用基礎模型之上進行針對性、領域特定優化的重要性。
----- END -----
wisemodel相關:
系列模型:
![]()
關于wisemodel更多
![]()
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
向上滑動查看
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.