337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

LiveClin:239位醫生打造“實時+臨床全路徑”的醫療評測基準

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區,始終堅持“中立、開放、共建、共創、合作”五項基本原則,歡迎加入共同成長。

大語言模型(LLM)在醫療健康領域展現出巨大的應用潛力,從輔助復雜診斷到個性化患者護理,這些強大的工具正在逐步改變醫療實踐的面貌。然而,將這些工具安全有效地整合到臨床實踐中,完全取決于我們對其真實能力的嚴格評估能力。隨著通用知識與專家級臨床推理之間差距的擴大,開發復雜、基于臨床的基準測試不僅是學術進步的問題,更是構建可信醫療人工智能的前提條件。


項目地址

https://wisemodel.cn/datasets/FreedomIntelligence/LiveClin

當前醫療大語言模型的評估領域存在兩個關鍵局限性。首先是數據污染問題:靜態基準測試如MedQA等不僅容易受到數據污染的影響,還面臨知識過時的風險。隨著模型在日益擴大的網絡規模語料庫上進行訓練,流行靜態基準測試的問題和答案不可避免地被吸收到其訓練集中。這種廣泛的污染意味著模型越來越多地在已經見過的數據上進行測試,導致性能分數虛高,這嚴重威脅了評估的完整性。

其次是評估設計的局限性:現有的單輪評估與患者護理的縱向性質不一致。通過在孤立的、合成的快照中評估推理能力,即使是先進的系統如MedXpertQA和AgentClinic也將患者管理簡化為一系列不連貫的任務。這種方法無法評估導航患者整個臨床路徑所需的綜合推理能力,從初始呈現到長期管理。


圖1. LiveClin 模擬真實患者全臨床路徑的動態推理示例

為了量化數據污染和知識過時的雙重影響,研究團隊進行了一項縱向試點研究。結果顯示,模型在較舊的、可能被污染的數據上的表現與在新的、當代數據上的表現之間存在顯著差距。以GPT-5為例,在其知識截止日期內的數據上得分高達45.0%,但在截止日期后發布的案例上下降了近10個百分點。這種模式在各個模型中一致存在,量化了數據污染的扭曲效應和知識過時的影響。

01

LiveClin基準測試概述

為解決上述挑戰,研究團隊引入了LiveClin——一個旨在近似真實世界臨床實踐的實時基準測試。該基準測試從當代、同行評審的病例報告中構建,每半年更新一次,確保臨床時效性并抵抗數據污染。研究團隊使用經過驗證的AI-人類工作流程(涉及239名醫生),將真實患者病例轉化為復雜的多模態評估場景,覆蓋整個臨床路徑。基準測試目前包含1,407個病例報告和6,605個問題。

LiveClin的核心創新在于其動態性和臨床真實性。與靜態基準測試不同,LiveClin通過持續更新的機制確保評估內容始終反映最新的醫學知識和臨床實踐。每個病例都被轉化為多階段考試,評估模型是否能夠順序整合反映患者病情演變的多模態信息。這種設計模擬了從初始評估到長期管理的完整臨床路徑,在每個關鍵決策點逐步引入新的臨床信息和多樣化的影像模態(如X光、MRI、病理、CT),以挑戰模型在演進場景中的推理能力。


圖. 不同發表時間的數據集上大語言模型(LLM)的準確率對比。研究發現模型在較早、可能受到數據污染的數據上的表現,與在最新、當代數據上的表現之間存在顯著差距。以 GPT-5 為例:在其知識庫覆蓋范圍內的數據上,其得分可高達 45.0%;但在知識截止時間之后發表的病例上,成績則下降了近 10 個百分點。

02

數據構建流程

2.1臨床分類體系

LiveClin的分類體系是一個多層次性能分析的基礎框架,旨在克服現有基準測試單一分數、范圍狹窄的局限性。該體系采用三級層次結構:第一級為ICD-10章節,包含16個臨床連貫的章節,提供模型在主要醫學專業領域能力的宏觀視角;第二級為疾病群組,定義了72個不同的疾病群組,平衡了特異性和統計可靠性的需求;第三級為ICD-10代碼,實現細粒度的診斷級評估,對于識別模型在眾多疾病中的具體優勢和劣勢至關重要。

2.2病例構建

病例構建階段專注于建立高質量、結構化的當代臨床病例語料庫。研究團隊首先從PubMed Central開放獲取子集中程序化檢索2025年上半年發布的所有XML格式病例報告。然后,自定義構建的流程解析每個文件,提取關鍵元數據并分析文章結構。描述患者病程的部分(如病例呈現)被聚合形成核心病例敘述,而包含作者分析的部分(如討論)被整合為病例討論。為支持多模態能力評估,該流程還將所有表格數據轉換為Markdown格式,并提取所有相關圖像的持久URL及其標題。

在采樣階段,研究團隊首先使用gpt-4.1-2025-04-14對每個病例報告進行三級分類。然后實施分層抽樣協議,以72個二級疾病群組為指導,每個群組抽樣30個獨特病例,同時優先考慮每個樣本中三級疾病的多樣性,以減輕常見疾病的過度代表性。這一嚴格程序最終產生了2,150份高質量病例報告的語料庫。

2.3考試生成

考試生成階段采用生成器-批評器架構,將靜態報告轉化為模擬整個臨床路徑的多步驟問題。生成器代理首先將每個病例重構為漸進式臨床挑戰,創建簡潔的初始臨床場景,然后生成3-6個漸進式、10選項多選題序列。每個問題的上下文在適當的工作流程步驟策略性地引入新的臨床細節,探測模型整合演進信息的能力。

批評器代理負責閉環質量控制。一旦生成器產生問題集,批評器在兩個關鍵維度上評估它:臨床準確性和認知復雜性。如果問題被標記,批評器提供可操作的反饋,促使生成器修訂該集合。這個精煉循環持續進行,直到問題集達到兩個標準:100%的臨床準確性(確保所有內容事實正確)和超過60%問題的高認知復雜性。為確保效率,任何在10個循環內未能收斂的集合將被丟棄。

2.4質量檢查

質量檢查階段實施多層質量保證協議,遵循保守原則:任何有潛在缺陷的問題都被拒絕。該協議結合AI預篩選和多層級醫生驗證。所有評估者應用兩個嚴格標準:事實驗證(確保與源病例完美對齊)和邏輯可解性(確認答案可從可用信息中推導)。AI驅動的預篩選首先由法官代理進行裁決,作為高度保守的預過濾器,自主拒絕根本上有缺陷的問題。隨后,239名持證醫生進行兩階段驗證:標注階段由主治醫生評估每個問題;檢查階段由資深醫生審查標注。任何差異都會觸發與標注者的修訂循環,直到達成共識。


圖3. LiveClin 的病例檢索、生成與過濾流程

03

實驗結果與分析

3.1整體性能評估

研究團隊對26個領先的大語言模型進行了全面評估。結果顯示,專有模型領先,o3和GPT-5位居榜首。在100個隨機抽樣的LiveClin病例上與醫生進行基準對比,主任醫師準確率最高,主治醫生略低,兩組都超過了大多數模型。只有GPT-5和o3略微超過主治醫生,但仍未達到主任醫師的水平。表現最好的模型僅達到35.7%的案例準確率,這凸顯了基準測試的難度。

開源模型正在縮小差距,大規模模型如InternVL-3.5-241B接近專有領導者,高效設計如GLM-4V-9B超過了較弱的專有系統如GPT-4o。研究發現挑戰了單純通過擴展或新版本發布就能帶來更好臨床推理能力的信念。例如,Claude 3.5 Sonnet超過了其后繼者Claude 3.7 Sonnet,在Gemini系列中,Gemini 2.0 Flash得分高于Gemini 2.5 Flash。這標志著自動升級帶來的收益已經結束,指向需要針對性的、特定領域的優化。


圖. LiveClin的數據分布與統計

3.2深度分析

對臨床路徑上的錯誤模式分析揭示了不同模型類別的獨特失敗模式。頂級專有模型如o3傾向于在路徑中期失敗,錯誤在認知要求高的診斷與解釋階段達到峰值。相比之下,開源醫療模型表現出后期失敗模式,錯誤集中在最后四分之一的隨訪階段,表明長上下文保留的關鍵性崩潰。通用模型如GLM-4V-9B表現出前端加載的錯誤特征,在過程早期就出現失誤,這凸顯了提高從初始臨床呈現進行有效推理能力的迫切需求。

對ICD-10章節的分析顯示,模型性能高度可變,揭示了獨特的專業化以及普遍的弱點。例如,模型在由清晰系統邏輯支配的領域(如內分泌疾病)表現出色,但在需要細致綜合的領域(如腫瘤)普遍表現不佳。有趣的是,這種專業化超越了規模:頂級o3(68.4%)和緊湊的Claude-3.5-Sonnet(63.2%)在精神和行為障礙方面都達到了出色的準確率。


圖4. 26款大模型與人類真實醫生在 LiveClin 上的 Case Accuracy(病例完全通關率)評測結果比較
3.3多模態分析

多模態推理分析顯示,簡單數據提取與復雜推理之間存在關鍵差距。模型自信地解釋結構化數據如圖表(75.1%),但在需要專家級推理時表現不佳,病理(59.6%)和生物信號(53.6%)等模態上的表現較差。盡管專業訓練顯示出希望,MedGemma-27B在生物信號方面表現出驚人的能力(71.4%),但基礎穩健性仍然是關鍵挑戰。即使是最有能力的模型也可能在看似簡單的輸入如人口統計表上出錯,這凸顯了這一核心問題。


圖. 各款大模型在不同醫學影像及表格上的準確率熱力圖

04

消融研究

為驗證基于代理的流程中每個組件的貢獻,研究團隊在隨機抽樣的200份病例報告上進行了消融研究。結果顯示,基于LLM的生成在可擴展性和問題復雜性方面都有顯著改善。單獨運行時,生成器代理將時間和財務成本相比醫生撰寫降低了近兩個數量級,同時將簡單問題的比例從38.5%降低到16.5%。添加批評器代理對事實準確性至關重要,將醫生驗證的準確率從84.5%提高到93.0%,并進一步將簡單問題比例降低到5.5%。這種迭代精煉對于大規模產生可靠、臨床要求高的內容至關重要。

最終的法官代理不僅作為過濾器,更是人類審查過程的關鍵增強。雖然其包含名義上將通過率降低到89.5%,但這種降低代表了一個積極的結果:更嚴格的質量標準。通過為醫生提供結構化的審計跟蹤和來自源病例的直接證據,法官使他們能夠識別可能被忽視的細微缺陷。

05

可持續性與污染控制

LiveClin的長期可靠性依賴于可持續性、污染控制和偏見評估。研究團隊維持每半年一次的醫生審查更新周期作為可靠實時醫療AI評估的核心要求。每個周期替換整個評估集,重新評估現有模型,并包括新發布的模型。利用AI-人類協作工作流程,前六個月的病例被收集、驗證并在前兩周內發布。

為限制污染風險,研究團隊實施定期更新,遵循LiveBench和LiveCodeBench的做法。模型數據收集與公開發布之間大約六到八個月的滯后為污染控制提供了有效窗口。為檢測個別開發者頻繁迭代可能帶來的潛在利用,研究團隊運營每月更新的私人排行榜。月度分數變化很小,排名保持穩定,確認監控措施保障了基準測試的完整性。

06

總結與展望

這項工作的主要貢獻包括三個方面:首先,LiveClin是一個新穎、動態、多模態的基準測試,評估完整的臨床路徑,設計為抗污染并持續更新;其次,一個可擴展且經過驗證的AI-人類工作流程,用于生成和維護模擬臨床實踐的高質量評估,證明比僅人類撰寫更具成本效益,并產生更具挑戰性的問題;第三,對26個領先LLM的全面評估,為最先進的臨床推理提供了新的基線,并揭示了關鍵的、獨特的失敗模式,為未來模型開發提供信息。

LiveClin標志著從靜態知識測試到應用臨床推理動態評估的范式轉變。通過提供持續演進、基于臨床的挑戰,研究團隊旨在指導醫療LLM的發展,朝著更大的現實世界可靠性和安全性邁進。評估結果顯示了明顯的性能差距,頂級案例準確率僅為35.7%,揭示了頂級模型中期的綜合困難以及專業模型后期階段的上下文丟失等獨特失敗模式。這些發現為醫療AI的進一步發展指明了方向,強調了在強大通用基礎模型之上進行針對性、領域特定優化的重要性。

----- END -----

wisemodel相關:

系列模型:


關于wisemodel更多


1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國際奧委會宣布只有生理女性才能參加女子比賽,是川普的一大勝利

國際奧委會宣布只有生理女性才能參加女子比賽,是川普的一大勝利

壹家言
2026-03-29 07:25:16
1-0大冷門!中國隊2勝1平創佳績,新星王鈺棟閃耀全場

1-0大冷門!中國隊2勝1平創佳績,新星王鈺棟閃耀全場

孫譁北漂拍客
2026-03-29 08:17:55
“以軍瀕臨崩潰”,內塔尼亞胡還能打多久?| 京釀館

“以軍瀕臨崩潰”,內塔尼亞胡還能打多久?| 京釀館

新京報評論
2026-03-29 19:05:41
魂歸故里,長眠桑梓!張雪峰安葬地選址原因披露

魂歸故里,長眠桑梓!張雪峰安葬地選址原因披露

史海流年號
2026-03-29 12:14:27
殲20總設計師被除名:頂頭上司受賄7億判死緩,事發全過程被還原

殲20總設計師被除名:頂頭上司受賄7億判死緩,事發全過程被還原

博士觀察
2026-03-28 21:02:35
全美50州爆發抗議示威,高喊特朗普下臺,萬斯宣布撤軍伊朗

全美50州爆發抗議示威,高喊特朗普下臺,萬斯宣布撤軍伊朗

莉莉和奶奶
2026-03-29 19:19:10
接陌生電話不要先出聲

接陌生電話不要先出聲

大象新聞
2026-03-29 07:29:10
3月30日俄烏最新:川普要動手了?

3月30日俄烏最新:川普要動手了?

西樓飲月
2026-03-29 22:00:44
李榮浩預判封神,單依純道歉果然甩鍋團隊!李榮浩再發四連問聲討

李榮浩預判封神,單依純道歉果然甩鍋團隊!李榮浩再發四連問聲討

露珠聊影視
2026-03-29 17:57:06
Deepseek現在怎么沒聲音了,梁文峰的低調錯失了寶貴的發展時機?

Deepseek現在怎么沒聲音了,梁文峰的低調錯失了寶貴的發展時機?

上林院
2026-03-29 10:30:20
老天吶,差點沒認出來,真人比電視上還漂亮

老天吶,差點沒認出來,真人比電視上還漂亮

鄉野小珥
2026-03-30 00:14:46
軍號被粉底液將軍粉絲圍攻,編劇汪海林發聲:真是無法無天

軍號被粉底液將軍粉絲圍攻,編劇汪海林發聲:真是無法無天

往史過眼云煙
2026-03-28 14:32:07
不裝了!徐帆回應離婚7個月后,馮小剛貼臉養女,擔心的事發生了

不裝了!徐帆回應離婚7個月后,馮小剛貼臉養女,擔心的事發生了

共工之錨
2026-03-29 18:18:53
張雪峰的靈車細節讓人淚奔,車尾掛著一棵竹子,上面系著他的衣服

張雪峰的靈車細節讓人淚奔,車尾掛著一棵竹子,上面系著他的衣服

魔都姐姐雜談
2026-03-28 18:18:48
伊朗新任最高領袖為何從不露面?專家分析

伊朗新任最高領袖為何從不露面?專家分析

政知新媒體
2026-03-29 22:40:41
國鐵回應廣東高鐵晚點原因:一彩鋼瓦棚頂連同鋼架梁被吹至高鐵接觸網致掛異物停電

國鐵回應廣東高鐵晚點原因:一彩鋼瓦棚頂連同鋼架梁被吹至高鐵接觸網致掛異物停電

澎湃新聞
2026-03-29 23:52:26
被騙160萬,中國工廠把日方模具掛上閑魚,拍出37萬天價 對方急了

被騙160萬,中國工廠把日方模具掛上閑魚,拍出37萬天價 對方急了

三農老歷
2026-03-29 18:35:46
新華社說對了,但沒說全:這場抗議真正可怕的不是人數

新華社說對了,但沒說全:這場抗議真正可怕的不是人數

青青子衿
2026-03-29 22:51:22
自研世界模型發布,零跑打響輔助駕駛元年第一槍!

自研世界模型發布,零跑打響輔助駕駛元年第一槍!

車東西
2026-03-27 20:05:15
張雪峰遺體轉運畫面流出!前妻和現任妻子現身,下屬向遺像三叩首

張雪峰遺體轉運畫面流出!前妻和現任妻子現身,下屬向遺像三叩首

博士觀察
2026-03-29 11:52:26
2026-03-30 08:27:00
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

健康要聞

干細胞抗衰4大誤區,90%的人都中招

頭條要聞

伊朗外交部發言人:美國提出的建議非常極端且不合理

頭條要聞

伊朗外交部發言人:美國提出的建議非常極端且不合理

體育要聞

絕殺衛冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

汪峰定律再現!李榮浩喊話單依純侵權

財經要聞

油價沖擊,有些亞洲貨幣先扛不住了!

科技要聞

馬斯克承認xAI"建錯了",11位創始人均離職

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態度原創

教育
旅游
手機
家居
時尚

教育要聞

來上課了——高考閱讀難題大綜合(細節+主旨+含義)(下)第4段

旅游要聞

馬達加斯加姑娘為一朵牡丹“打飛的”,上海把賞花經濟做成“城市名片”

手機要聞

三星One UI 9大揭秘:基于Android 17,細節沒懸念了!

家居要聞

曲線華爾茲 現代簡約

來到1980的周也,好毛利蘭

無障礙瀏覽 進入關懷版