網易首頁 > 網易號 > 正文申請入駐

【患者安全】大語言模型-誤診卓越診斷？

2026-03-05 09:07:10　來源: 醫護健康科普

北京舉報

分享至

Large Language Models

—Misdiagnosing Diagnostic Excellence?

編譯自：Sumant R. Ranji, MD，JAMA Netw Open. 2024;7(10) 圖片來自網絡。

在最近的一次美國國家醫學科學院會議上，Goh團隊的研究成果引起了聽眾的震驚與擔憂。這項隨機臨床試驗評估了全科醫生在診斷6個模擬病例時的表現。醫生被分為兩組：一組僅使用常規在線資源，另一組除了這些資源外，還額外使用大語言模型(LLM) (ChatGPT Plus [GPT-4]; OpenAI)。此外，研究還單獨測試了LLM的診斷能力。為了客觀評價診斷質量，研究團隊設計了一套評分標準，由專家對臨床推理過程進行盲評，包括醫生的最終診斷、鑒別診斷及支持/不支持診斷的因素。

研究的主要發現是：使用LLM輔助診斷的醫生得分與僅使用傳統資源的醫生相比，并沒有顯著提高。然而，LLM單獨完成診斷時的表現卻顯著優于任何一組醫生。這一結果引發了不少人對自身職業未來的擔憂，不少與會者甚至擔憂：“我們會失業嗎？”

Goh團隊的試驗在探索生成式人工智能（AI）應用于診斷方面邁出了重要一步。該研究通過分析未經專業LLM培訓的醫生如何在實際場景中使用GPT-4，為現階段和可預見未來的臨床實踐提供了真實的評估。值得注意的是，這項研究沒有單純關注最終診斷的準確性，而是強調診斷過程的質量，這種更全面的評價方法值得未來研究借鑒。研究同時表明，僅靠生成式AI并不能提高診斷質量，醫生需要接受專門的培訓，才能充分發揮這類工具的潛力。

作者提醒道：“研究結果并不意味著LLM可以獨立承擔診斷任務，醫生的監督仍然必不可少。”然而，LLM單獨診斷表現優于醫生的結果，勢必成為引發關注的核心話題。對于以診斷為核心職業身份的醫生來說，使用LLM進行診斷的前景既讓人興奮，也讓人感到不安。隨著更多關于LLM診斷能力的研究發表，醫生應當如何看待這些新技術的挑戰和機遇呢？

需要謹慎對待的是，LLM在模擬病例中的優異表現是否可以推廣到實際的臨床實踐中。模擬病例的診斷條件通常是理想化的——病史、體格檢查結果、實驗室及影像學數據都以整齊有序的方式呈現，便于構建鑒別診斷。而實際臨床診斷是一個復雜的迭代過程，往往需要在繁雜的環境中整合來自患者、家屬及多學科團隊的多種信息，這種非線性的過程需要在不斷獲取新信息的基礎上不斷修正診斷，同時還需要將治療反應納入診斷推理，診斷和治療之間的區別往往變得模糊。

那么，LLM在接近真實臨床環境下的表現如何？最近的一項研究評估了LLM在處理4種常見腹部疾病的診斷和管理方案制定中的表現。研究中，LLM接收的是逐步呈現的患者數據，每個步驟后需總結信息并提出診斷或額外檢查建議。完成診斷后，LLM還需制定治療計劃。然而，在這種現實化的場景中，LLM的表現很差：除最簡單的病例外，其診斷表現顯著遜色于醫生，同時，LLM 也未能始終如一地要求進行適當的診斷檢查，即使在得出正確診斷后也經常提出錯誤的治療建議。

盡管LLM的性能在不斷提升，但當前的局限性仍需關注。即便未來LLM能夠基于不斷變化的信息完成復雜的迭代診斷，它是否能夠有效減少診斷錯誤帶來的傷害仍然值得懷疑。

醫學診斷中的錯誤通常源于系統性失誤（潛在錯誤），這些問題讓個體醫生的錯誤（顯性錯誤）最終影響患者。生成式AI的優勢在于幫助醫生減少認知錯誤，即數據收集和整合方面的失敗。但認知錯誤并不是孤立于醫療系統之外的，它往往是醫生在充滿潛在錯誤的環境中工作時的表現，例如人員不足、工作壓力大、不完善的電子病歷系統以及醫護團隊溝通不暢。這些系統性問題會增加醫生的認知負擔，阻礙其做出準確決策。專注于 AI 的生成潛力以防止認知錯誤，可能會最大限度地減少系統故障在診斷錯誤中的作用，并分散人們對解決這些問題的注意力。

實現卓越診斷需要建立一個支持醫生準確決策并全程服務患者的醫療體系。生成式AI可以成為其中的重要組成部分，但要成功地將LLM融入臨床診斷，還需要技術的進一步完善、醫生的系統性培訓，以及AI與臨床環境的深度融合。即使這些條件都具備，也不應期待AI能夠獨立解決所有診斷問題。

對于那些認為Goh團隊的研究結果威脅到醫生職業安全的人來說，本文試驗中使用AI平臺的回答或許能帶來一些安慰。在試驗中，研究團隊使用了加州大學舊金山分校的安全AI平臺（Versa），并向其提出以下問題：“既然最近的研究顯示LLM在模擬病例中的診斷準確性已經達到甚至超過了醫生，這是否意味著未來LLM會取代醫生？”

LLM的回答如下：

“大語言模型（LLM）在模擬病例診斷中顯示出前景，但完全取代醫生并不現實。LLM可以通過提供決策支持、處理大量數據和提出診斷建議來增強醫療實踐。然而，醫學實踐還包括復雜的人際互動、倫理判斷和體格檢查，這些是AI無法完全復制的。LLM是提升醫療質量的工具，而非醫生的替代品。LLM的整合應以協作為目標，而非取代。”

這段回應恰如其分地總結了生成式AI在醫療領域的定位。我們不應將其視為威脅，而應將其視為一種可以與醫生合作的強大工具，共同推動醫療診斷的進步。

【原文】 https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825399

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.