從實(shí)驗(yàn)室Demo到國民級健康伙伴：醫(yī)療Agent離“進(jìn)指南”還有多遠(yuǎn)？| GAIR Live 024

2026-02-27 18:25:39　來源: AI科技評論

廣東舉報

分享至

拆解醫(yī)學(xué)專用大模型如何跨越從“信息檢索”到“嚴(yán)肅醫(yī)療”服務(wù)的鴻溝，打造“以患者為中心”的AI醫(yī)療生態(tài)。

作者丨岑峰

隨著大語言模型從生成式對話向?qū)I(yè)垂直領(lǐng)域的深度滲透，醫(yī)療健康正成為 AGI 落地最具價值也最受關(guān)注的“深水區(qū)”。過去，大眾在面臨健康困惑時，習(xí)慣于在搜索引擎的碎片化信息中自行“拼圖”，往往陷入信息矛盾與焦慮。而今天，以螞蟻集團(tuán)“阿福”為代表的醫(yī)學(xué)大模型，正憑借其強(qiáng)大的知識整合能力與多模態(tài)交互體驗(yàn)，迅速從實(shí)驗(yàn)室的 Demo 演變?yōu)閾碛星f級日活、覆蓋全年齡段的“國民級健康伙伴”。

然而，當(dāng) AI 開始介入嚴(yán)肅醫(yī)療與日常健康管理，一系列深層命題也隨之而來：垂類模型如何在通用模型之上構(gòu)建不可替代的專業(yè)壁壘？如何平衡醫(yī)學(xué)的科學(xué)嚴(yán)謹(jǐn)性與人文關(guān)懷的溫情？在面臨“AI 迎合性”導(dǎo)致的倫理風(fēng)險時，我們該如何劃定安全紅線？

為此，本期 GAIR Live 舉辦了題為“AI for Health：從‘實(shí)驗(yàn)室 Demo’到‘國民級健康伙伴’的范式躍遷”的線上圓桌。論壇由南佛羅里達(dá)大學(xué)教授、美國醫(yī)學(xué)與生物工程學(xué)會會士許東發(fā)起并主持，特邀螞蟻集團(tuán)技術(shù)研究院副院長、醫(yī)療健康實(shí)驗(yàn)室主任呂樂，螞蟻健康 CTO、醫(yī)療大模型“阿福”之父顧進(jìn)杰，以及西弗吉尼亞大學(xué)助理教授胡鋼清。四位深耕 AI 與生物醫(yī)學(xué)交叉領(lǐng)域的專家，從研發(fā)底座、產(chǎn)品實(shí)踐、臨床觀察到倫理治理，展開了一場超過兩小時的硬核對談。

圓桌內(nèi)容呈現(xiàn)了醫(yī)療 AI 發(fā)展的四大核心維度：

第一，在產(chǎn)品范式上，顧進(jìn)杰詳細(xì)拆解了“螞蟻阿福”如何通過健康檔案管理、健康小目標(biāo)陪伴以及多模態(tài)問診三大功能，構(gòu)建起“AI 醫(yī)生朋友”的定位。他指出，醫(yī)療大模型不僅是信息的輸出者，更是長程健康的記憶者與管理者。許東教授則分享了中醫(yī)大模型“本草”的開發(fā)經(jīng)驗(yàn)，論證了在垂直細(xì)分領(lǐng)域，小團(tuán)隊亦能通過專家反饋閉環(huán)和對齊技術(shù)，做出專業(yè)深度超越通用模型的產(chǎn)品。

第二，在技術(shù)壁壘上，嘉賓們達(dá)成共識：醫(yī)學(xué)大模型絕非通用模型的簡單微調(diào)。顧進(jìn)杰總結(jié)了能力增強(qiáng)、醫(yī)學(xué)對齊與能力邊界（拒答能力）三大關(guān)鍵差異。呂樂則從嚴(yán)肅醫(yī)療視角指出，AI 的終極價值在于“生產(chǎn)優(yōu)質(zhì)醫(yī)療生產(chǎn)力”，尤其是在腫瘤多學(xué)科會診（MDT）這類復(fù)雜決策中，AI 能夠處理人類大腦難以實(shí)時融合的多模態(tài)非結(jié)構(gòu)化數(shù)據(jù)。

第三，在安全與倫理上，胡鋼清警示了大模型的“迎合性”帶來的潛在風(fēng)險，如“AI Psychosis”, 即與 AI 互動可能誘發(fā)或加重心理健康問題。為此，專家們探討了“人機(jī)協(xié)作（Human in the loop）”的重要性，強(qiáng)調(diào)在識別到極端情緒或高風(fēng)險信號時，必須引入真人專家干預(yù)，作為醫(yī)療 AI 的安全底座。

第四，在未來基建上，呂樂提出“AI 好不好的標(biāo)準(zhǔn)是進(jìn)指南”，強(qiáng)調(diào)醫(yī)療創(chuàng)新應(yīng)像春雨般“潤物無聲”。專家們預(yù)判，未來醫(yī)療將進(jìn)入 Agent 爆發(fā)期，預(yù)問診、隨訪、早篩等環(huán)節(jié)將實(shí)現(xiàn)全鏈路重塑。而這一切的護(hù)城河，并不在算法架構(gòu)本身，而在冰山之下的高質(zhì)量評測集（Benchmark）與數(shù)據(jù)治理（Data Curation）。

從實(shí)驗(yàn)室走向真實(shí)世界，AI for Health 的躍遷不僅是算力的競賽，更是對生命健康的深度敬畏與人文重構(gòu)。

以下是此次圓桌討論的精彩分享，AI 科技評論進(jìn)行了不改原意的編輯整理：

從“實(shí)驗(yàn)室Demo”到“國民級應(yīng)用”的進(jìn)化

許東：各位觀眾、老師、同學(xué)，大家好。歡迎參加本期GAIR Live論壇。我是今天的主持人許東。

我們今天討論的主題是“大語言模型作為健康伙伴的范式躍遷”。過去幾年，人工智能在科研輔助、內(nèi)容創(chuàng)作、工業(yè)生產(chǎn)和日常辦公等各方面帶來了巨大紅利，重塑了諸多行業(yè)。但對普通百姓來說，最實(shí)惠、最關(guān)心的莫過于AI如何幫助我們的健康。

以往身體不適時，大家通常習(xí)慣使用搜索引擎（如百度、谷歌）。這種方式雖然信息量大，但往往碎片化、片面甚至彼此矛盾，用戶常處于“信息過載卻不知如何使用”的困境。大語言模型的出現(xiàn)整合了海量內(nèi)容，能進(jìn)行系統(tǒng)的歸納與總結(jié)，比傳統(tǒng)搜索更具價值和可靠性。

目前，醫(yī)學(xué)專用大語言模型不斷涌現(xiàn)。在這一領(lǐng)域，螞蟻集團(tuán)研發(fā)的“阿福”醫(yī)學(xué)模型自上線以來，短時間內(nèi)下載量已突破5000萬，確實(shí)非常出色。國外也有類似探索，如ChatGPT推出的Health項(xiàng)目，但因監(jiān)管較多，步伐相對慢一點(diǎn)，仍處于小范圍測試階段。

我們今天既想探討專業(yè)的科研問題，比如醫(yī)學(xué)大模型的邊界、研發(fā)效率及風(fēng)險控制；也想探討普通百姓如何更好地使用這些工具。黃仁勛等大咖曾談到，能否熟練使用大模型將對一個人的生活方式和職業(yè)發(fā)展產(chǎn)生巨大影響。醫(yī)學(xué)是極其專業(yè)的領(lǐng)域，如何與醫(yī)學(xué)模型有效交流、判斷結(jié)果是否可靠，是一門專業(yè)的技術(shù)活。

首先介紹一下我自己。我目前在美國南佛羅里達(dá)大學(xué)醫(yī)學(xué)院工作，本科和碩士畢業(yè)于北大，在伊利諾伊大學(xué)香檳分校（UIUC）獲得博士學(xué)位。我曾在美國安全研究所、橡樹嶺國家實(shí)驗(yàn)室和密蘇里大學(xué)工作，研究方向是AI在生物和醫(yī)學(xué)的應(yīng)用，是美國科學(xué)促進(jìn)會（AAAS）和美國醫(yī)學(xué)與生物工程學(xué)會（AIMBE）會士。

今天我們請到了幾位重量級嘉賓，特別是兩位“阿福”的核心開發(fā)人員：呂樂老師，螞蟻集團(tuán)技術(shù)研究院副院長、健康事業(yè)群醫(yī)療健康實(shí)驗(yàn)室主任。他是美國約翰霍普金斯大學(xué)計算機(jī)科學(xué)顧問委員會委員，曾任阿里巴巴達(dá)摩院醫(yī)療AI部門負(fù)責(zé)人、英偉達(dá)醫(yī)療AI部門創(chuàng)始人，是TPAMI等頂刊的編委，引用率高達(dá)4萬余次。顧進(jìn)杰老師，螞蟻健康事業(yè)群CTO。他帶領(lǐng)團(tuán)隊推動了醫(yī)療通用人工智能開發(fā)及“阿福”APP的創(chuàng)新。他曾負(fù)責(zé)支付寶等部門的核心AI應(yīng)用落地，兩次獲得吳文俊人工智能科技進(jìn)步一等獎。

今天的流程是先請嘉賓進(jìn)行簡單分享，再進(jìn)行深度探討，最后開放聽眾問答。首先請顧進(jìn)杰老師介紹“阿福”的開發(fā)情況。

顧進(jìn)杰：感謝許老師的介紹，很高興歡迎線上的同學(xué)一起探討AI for Health這個方向。我先簡單介紹一下“阿福”這款產(chǎn)品，這是我們近期推出并重點(diǎn)運(yùn)營的一款健康產(chǎn)品。

螞蟻健康事業(yè)群在醫(yī)療領(lǐng)域深耕多年。從2016年起，我們推動了全國首家醫(yī)院醫(yī)保線上支付；2019年推出了全國第一張醫(yī)保電子憑證；在ChatGPT出現(xiàn)后，我們推出了數(shù)字陪診師解決方案。在線下就診過程中，陪診師角色非常重要，能告知診室位置、排隊情況、取藥流程及用藥指導(dǎo)。

2024年，支付寶醫(yī)療健康頻道推出了AI健康管家，用AI重塑服務(wù)過程。2023年，我們聯(lián)合浙江省衛(wèi)健委推出全國首個數(shù)字健康人“安診兒”，目前已服務(wù)浙江省內(nèi)多家線下醫(yī)院。2024年7月，我們推出了螞蟻醫(yī)療大模型；2025年6月，獨(dú)立APP正式發(fā)布。最初由于英文名AQ記憶門檻較高，我們將其升級為中文名“螞蟻阿福”，將定位從“AI工具”轉(zhuǎn)變?yōu)橛脩舻摹癆I醫(yī)生朋友”。

螞蟻阿福的用戶群體與一般的AGI產(chǎn)品挺不一樣。通常AGI產(chǎn)品吸引年輕人嘗鮮，但作為健康產(chǎn)品，阿福的用戶年齡段覆蓋非常均衡，60后、70后、80后占比極高，因?yàn)橹欣夏耆后w確實(shí)有更迫切的健康需求。此外，由于三四線城市醫(yī)療服務(wù)的可及性相對較差，我們有55%的用戶來自三線以下城市。目前，阿福每天回答的提問數(shù)已超過1000萬，月環(huán)比增速達(dá)94%。

螞蟻阿福核心有三大功能：陪伴、問答、服務(wù)。第一是記錄與管理。阿福能持續(xù)記錄用戶的健康檔案，支持病歷拍照上傳，并已接入包括蘋果、華為、榮耀、vivo在內(nèi)的9個智能設(shè)備大品牌，以及魚躍等專業(yè)醫(yī)療設(shè)備。第二是健康陪伴。我們推出了“健康小目標(biāo)”功能，幫助用戶定義運(yùn)動、飲食和作息計劃。例如通過拍照識別飲食內(nèi)容，利用AI幫助用戶養(yǎng)成良好習(xí)慣。第三是健康問答。這是AGI的核心功能。阿福支持隨時隨地的對話，重點(diǎn)加強(qiáng)了多模態(tài)能力，用戶可以拍皮膚患處、拍化驗(yàn)報告或藥盒進(jìn)行咨詢。我們還推出了“AI診室”，它能像醫(yī)生一樣通過多輪對話主動追問，與用戶進(jìn)行深度互動。

在服務(wù)側(cè)，阿福鏈接了“好大夫”線上30萬名三甲醫(yī)院醫(yī)生資源，支持在線問診、買藥，并提供線下云陪診、預(yù)約掛號及診后隨訪。同時，用戶也可以在阿福上通過醫(yī)保碼查看賬戶、動賬情況并進(jìn)行支付。

針對技術(shù)領(lǐng)域的同學(xué)，我也分享一下我們團(tuán)隊在開源方面的兩個重大工作：一是AQMedAI項(xiàng)目。這是我們持續(xù)運(yùn)營的開源項(xiàng)目，主要關(guān)注四大塊內(nèi)容：第一，持續(xù)推動醫(yī)療能力的Benchmark（評測基準(zhǔn)）建設(shè)。目前行業(yè)內(nèi)優(yōu)質(zhì)的醫(yī)療評測基準(zhǔn)依然匱乏，需要與醫(yī)生專家協(xié)作來度量AI能力。第二，Medical Researcher（深度研究代理）。在醫(yī)學(xué)領(lǐng)域，文獻(xiàn)、指南和論文的檢索與理解至關(guān)重要，Deep Research Agent是關(guān)鍵能力。第三，Diver項(xiàng)目。我們利用RAG（檢索增強(qiáng)生成）技術(shù)做循證醫(yī)學(xué)增強(qiáng)，幫助模型獲得更專業(yè)的表現(xiàn)。此外，我們團(tuán)隊具備操控千億級大模型進(jìn)行后訓(xùn)練和強(qiáng)化學(xué)習(xí)的能力，也開源了一些多智能體訓(xùn)練框架。

二是螞蟻安診兒（AntAngel）項(xiàng)目。這是我們與浙江人工智能基地聯(lián)合打造的開源醫(yī)療大模型。去年12月發(fā)布的第一個版本采用了MOE（混合專家）架構(gòu)，基于螞蟻百靈Flash 2.0模型訓(xùn)練，擁有1000億參數(shù)，同時激活約60億參數(shù)。該模型Token輸出速度極快，且量化后能部署在較小的資源環(huán)境下。我們積累了萬億的專業(yè)醫(yī)學(xué)語料，通過三階段訓(xùn)練，使模型在醫(yī)學(xué)專業(yè)能力上表現(xiàn)出色。在MedAIBench及上海Medbench等多個主流評測中，螞蟻安診兒模型均取得了高分，也是目前開源領(lǐng)域得分較高的模型之一。

許老師，我先介紹到這里。

許東：感謝顧老師的分享。接下來，我們請呂樂老師分享他的觀察與實(shí)踐。

呂樂：剛才進(jìn)杰老師提到的“阿福”，目前的定位更側(cè)重于AI全科醫(yī)生或家庭醫(yī)生。而我的工作主要是負(fù)責(zé)螞蟻健康關(guān)于四大慢病（腫瘤、呼吸系統(tǒng)疾病、代謝病、心血管疾病）以及大腦慢病的AI研發(fā)。

嚴(yán)肅醫(yī)療的本質(zhì)是為病人解決實(shí)際的病痛。目前，需要高強(qiáng)度干預(yù)（Intensive Care）以獲得更好預(yù)后的嚴(yán)重病患群體非常龐大，僅在中國就有數(shù)千萬人。然而，無論是中國還是美國，高端醫(yī)療資源始終是匱乏的。解決這個問題的核心，不在于互聯(lián)網(wǎng)醫(yī)療如何重新分配現(xiàn)有資源，而在于如何通過人工智能，從源頭上大規(guī)模地“生產(chǎn)”出優(yōu)質(zhì)的醫(yī)療生產(chǎn)力。

關(guān)于AI與醫(yī)生的關(guān)系，最近有很多討論。從嚴(yán)肅醫(yī)療的角度來看，我并不擔(dān)心這種競爭。我認(rèn)為AI在醫(yī)療中的角色，應(yīng)該是去做那些“醫(yī)生做不了”或“醫(yī)生由于精力限制無法高頻去做”的事情。雖然我們提倡“以病人為中心（Patient-centric Healthcare）”很多年，但只靠有限的醫(yī)生和醫(yī)院是很難徹底實(shí)現(xiàn)的。我們需要AI生產(chǎn)力來輔助醫(yī)生，由醫(yī)生決定如何使用，并最終讓病人獲益。在臨床醫(yī)學(xué)中，這有一套非常嚴(yán)謹(jǐn)?shù)囊?guī)章制度可以遵循，可以通過回顧性和前瞻性的研究，從統(tǒng)計學(xué)上證明病人是否真正受益。

具體到我們的核心工作，是解決癌癥的多學(xué)科會診（MDT）過程。嚴(yán)重的癌癥病人通常每兩三個月就需要評估是否調(diào)整治療方案，以確保方案始終是最優(yōu)的。這種高質(zhì)量、高頻次的干預(yù)需求，即便在美國也只有約5%能被滿足，這意味著本應(yīng)做20次MDT的病人，實(shí)際上只做了一次。全球范圍內(nèi)，澳大利亞在這一塊做得最好，法律規(guī)定癌癥病人必須接受多學(xué)科會診，其癌癥五年存活率也確實(shí)是全球領(lǐng)先的，這證明了MDT的巨大價值。

一個高質(zhì)量的MDT需要融合極其復(fù)雜的信息：不僅包括病史、基因測序、血檢報告，還包括至關(guān)重要的放射影像和病理信息。影像展現(xiàn)了腫瘤及器官的細(xì)微變化，是實(shí)現(xiàn)個性化治療的關(guān)鍵，但它屬于非結(jié)構(gòu)化數(shù)據(jù)（Unstructured Data），難以定量計算。人類大腦在處理這種多模態(tài)信息并將其轉(zhuǎn)化為精準(zhǔn)的治療行動（Action）時，往往會面臨認(rèn)知瓶頸。而這正是AI最擅長處理的領(lǐng)域。

這種需求是真實(shí)存在且長期未被滿足的。我們正在研發(fā)的AI Agent，可以輔助多學(xué)科醫(yī)生進(jìn)行“預(yù)會診”，先產(chǎn)生一份科學(xué)且可循證的報告。這份報告必須由醫(yī)生簽字核準(zhǔn)后才能給病人使用。通過互聯(lián)網(wǎng)經(jīng)濟(jì)的規(guī)模效應(yīng)，這種先進(jìn)生產(chǎn)力一旦被生產(chǎn)出來，給每個病人使用的邊際成本會非常低，從而讓每位大病患者都能享受到高質(zhì)量的醫(yī)療服務(wù)。這是我們團(tuán)隊奮斗的目標(biāo)，是一件難而正確的事。

此外，在AGI（通用人工智能）與ASI（超人工智能）的邊界上，我們也與進(jìn)杰老師的團(tuán)隊緊密合作。比如如何更深層地理解病史，如何與病人家屬交流。家屬在理解AI與醫(yī)生推薦的方案時會有很多疑問，但主治醫(yī)生往往非常忙碌，此時“阿福”的專病版本就可以充當(dāng)高質(zhì)量的管家，照顧好病人和他的家庭。

許東：感謝呂老師的精彩分享。接下來，我也分享一下我們課題組在醫(yī)學(xué)大模型方面的工作。

我們開發(fā)了一個名為“本草”的中醫(yī)大語言模型。分享這個項(xiàng)目的目的，是想說明醫(yī)學(xué)大模型的開發(fā)也可以“普及化”——即一個小規(guī)模的團(tuán)隊也能做出專業(yè)級的醫(yī)學(xué)模型。

“本草”目前可以在GPT Store中下載使用。該項(xiàng)目主要由我課題組的博士生席嘉誠牽頭，并與國內(nèi)多位中醫(yī)專家、尤其是上海中醫(yī)藥大學(xué)的安光輝老師深度合作。我們利用OpenAI的GPT平臺提供的開發(fā)環(huán)境，不需要從底層調(diào)整模型參數(shù)，而是通過提供海量專業(yè)素材進(jìn)行調(diào)試。

我們收集了1000多本中醫(yī)典籍，從《黃帝內(nèi)經(jīng)》到現(xiàn)代開源的中醫(yī)教科書。雖然團(tuán)隊規(guī)模很小，但我們通過不斷調(diào)試提示語（Prompt），并由資深中醫(yī)師進(jìn)行測試反饋，構(gòu)建了這個系統(tǒng)。它的功能涵蓋了健康咨詢、舌象分析（多模態(tài)模型）、中醫(yī)知識學(xué)習(xí)及中草藥識別。

這個系統(tǒng)在一年前上線后得到了廣泛關(guān)注，甚至主流科普雜志《科學(xué)美國人》（Scientific American）也對我們進(jìn)行了采訪。目前已有上千名活躍用戶，評價接近滿分。這說明無論是美國還是國內(nèi)，大家對“中醫(yī)+大模型”的熱情都非常高。

在技術(shù)架構(gòu)上，我們采用了檢索增強(qiáng)生成（RAG）技術(shù)，使模型能夠?qū)崟r檢索我們的中醫(yī)語料庫。同時，我們還通過API調(diào)用了自研的舌象分析軟件。在訓(xùn)練過程中，我們不調(diào)參數(shù)，而是由中醫(yī)師進(jìn)行指令驅(qū)動的對齊（Alignment），通過大量的場景模擬，讓AI的回答符合中醫(yī)的辯證邏輯。正如剛才兩位老師所說，醫(yī)學(xué)問題需要多次迭代，模型會主動追問用戶，以獲取更全面的病史信息。

為了驗(yàn)證效果，我們發(fā)布了一個名為“TCM Ladder”的數(shù)據(jù)庫，并在今年的AI頂會NeurIPS上正式發(fā)表。利用這個數(shù)據(jù)庫，我們對比了通用大模型與中醫(yī)專用大模型。結(jié)果顯示，“本草”在診斷學(xué)、方劑學(xué)、中醫(yī)內(nèi)科、兒科及外科等各個維度的表現(xiàn)，均顯著優(yōu)于通用模型。這歸功于大量專業(yè)知識的注入以及中醫(yī)師參與的經(jīng)驗(yàn)對齊。

在中醫(yī)界，由于缺乏像西醫(yī)那樣明確的本體（Ontology），診斷高度依賴經(jīng)驗(yàn)。因此，我們邀請了上海中醫(yī)藥大學(xué)的幾十位老師進(jìn)行人工測評，評估其診斷判斷和方劑開具的可靠性。測評結(jié)果再次證實(shí)，專門的醫(yī)學(xué)大模型在專業(yè)深度上具有巨大優(yōu)勢。

總結(jié)來看，我們的工作提供了幾點(diǎn)啟示：

第一，醫(yī)學(xué)領(lǐng)域的垂直大模型在專業(yè)性上確實(shí)有潛力超越通用模型；

第二，專家反饋的閉環(huán)（對齊）是確保模型靠譜的關(guān)鍵；

第三，AI的開發(fā)模式正在普及，只要有專業(yè)的醫(yī)學(xué)知識儲備和少數(shù)AI開發(fā)人員，就可以在腺樣體肥大、慢病管理等非常細(xì)分的領(lǐng)域做出專屬的、深度的醫(yī)學(xué)模型。這種普及化模式不僅限于客戶端，在開發(fā)端也將成為常態(tài)。

專用模型如何跨越“醫(yī)學(xué)專業(yè)性”的鴻溝

許東：接下來的環(huán)節(jié)，我們進(jìn)入深入探討階段。目前，很多用戶習(xí)慣直接向ChatGPT、通義千問或豆包咨詢健康問題，似乎并不一定非要使用專門的醫(yī)學(xué)大模型。作為研發(fā)端和應(yīng)用端的專家，我先分享幾點(diǎn)個人體會。

我認(rèn)為醫(yī)學(xué)大模型的額外價值主要體現(xiàn)在三方面：首先是訓(xùn)練數(shù)據(jù)與對齊，醫(yī)學(xué)模型擁有極其專業(yè)的語料，并由醫(yī)生輔助完成對齊，質(zhì)量更可控；其次是隱私處理，通用模型往往會將用戶上傳的信息作為語料進(jìn)行二次訓(xùn)練，存在隱私泄露風(fēng)險，而專業(yè)的醫(yī)學(xué)大模型在隱私保護(hù)上通常會有更嚴(yán)格的閉環(huán)；最后是安全性邊界，通用模型偏向開放式創(chuàng)作，而醫(yī)學(xué)模型在給出建議時往往更保守，會不斷提示用戶線下就診，避免給出極端錯誤的決策。

針對這些問題，我想請教顧老師和呂老師：通過螞蟻“阿福”的研發(fā)，你們認(rèn)為醫(yī)學(xué)大模型在輸出質(zhì)量、可靠性及用戶體驗(yàn)上，到底比通用大模型好在哪里？用戶在面對醫(yī)學(xué)問題時，是否應(yīng)該首選專用模型？

顧進(jìn)杰：關(guān)于垂類大模型與通用大模型的差異，我們感觸非常深。很多用戶在阿福上問的問題五花八門，甚至包括中醫(yī)方面的咨詢，這也正是許老師做“本草”模型的初衷。為什么要在通用模型之上專門針對醫(yī)療做優(yōu)化？我總結(jié)了三個關(guān)鍵原因：

第一，能力增強(qiáng)。通用大模型在訓(xùn)練時，其預(yù)訓(xùn)練數(shù)據(jù)、SFT（監(jiān)督微調(diào)）樣本及強(qiáng)化學(xué)習(xí)任務(wù)的配比是通用的。比如，通用模型會加入大量代碼數(shù)據(jù)以提升Agent能力，加入數(shù)學(xué)數(shù)據(jù)以提升推理能力。但在醫(yī)療場景下，通用任務(wù)的配比可能并不適合醫(yī)學(xué)邏輯。醫(yī)學(xué)任務(wù)非常有特點(diǎn)，例如對藥品、癥狀、疾病的精準(zhǔn)對應(yīng)，以及基于RAG（檢索增強(qiáng)生成）的循證能力。如果研發(fā)者對醫(yī)學(xué)沒有深刻的判斷，就無法精準(zhǔn)增強(qiáng)這些核心能力。

第二，醫(yī)學(xué)對齊。這是極具挑戰(zhàn)的一環(huán)。優(yōu)秀的醫(yī)生在臨床診療中遵循特定的原則和思維鏈（CoT），他們往往習(xí)慣用最高效的方式與患者溝通，這種深層決策邏輯往往沒有被數(shù)字化。我們要想做好醫(yī)療AI，就必須讓模型與頂尖專家的處理方式達(dá)成高度一致，這種“醫(yī)學(xué)對齊”是通用模型難以深入觸達(dá)的。

第三，能力邊界與拒答能力。通用模型往往傾向于給出一個答案，但在醫(yī)學(xué)場景下，證據(jù)不足時強(qiáng)行給出判斷是非常危險的。醫(yī)學(xué)大模型需要學(xué)會在證據(jù)不充分或信息模糊時通過“追問”獲取更多信息，甚至學(xué)會“拒答”。比如，用戶拍一張模糊的手持報告照片，如果阿福強(qiáng)行識別，誤診風(fēng)險極大。這時，專用模型必須表現(xiàn)出更強(qiáng)的安全約束和邊界感。

呂樂：我補(bǔ)充幾點(diǎn)。醫(yī)療AGI的定義其實(shí)非常寬泛，涉及面極廣。我多年前讀過Eric Topol的《Deep Medicine》，他最近又寫了《Super Agers》，核心都在探討AI在復(fù)雜人體系統(tǒng)中的角色。

對于像“阿福”這樣的AI全科醫(yī)生，它面臨的是一個“多對多”的數(shù)學(xué)映射難題：多種病灶可能表現(xiàn)出同一種癥狀，而同一種病也可能有多種復(fù)雜的表征。在工程和臨床上，如何在保持有效性的同時確保安全性？如果回答太淺，病人覺得沒幫助；如果給得太深，模型不可避免會犯錯。要在兩者之間取得平衡，需要極高的科學(xué)挑戰(zhàn)性。

全科醫(yī)生是人類和AI都能做的事，本質(zhì)上是兩個智能體集合的碰撞。阿福目前日活已經(jīng)達(dá)到1000萬，這意味著我們擁有強(qiáng)大的“數(shù)據(jù)飛輪”，能通過海量真實(shí)交互不斷迭代，比別人更快地調(diào)優(yōu)這個平衡閾值。

而我負(fù)責(zé)的嚴(yán)肅醫(yī)療方向，任務(wù)定義更為具體。比如做一個Agent幫T2N0期的肺癌病人看病，這個問題的邊界是科學(xué)且清晰的。人體極其復(fù)雜，有30萬億個細(xì)胞，每個細(xì)胞都是精密工廠。從科學(xué)本質(zhì)上說，很多醫(yī)學(xué)難題短期內(nèi)不可解。因此，無論是循證醫(yī)學(xué)還是經(jīng)驗(yàn)醫(yī)學(xué)，最核心的是取得平衡。

螞蟻集團(tuán)作為一家包含金融、保險、好大夫在線等多維業(yè)務(wù)的公司，我們將支付、服務(wù)與AI能力整合在一個復(fù)雜大系統(tǒng)中進(jìn)行優(yōu)化。這種全場景的配合，讓我們有機(jī)會解決醫(yī)療這一“復(fù)雜巨系統(tǒng)”中的可解問題。

許東：我們今天還請到了胡鋼清老師。胡老師是西弗吉尼亞大學(xué)的助理教授，也是最早一批嘗試將ChatGPT等模型應(yīng)用于生物醫(yī)學(xué)創(chuàng)新研究的專家。胡老師，對此您有什么看法？

胡鋼清：關(guān)于醫(yī)學(xué)大模型與通用模型的差別，我認(rèn)為從用戶角度看，醫(yī)學(xué)模型的容錯率必須定得極低。醫(yī)學(xué)不僅僅是科學(xué)，更包含人文關(guān)懷。這種專業(yè)性決定了它不能僅僅作為一種信息檢索工具。

在“人情味”與“科學(xué)邊界”之間尋找平衡

許東：接下來第二個問題希望普通聽眾發(fā)一點(diǎn)“福利”：作為普通用戶，如何更好地使用這些醫(yī)學(xué)大模型？人與機(jī)器交流也需要“高情商”。

我個人的體會是：你提供的信息越詳盡，結(jié)論通常越靠譜；多次迭代、追問往往比單次提問效果好。另外，結(jié)論一定要做交叉驗(yàn)證，比如詢問大模型結(jié)論的參考文獻(xiàn)或證據(jù)支撐。特別是在醫(yī)學(xué)領(lǐng)域，說錯了可能產(chǎn)生極端后果，所以用戶必須掌握一些技巧。請嘉賓們分享一下使用建議。

顧進(jìn)杰：結(jié)合我們的產(chǎn)品實(shí)踐，我給用戶提三個“最佳實(shí)踐”建議：

第一，盡可能提供詳細(xì)的上下文。在AGI產(chǎn)品中，Prompt（提示詞）至關(guān)重要。如果只說一句“我肚子疼”，連最有經(jīng)驗(yàn)的醫(yī)生也無法給出解答，因?yàn)槿狈μ弁床课弧⒊掷m(xù)時間等信息。我特別建議大家使用阿福的“語音輸入”功能。打字往往簡短，但語音可以表達(dá)更豐富的長段信息。我們甚至增強(qiáng)了方言識別，就是為了讓用戶能把所有能想到的癥狀細(xì)節(jié)都講出來，上下文描述得越好，回答質(zhì)量越高。

第二，重視“醫(yī)療檔案管理”與記憶功能。ChatGPT Health版本上線時也特別強(qiáng)調(diào)了檔案管理。醫(yī)學(xué)Memory必須與其他通用記憶分開管理。如果你有一個綜合性問題，建議把既往病史、過往手術(shù)史、檢查報告拍照上傳。醫(yī)生面診時都會詢問既往病史，AI也一樣。你上傳的檔案越詳細(xì)，AI在下一次判斷時就越能結(jié)合你的個人情況，給出個性化建議。

第三，多模態(tài)輸入與多個AI交叉驗(yàn)證。現(xiàn)在的模型各有風(fēng)格，你可以把自己的主訴和病史讓AI總結(jié)好，然后發(fā)給不同的醫(yī)療AI比如阿福、ChatGPT等去對比建議。這種“兼聽則明”的對比是非常好的實(shí)踐。甚至你可以讓一個AI幫你寫Prompt，再去問另一個AI。總之，善用檔案管理、多輪對話和跨平臺對比，是目前使用醫(yī)療大模型的最佳方式。

許東：顧老師提到的“記憶”很有價值。我注意到阿福已經(jīng)具備了圖像記錄功能。比如我手上長了一個“猴子”（疣），拍張照片存下來。我想請教顧老師，目前阿福的系統(tǒng)能否將歷史照片與后續(xù)提出的新問題進(jìn)行關(guān)聯(lián)建模？

顧進(jìn)杰：我們正在研發(fā)這種深度記憶能力。記憶邏輯很難做，比如女性經(jīng)期是周期性的，如果她腹部不適，模型需要從歷史記憶中調(diào)取經(jīng)期時間進(jìn)行推理是否跟經(jīng)期有關(guān)。我們目前的做法是先讓用戶記錄，然后逐步升級推理能力，先從用藥、疾病史開始，未來再接入日常行為數(shù)據(jù)（如運(yùn)動、監(jiān)測設(shè)備信號）。這種長期的健康軌跡連接，是我們努力的方向。

胡鋼清：我補(bǔ)充一個圖像交互的體驗(yàn)。人的眼睛非常精密，能看到一些細(xì)微的意向模式。在和大語言模型交流圖像時，如果模型沒看出來，我們可以通過文字反饋給它，進(jìn)行“人機(jī)耦合”解讀。此外，不僅是病史，甚至以往的旅行史也可以提供給模型，這往往能幫助模型發(fā)現(xiàn)特定癥狀背后的潛在原因。

許東：接下來討論第三個核心話題——大模型的“迎合性”風(fēng)險。大模型往往傾向于“順著用戶說”，不斷自我證明用戶思路的合理性。在醫(yī)學(xué)領(lǐng)域，如果用戶本身對病情認(rèn)知有偏差，這種迎合可能導(dǎo)致判斷越走越偏，甚至誘導(dǎo)極端行為（如自殺建議）。從研發(fā)角度看，我們該如何控制這種風(fēng)險？

胡鋼清：我對這一現(xiàn)象的研究始于去年夏天《Nature》以新聞形式報道的“AI Psychosis”,即與 AI 互動可能誘發(fā)或加重心理健康問題。GPT類模型往往想方設(shè)法去解釋用戶錯誤說法的合理性，而不是直接指出錯誤，這對于有潛在心理健康風(fēng)險的用戶非常危險。

我有兩個典型例子：

第一，在模擬躁狂癥場景時，如果用戶說自己要創(chuàng)辦公司、明年能拿諾貝爾獎，GPT為了表現(xiàn)得“高情商”，會不斷夸贊用戶是“天才”，這種共鳴可能加劇用戶的病態(tài)認(rèn)知。

第二，在皮膚科中有一種“寄生蟲妄想癥”病人，他們堅信皮膚下有蟲子。我們測試發(fā)現(xiàn)，雖然大部分模型能識別其背后的精神問題，但仍有20%-40%的概率，模型會順著病人的話說：“這確實(shí)很嚴(yán)重，你不妨把‘蟲子’抓下來裝進(jìn)瓶子里作為樣本。”這恰好迎合了此類病人采集皮膚碎屑并試圖說服醫(yī)生的行為模式，強(qiáng)化了病人的幻覺。

從訓(xùn)練機(jī)制上，我很好奇進(jìn)杰老師如何通過對齊（Alignment）來修正這種過度迎合？

顧進(jìn)杰：這確實(shí)是行業(yè)痛點(diǎn)。大家普遍感覺GPT-4o升級的時候網(wǎng)上有很多人吐槽說GPT-5的“情商”似乎降低了，很多人要求Sam Altman回滾到GPT-4o，這也說明GPT-4o，從擬人的角度上來說是比較“圓滑”的，會在意你的情緒，而另一個例子，谷歌的Gemini則更像一個“理工直男”，缺乏共情力。

許東：Gemini確實(shí)更偏向“Nerd（技術(shù)宅）”開發(fā)給科研人員使用的風(fēng)格。情商低一點(diǎn)，但在科研嚴(yán)謹(jǐn)性上表現(xiàn)較好。對于醫(yī)學(xué)模型來說，如何平衡“嚴(yán)謹(jǐn)性”與“人情味”，確實(shí)是個難題。

顧進(jìn)杰：醫(yī)學(xué)是人文加科學(xué)的結(jié)合。醫(yī)學(xué)界有一句名言：偶爾治愈，常常幫助，總是安慰。這意味著醫(yī)學(xué)中很大一部分工作是溝通與心理建設(shè)。如果我們?yōu)榱藝?yán)謹(jǐn)而把模型調(diào)教成“直男”，用戶可能會流失；但如果過度共情，又會產(chǎn)生剛才提到的風(fēng)險。

我們的經(jīng)驗(yàn)是將模型的表達(dá)風(fēng)格進(jìn)行多層級、多場景的“醫(yī)學(xué)對齊”。我們前段時間有一個工作叫“Medical EQ Bench”，專門用來評估模型的醫(yī)學(xué)情商。通過與臨床醫(yī)生的溝通，我們發(fā)現(xiàn)不同科室對溝通技巧的要求完全不同：

1、心理/精神類：必須具備極強(qiáng)的聊天能力和耐心，不能驚嚇用戶，要提供充足的情緒價值。

2、母嬰/兒科：媽媽們往往會放大孩子的病情（比如高燒）。模型需要識別并安撫其焦慮情緒，同時冷靜地告知生理指標(biāo)的科學(xué)含義。

3、重癥/危重癥：絕不能過度共情。如果用戶發(fā)來一份嚴(yán)肅的病理報告，模型說“別擔(dān)心”是非常不負(fù)責(zé)任的。此時，模型必須切換到“嚴(yán)肅模式”，只聊事實(shí)、聊指標(biāo)，建議必須極其謹(jǐn)慎。

具體實(shí)施上，我們把對齊分為三層：

? 表達(dá)層：確保語言清晰、結(jié)構(gòu)化。比如什么時候該講專業(yè)術(shù)語，什么時候該講大白話。

? 理解層：識別用戶的情緒（焦慮、緊張等）及其背后的價值偏好。

? 安全層：動態(tài)調(diào)節(jié)風(fēng)險，一旦識別到嚴(yán)重的情緒危機(jī)或潛在風(fēng)險，系統(tǒng)會觸發(fā)預(yù)警。

胡鋼清：我非常認(rèn)同進(jìn)杰老師提到的“真人干預(yù)”。在產(chǎn)品端甄別出“Red Flag（紅色警報）”并接入人工干預(yù)，是目前的最佳解。大模型處理純文本時，很難分辨用戶是在陳述事實(shí)還是在進(jìn)行病理性的幻想。此時，具備直覺的醫(yī)療專家介入，能從文字背后瞬間看穿用戶的真實(shí)精神狀態(tài)。這對于健康伙伴類產(chǎn)品來說，是至關(guān)重要的安全底座。

許東：呂老師有什么補(bǔ)充嗎？

呂樂：我前兩天剛在一家國內(nèi)頂級醫(yī)院實(shí)地觀察了針對癌癥病人的多學(xué)科會診（MDT）。我一直在探索醫(yī)生在真實(shí)臨床中的思考邏輯與服務(wù)流。

我發(fā)現(xiàn)了一個很有意思的現(xiàn)象：在很多醫(yī)院，MDT討論時病人是不出現(xiàn)的，醫(yī)生們討論10到20分鐘得出方案。但一些優(yōu)秀的醫(yī)院會在討論結(jié)束后，把病人家屬甚至病人請進(jìn)診室，由專家親自解釋方案。這種溝通其實(shí)是一門極高的藝術(shù)。面對病情嚴(yán)重的患者，醫(yī)生不僅要醫(yī)術(shù)高明，還需要極高的情商去處理家屬的心理壓力。

我最近參加了一個科研項(xiàng)目的啟動會，發(fā)現(xiàn)針對重癥癌癥病人的干預(yù)中，心理學(xué)家的角色非常重要。據(jù)估算，中國約有1000萬個癌癥家庭，如果算上親屬，受影響的人群達(dá)三四千萬。癌癥病人及其家屬往往承受著巨大的精神負(fù)擔(dān)，如何進(jìn)行有效的心理干預(yù)，不僅是醫(yī)學(xué)難題，也是社會難題。醫(yī)療是一個極其綜合的體系，必須整合多模態(tài)、多渠道的信息來服務(wù)病人。

我想勉勵大家，正如我的導(dǎo)師沈向洋所說，無論是在大公司、創(chuàng)業(yè)公司還是學(xué)校，只要在解決人類面臨的重大難題，就是在創(chuàng)業(yè)。在人工智能時代，我們更應(yīng)堅持“以人為本”，讓醫(yī)療AI更好地服務(wù)于人類。

顧進(jìn)杰：呂老師提到的這一點(diǎn)我非常有感觸。阿福上線后，我們發(fā)現(xiàn)中國用戶對AI醫(yī)生的強(qiáng)烈需求，很大程度上源于醫(yī)療資源的緊張。

我們曾與一線醫(yī)生深入交流。在北美，一位醫(yī)生面診一個病人的時間可能在30分鐘左右，有充足的時間溝通，甚至可以當(dāng)場檢索文獻(xiàn)。但中國的醫(yī)生由于接診量巨大，工作強(qiáng)度極高，往往沒有時間細(xì)致地安撫患者、回答每個疑問。

因此，很多中國患者將AI視作他們的“第二診室”。在醫(yī)院沒聽懂、沒問夠的信息，會轉(zhuǎn)而去問AI。在這種語境下，AI不僅要提供準(zhǔn)確的信息，更要承擔(dān)起“安撫者”的角色。這不僅是技術(shù)挑戰(zhàn)，更是巨大的社會價值所在。

通往“以患者為中心”的AI醫(yī)療生態(tài)

許東：確實(shí)，大模型能幫助偏遠(yuǎn)地區(qū)或資源緊張環(huán)境下的居民享受優(yōu)質(zhì)醫(yī)療，其價值是跨國界的。但我們也必須面對公眾、媒體及政府監(jiān)管對醫(yī)學(xué)大模型的不同態(tài)度。

目前，國內(nèi)對AI發(fā)展的監(jiān)管相對友好，公眾接受度也較高。相比之下，美國和歐洲的監(jiān)管則更為嚴(yán)苛和保守。醫(yī)學(xué)大模型和所有預(yù)測模型一樣，不可能做到100%準(zhǔn)確。美國曾有一個利用大模型提供營養(yǎng)建議的機(jī)構(gòu)，因?yàn)槟Ｐ拖蛞晃贿M(jìn)食障礙患者建議節(jié)食，被媒體曝光后，該機(jī)構(gòu)在輿論壓力下被迫關(guān)閉。

我想請問幾位：在目前的全球語境下，醫(yī)學(xué)大模型普及的最大障礙是什么？我們該如何平衡監(jiān)管、風(fēng)險與社會收益？

呂樂：醫(yī)療是非常嚴(yán)肅的。一方面是病人的剛需，另一方面是復(fù)雜的監(jiān)管與社會利益分配。AI的引入可能會重塑現(xiàn)有的醫(yī)療服務(wù)鏈條，這涉及各方利益的重新界定，是一個非常復(fù)雜的社會問題。

但我認(rèn)為，醫(yī)療的本質(zhì)永遠(yuǎn)是“以病人為中心”。無論技術(shù)如何變革，衡量取舍的標(biāo)準(zhǔn)應(yīng)當(dāng)是：在費(fèi)用和社會消耗可控的前提下，病人是否獲得了最大收益。

針對嚴(yán)肅醫(yī)療，我有一個明確的觀點(diǎn)：AI好不好的終極標(biāo)準(zhǔn)是“進(jìn)指南”。如果一項(xiàng)AI技術(shù)無法進(jìn)入嚴(yán)肅醫(yī)療的診療指南，說明它還不具備被行業(yè)核心認(rèn)可的成熟度。目前的醫(yī)學(xué)指南幾乎沒有AI的部分，未來我們需要明確：哪些環(huán)節(jié)可以交給AI？醫(yī)生與AI如何協(xié)作？這需要大量的真實(shí)世界研究（Real-world Study）去證明。回歸本質(zhì)，醫(yī)療服務(wù)的存在是因?yàn)橛胁∪诵枰粠椭覀儜?yīng)致力于提供高頻、高質(zhì)量的輔助。

胡鋼清：我補(bǔ)充一點(diǎn)關(guān)于受眾群體的觀察。在美國，邊遠(yuǎn)地區(qū)的老年人對AI的接受度相對較低，這存在一定的數(shù)字鴻溝。為此，OpenAI曾提供專項(xiàng)資助，研究如何讓非營利組織推動AI在老年群體中的應(yīng)用。但在國內(nèi)，像阿福這樣的產(chǎn)品，三四線城市的用戶反而可能因?yàn)獒t(yī)療資源匱乏而用得更多，這是一個有趣的差異。

顧進(jìn)杰：確實(shí)，阿福在三四線城市及中老年群體中有很多擁躉。我認(rèn)為目前AI工具的普及還面臨易用性的挑戰(zhàn)。

對于很多平時連智能手機(jī)復(fù)雜功能都很少使用的老年人，讓他們用好AI其實(shí)很難。比如很多模型輸出純文本，且文本框很小，不符合老年人的習(xí)慣。因此我們在阿福中投入了大量精力做語音增強(qiáng)，支持方言輸入，旨在降低工具的使用門檻，減少由于操作不當(dāng)帶來的風(fēng)險。

此外，醫(yī)學(xué)界對于好的評估框架（Benchmark）探討得還不夠。我今天還和呂老師討論了一個北美的評估框架。在中醫(yī)等領(lǐng)域，還有大量專業(yè)任務(wù)亟待量化和評估。隨著參與者增多，未來一定會建立起更規(guī)范的行業(yè)標(biāo)準(zhǔn)，我對這種“標(biāo)準(zhǔn)驅(qū)動的進(jìn)步”持樂觀態(tài)度。

胡鋼清：關(guān)于媒體輿論，我想提醒用戶保持判斷力。媒體往往傾向于報道兩個極端：一個是極壞的個案，比如AI給自殺傾向者提供方案，這種新聞具有巨大的爆炸性，會迅速引發(fā)恐慌；另一個是極好的個案，比如一個患者找了十幾個醫(yī)生都無果，最后通過大語言模型得出了接近真實(shí)的診斷，輔助醫(yī)生最終確診。

極好的個案和極壞的個案都有新聞價值，但用戶閱讀時應(yīng)意識到這都是極少數(shù)的情況。我們作為研發(fā)者和用戶，既要正視風(fēng)險，也要看到其帶來的巨大賦能。

許東：剛才我們談到了很多關(guān)于大模型的風(fēng)險。那么，有沒有可能以更安全的形式來應(yīng)用這些技術(shù)？例如，目前螞蟻阿福這類產(chǎn)品主要是面向消費(fèi)者的，我們是否可以將其引入專業(yè)的醫(yī)療環(huán)境？比如在患者掛號后的等待期間，先由大語言模型進(jìn)行預(yù)溝通，并直接連通護(hù)士、醫(yī)生和既往病歷。大模型可以輔助患者高效整理信息，甚至在某些情況下，通過與模型的深入交流，在見到醫(yī)生前就解決了一部分疑問。即使患者不擅長操作，現(xiàn)場也可以由護(hù)士協(xié)助。大家認(rèn)為這種“導(dǎo)診/預(yù)問診”場景是否是更好的應(yīng)用路徑？

顧進(jìn)杰：您提到的這個想法非常好，業(yè)內(nèi)也已經(jīng)有很多實(shí)踐。我們將其定義為“醫(yī)療健康A(chǔ)gent”。第一個典型場景是“預(yù)問診”。中國醫(yī)生接診壓力極大，超過50%的時間其實(shí)都在進(jìn)行重復(fù)性的病史詢問，比如“生病多久了？”、“吃過什么藥？”。我們正與多家醫(yī)院和機(jī)構(gòu)合作，提供預(yù)問診Agent。在患者進(jìn)入診室前，可以通過掃碼完成基礎(chǔ)癥狀描述或量表填寫，AI生成的摘要能極大提升醫(yī)生的診斷效率。第二個場景是“隨訪Agent”。患者在術(shù)后或診后需要長期的信息同步，傳統(tǒng)方式靠護(hù)士打電話詢問，效率極低且難以規(guī)模化。AI Copilot可以替代人工收集康復(fù)數(shù)據(jù)，一個醫(yī)生團(tuán)隊因此能管理更多的患者。目前的挑戰(zhàn)在于系統(tǒng)打通。這些Agent需要與醫(yī)院內(nèi)部的HIS（醫(yī)院信息系統(tǒng)）深度對接，這個過程涉及信息化改造，雖然需要時間，但其中蘊(yùn)含的機(jī)會是巨大的。

胡鋼清：我非常贊同。在北美，預(yù)問診通常由護(hù)士或助理完成，他們會先與病人交流十幾分鐘，醫(yī)生在面診前就已經(jīng)掌握了基本信息。如果AI能把預(yù)問診和隨訪這兩部分工作做得更順暢，醫(yī)生的服務(wù)容量將得到質(zhì)的飛躍。

呂樂：我補(bǔ)充一點(diǎn)。醫(yī)學(xué)本質(zhì)上是“長期的”和“全面的”。它是一個時間序列，需要多維度信息的整合。對于重癥癌癥或慢病患者，隨訪不僅是打個電話，更是對康復(fù)質(zhì)量的實(shí)時監(jiān)控。患者絕大部分時間不在醫(yī)院，而是在家中。以往靠護(hù)士手動隨訪非常痛苦，信息也難以持久留存。我認(rèn)為未來的理想形態(tài)是“每個家庭都有一個AI健康管家”。這個管家存儲著用戶的完整歷史檔案，能以全局視角管理病人的健康。醫(yī)療極其復(fù)雜，涉及社會化的全面服務(wù)，這需要通過大型系統(tǒng)性的工程來解決。隨訪中蘊(yùn)含著大量的人工智能工作機(jī)會，甚至有些工作并不適合人類去做，因?yàn)槿祟愲y以時刻保持對數(shù)千名患者細(xì)節(jié)的精準(zhǔn)記憶。

許東：談到開發(fā)，有觀眾問到“阿福”內(nèi)部的評測標(biāo)準(zhǔn)（Benchmark）是如何搭建的？顧老師能分享一下這方面的經(jīng)驗(yàn)嗎？

顧進(jìn)杰：醫(yī)學(xué)大模型研發(fā)中，最難也最重要的就是Benchmark。我們內(nèi)部構(gòu)建了大量的In-house評測集，是與頂尖醫(yī)生深入交流后產(chǎn)出的。定義大模型在某個專科能力上的缺陷非常困難。很多模型雖然掌握了醫(yī)學(xué)知識，但在特定臨床場景下的邏輯依然會出錯。我們要創(chuàng)造出能評估這種深層能力的評測集。目前，生成一條包含復(fù)雜問題和詳細(xì)評分標(biāo)準(zhǔn)的高質(zhì)量評測數(shù)據(jù)，成本非常高，在國內(nèi)可能需要三四千元人民幣，在北美則更高。我們擁有接近千人的醫(yī)學(xué)醫(yī)師標(biāo)注團(tuán)隊在持續(xù)優(yōu)化這些“北極星”指標(biāo)。除了評測，另一個核心是數(shù)據(jù)質(zhì)量。醫(yī)學(xué)領(lǐng)域不缺數(shù)據(jù)，但缺“AI Ready”的高質(zhì)量數(shù)據(jù)。臨床數(shù)據(jù)往往非常“臟”，記錄不規(guī)范或信息缺失，需要大量的清洗。我認(rèn)為，相比于大家熱衷討論的Transformer架構(gòu)，冰山之下的評測集和數(shù)據(jù)治理才是真正的護(hù)城河。代碼數(shù)據(jù)可以靠編譯器自動驗(yàn)證質(zhì)量，但醫(yī)學(xué)數(shù)據(jù)只能靠專家人工核驗(yàn)，這種規(guī)模化挑戰(zhàn)需要行業(yè)達(dá)成更多共識。

許東：鑒于時間關(guān)系，我們進(jìn)入最后一個問題：醫(yī)學(xué)大模型的未來挑戰(zhàn)與新機(jī)遇是什么？呂老師先談?wù)勀恼雇?/p>

呂樂：我認(rèn)為醫(yī)療AI的壁壘依然在數(shù)據(jù)。真正嚴(yán)肅且有價值的臨床數(shù)據(jù)在公有域是不存在的。要把醫(yī)院里的數(shù)據(jù)變成“AI Ready”，需要非常強(qiáng)大的數(shù)據(jù)治理AI。我個人認(rèn)為，負(fù)責(zé)數(shù)據(jù)治理的AI算法可能比最終訓(xùn)練模型的算法還要復(fù)雜，研發(fā)者80%的精力應(yīng)該放在這里。同時，我們不能簡單地把人類醫(yī)生的眼光作為唯一的評測標(biāo)準(zhǔn)（Reward Function），因?yàn)槿搜塾袝r也看不清影像中所有細(xì)節(jié)。我們需要定義更科學(xué)、可驗(yàn)證的激勵機(jī)制。我從事醫(yī)療AI二十年，經(jīng)歷過波峰波谷。在大家絕望時，我看到希望；在大家瘋狂時，我傾向于潑點(diǎn)冷水。中庸之道在醫(yī)療領(lǐng)域很重要。醫(yī)療創(chuàng)新不應(yīng)是轟轟烈烈的，而應(yīng)像春雨般“潤物無聲”。最后，醫(yī)療創(chuàng)業(yè)必須是使命驅(qū)動的，開發(fā)者必須對病人有愛。如果我們創(chuàng)造了100塊錢的價值，應(yīng)該讓病人拿走98塊，我們分剩下的2塊。只有以人為本，回歸醫(yī)療本質(zhì)，這個事情才可解。

顧進(jìn)杰：我補(bǔ)充一下。醫(yī)療是一個長坡厚雪的賽道。我們在廣州與鐘南山院士交流時，他強(qiáng)調(diào)“最重要的還是患者”。目前中國很多醫(yī)生因?yàn)閴毫Υ螅恰耙灾尾橹行摹保恰耙曰颊邽橹行摹薄I可以填補(bǔ)這個空隙。目前的AI還處在早期，在“望聞問切”上的能力還很差，更多是解決信息獲取。我認(rèn)為未來有三個階段：第一階段：提升知識深度與醫(yī)學(xué)感知能力；第二階段：各種特定的專業(yè)Agent爆發(fā)，涵蓋隨訪、預(yù)問診、營養(yǎng)、康復(fù)等環(huán)節(jié)；第三階段：人機(jī)協(xié)作。AI與醫(yī)生、患者形成新的協(xié)同范式。未來一個主任醫(yī)師通過AI輔助，可能從管理幾百個病人擴(kuò)展到管理上萬個病人，這種產(chǎn)能釋放的想象力是巨大的。最終，ASI（超人工智能）與多智能體范式結(jié)合，將解決目前醫(yī)學(xué)上不可解的難題，比如生物制藥的突破。我們才剛剛開啟這個大幕。

許東：簡單回答幾個聽眾關(guān)心的問題。第一，阿福有出海計劃嗎？

顧進(jìn)杰：每個國家的醫(yī)療監(jiān)管政策差異很大，出海需要非常謹(jǐn)慎的調(diào)研。我們目前重點(diǎn)服務(wù)國內(nèi)，同時也關(guān)注海外華人回國就醫(yī)的輔助，全球化布局會一步步探索。

許東：阿福能對接居家健康檢測和穿戴式設(shè)備的數(shù)據(jù)嗎？

顧進(jìn)杰：我們正在做。今年Q1會陸續(xù)連接市面上主流的硬件廠商。在老齡化背景下，AI+居家硬件大有可為。

許東：會針對精神醫(yī)學(xué)等細(xì)分方向做專門的模型嗎？

顧進(jìn)杰：精神類干預(yù)非常難，因?yàn)樗婕罢Z氣、互動等非文字信息。我們目前有一些研究性課題在與機(jī)構(gòu)合作，歡迎對此感興趣的專家共同建設(shè)。

許東：既然有了大模型，傳統(tǒng)的機(jī)器學(xué)習(xí)在醫(yī)學(xué)研究中還有意義嗎？

顧進(jìn)杰：意義非常大。大模型解決一般性問題，但在極專的領(lǐng)域，如通過語音識別判斷睡眠障礙，仍需要特殊的小模型。很多小模型可以基于大模型開發(fā)，兩者是相輔相成的。

許東：今天的討論持續(xù)了兩個多小時，感謝三位嘉賓提供了極具洞察力的建議，無論是對研究者還是普通用戶都非常有啟發(fā)。感謝雷峰網(wǎng)和GAIR Live平臺的技術(shù)支持。今天的討論到此結(jié)束，謝謝大家！

呂樂、顧進(jìn)杰、胡鋼清：謝謝大家，再見。

完整視頻觀看地址：https://youtu.be/YiNBPmeQ7rs

未經(jīng)「AI科技評論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.