![]()
拆解醫(yī)學(xué)專用大模型如何跨越從“信息檢索”到“嚴(yán)肅醫(yī)療”服務(wù)的鴻溝,打造“以患者為中心”的AI醫(yī)療生態(tài)。
作者丨岑峰
隨著大語言模型從生成式對話向?qū)I(yè)垂直領(lǐng)域的深度滲透,醫(yī)療健康正成為 AGI 落地最具價值也最受關(guān)注的“深水區(qū)”。過去,大眾在面臨健康困惑時,習(xí)慣于在搜索引擎的碎片化信息中自行“拼圖”,往往陷入信息矛盾與焦慮。而今天,以螞蟻集團(tuán)“阿福”為代表的醫(yī)學(xué)大模型,正憑借其強(qiáng)大的知識整合能力與多模態(tài)交互體驗(yàn),迅速從實(shí)驗(yàn)室的 Demo 演變?yōu)閾碛星f級日活、覆蓋全年齡段的“國民級健康伙伴”。
然而,當(dāng) AI 開始介入嚴(yán)肅醫(yī)療與日常健康管理,一系列深層命題也隨之而來:垂類模型如何在通用模型之上構(gòu)建不可替代的專業(yè)壁壘?如何平衡醫(yī)學(xué)的科學(xué)嚴(yán)謹(jǐn)性與人文關(guān)懷的溫情?在面臨“AI 迎合性”導(dǎo)致的倫理風(fēng)險時,我們該如何劃定安全紅線?
為此,本期 GAIR Live 舉辦了題為“AI for Health:從‘實(shí)驗(yàn)室 Demo’到‘國民級健康伙伴’的范式躍遷”的線上圓桌。論壇由南佛羅里達(dá)大學(xué)教授、美國醫(yī)學(xué)與生物工程學(xué)會會士許東發(fā)起并主持,特邀螞蟻集團(tuán)技術(shù)研究院副院長、醫(yī)療健康實(shí)驗(yàn)室主任呂樂,螞蟻健康 CTO、醫(yī)療大模型“阿福”之父顧進(jìn)杰,以及西弗吉尼亞大學(xué)助理教授胡鋼清。四位深耕 AI 與生物醫(yī)學(xué)交叉領(lǐng)域的專家,從研發(fā)底座、產(chǎn)品實(shí)踐、臨床觀察到倫理治理,展開了一場超過兩小時的硬核對談。
圓桌內(nèi)容呈現(xiàn)了醫(yī)療 AI 發(fā)展的四大核心維度:
第一,在產(chǎn)品范式上,顧進(jìn)杰詳細(xì)拆解了“螞蟻阿福”如何通過健康檔案管理、健康小目標(biāo)陪伴以及多模態(tài)問診三大功能,構(gòu)建起“AI 醫(yī)生朋友”的定位。他指出,醫(yī)療大模型不僅是信息的輸出者,更是長程健康的記憶者與管理者。許東教授則分享了中醫(yī)大模型“本草”的開發(fā)經(jīng)驗(yàn),論證了在垂直細(xì)分領(lǐng)域,小團(tuán)隊亦能通過專家反饋閉環(huán)和對齊技術(shù),做出專業(yè)深度超越通用模型的產(chǎn)品。
第二,在技術(shù)壁壘上,嘉賓們達(dá)成共識:醫(yī)學(xué)大模型絕非通用模型的簡單微調(diào)。顧進(jìn)杰總結(jié)了能力增強(qiáng)、醫(yī)學(xué)對齊與能力邊界(拒答能力)三大關(guān)鍵差異。呂樂則從嚴(yán)肅醫(yī)療視角指出,AI 的終極價值在于“生產(chǎn)優(yōu)質(zhì)醫(yī)療生產(chǎn)力”,尤其是在腫瘤多學(xué)科會診(MDT)這類復(fù)雜決策中,AI 能夠處理人類大腦難以實(shí)時融合的多模態(tài)非結(jié)構(gòu)化數(shù)據(jù)。
第三,在安全與倫理上,胡鋼清警示了大模型的“迎合性”帶來的潛在風(fēng)險,如“AI Psychosis”, 即與 AI 互動可能誘發(fā)或加重心理健康問題。為此,專家們探討了“人機(jī)協(xié)作(Human in the loop)”的重要性,強(qiáng)調(diào)在識別到極端情緒或高風(fēng)險信號時,必須引入真人專家干預(yù),作為醫(yī)療 AI 的安全底座。
第四,在未來基建上,呂樂提出“AI 好不好的標(biāo)準(zhǔn)是進(jìn)指南”,強(qiáng)調(diào)醫(yī)療創(chuàng)新應(yīng)像春雨般“潤物無聲”。專家們預(yù)判,未來醫(yī)療將進(jìn)入 Agent 爆發(fā)期,預(yù)問診、隨訪、早篩等環(huán)節(jié)將實(shí)現(xiàn)全鏈路重塑。而這一切的護(hù)城河,并不在算法架構(gòu)本身,而在冰山之下的高質(zhì)量評測集(Benchmark)與數(shù)據(jù)治理(Data Curation)。
從實(shí)驗(yàn)室走向真實(shí)世界,AI for Health 的躍遷不僅是算力的競賽,更是對生命健康的深度敬畏與人文重構(gòu)。
以下是此次圓桌討論的精彩分享,AI 科技評論進(jìn)行了不改原意的編輯整理:
![]()
01
從“實(shí)驗(yàn)室Demo”到“國民級應(yīng)用”的進(jìn)化
許東:各位觀眾、老師、同學(xué),大家好。歡迎參加本期GAIR Live論壇。我是今天的主持人許東。
我們今天討論的主題是“大語言模型作為健康伙伴的范式躍遷”。過去幾年,人工智能在科研輔助、內(nèi)容創(chuàng)作、工業(yè)生產(chǎn)和日常辦公等各方面帶來了巨大紅利,重塑了諸多行業(yè)。但對普通百姓來說,最實(shí)惠、最關(guān)心的莫過于AI如何幫助我們的健康。
以往身體不適時,大家通常習(xí)慣使用搜索引擎(如百度、谷歌)。這種方式雖然信息量大,但往往碎片化、片面甚至彼此矛盾,用戶常處于“信息過載卻不知如何使用”的困境。大語言模型的出現(xiàn)整合了海量內(nèi)容,能進(jìn)行系統(tǒng)的歸納與總結(jié),比傳統(tǒng)搜索更具價值和可靠性。
目前,醫(yī)學(xué)專用大語言模型不斷涌現(xiàn)。在這一領(lǐng)域,螞蟻集團(tuán)研發(fā)的“阿福”醫(yī)學(xué)模型自上線以來,短時間內(nèi)下載量已突破5000萬,確實(shí)非常出色。國外也有類似探索,如ChatGPT推出的Health項(xiàng)目,但因監(jiān)管較多,步伐相對慢一點(diǎn),仍處于小范圍測試階段。
我們今天既想探討專業(yè)的科研問題,比如醫(yī)學(xué)大模型的邊界、研發(fā)效率及風(fēng)險控制;也想探討普通百姓如何更好地使用這些工具。黃仁勛等大咖曾談到,能否熟練使用大模型將對一個人的生活方式和職業(yè)發(fā)展產(chǎn)生巨大影響。醫(yī)學(xué)是極其專業(yè)的領(lǐng)域,如何與醫(yī)學(xué)模型有效交流、判斷結(jié)果是否可靠,是一門專業(yè)的技術(shù)活。
首先介紹一下我自己。我目前在美國南佛羅里達(dá)大學(xué)醫(yī)學(xué)院工作,本科和碩士畢業(yè)于北大,在伊利諾伊大學(xué)香檳分校(UIUC)獲得博士學(xué)位。我曾在美國安全研究所、橡樹嶺國家實(shí)驗(yàn)室和密蘇里大學(xué)工作,研究方向是AI在生物和醫(yī)學(xué)的應(yīng)用,是美國科學(xué)促進(jìn)會(AAAS)和美國醫(yī)學(xué)與生物工程學(xué)會(AIMBE)會士。
今天我們請到了幾位重量級嘉賓,特別是兩位“阿福”的核心開發(fā)人員: 呂樂老師,螞蟻集團(tuán)技術(shù)研究院副院長、健康事業(yè)群醫(yī)療健康實(shí)驗(yàn)室主任。他是美國約翰霍普金斯大學(xué)計算機(jī)科學(xué)顧問委員會委員,曾任阿里巴巴達(dá)摩院醫(yī)療AI部門負(fù)責(zé)人、英偉達(dá)醫(yī)療AI部門創(chuàng)始人,是TPAMI等頂刊的編委,引用率高達(dá)4萬余次。 顧進(jìn)杰老師,螞蟻健康事業(yè)群CTO。他帶領(lǐng)團(tuán)隊推動了醫(yī)療通用人工智能開發(fā)及“阿福”APP的創(chuàng)新。他曾負(fù)責(zé)支付寶等部門的核心AI應(yīng)用落地,兩次獲得吳文俊人工智能科技進(jìn)步一等獎。
今天的流程是先請嘉賓進(jìn)行簡單分享,再進(jìn)行深度探討,最后開放聽眾問答。首先請顧進(jìn)杰老師介紹“阿福”的開發(fā)情況。
顧進(jìn)杰:感謝許老師的介紹,很高興歡迎線上的同學(xué)一起探討AI for Health這個方向。我先簡單介紹一下“阿福”這款產(chǎn)品,這是我們近期推出并重點(diǎn)運(yùn)營的一款健康產(chǎn)品。
螞蟻健康事業(yè)群在醫(yī)療領(lǐng)域深耕多年。從2016年起,我們推動了全國首家醫(yī)院醫(yī)保線上支付;2019年推出了全國第一張醫(yī)保電子憑證;在ChatGPT出現(xiàn)后,我們推出了數(shù)字陪診師解決方案。在線下就診過程中,陪診師角色非常重要,能告知診室位置、排隊情況、取藥流程及用藥指導(dǎo)。
2024年,支付寶醫(yī)療健康頻道推出了AI健康管家,用AI重塑服務(wù)過程。2023年,我們聯(lián)合浙江省衛(wèi)健委推出全國首個數(shù)字健康人“安診兒”,目前已服務(wù)浙江省內(nèi)多家線下醫(yī)院。2024年7月,我們推出了螞蟻醫(yī)療大模型;2025年6月,獨(dú)立APP正式發(fā)布。最初由于英文名AQ記憶門檻較高,我們將其升級為中文名“螞蟻阿福”,將定位從“AI工具”轉(zhuǎn)變?yōu)橛脩舻摹癆I醫(yī)生朋友”。
螞蟻阿福的用戶群體與一般的AGI產(chǎn)品挺不一樣。通常AGI產(chǎn)品吸引年輕人嘗鮮,但作為健康產(chǎn)品,阿福的用戶年齡段覆蓋非常均衡,60后、70后、80后占比極高,因?yàn)橹欣夏耆后w確實(shí)有更迫切的健康需求。此外,由于三四線城市醫(yī)療服務(wù)的可及性相對較差,我們有55%的用戶來自三線以下城市。目前,阿福每天回答的提問數(shù)已超過1000萬,月環(huán)比增速達(dá)94%。
螞蟻阿福核心有三大功能:陪伴、問答、服務(wù)。 第一是記錄與管理。阿福能持續(xù)記錄用戶的健康檔案,支持病歷拍照上傳,并已接入包括蘋果、華為、榮耀、vivo在內(nèi)的9個智能設(shè)備大品牌,以及魚躍等專業(yè)醫(yī)療設(shè)備。 第二是健康陪伴。我們推出了“健康小目標(biāo)”功能,幫助用戶定義運(yùn)動、飲食和作息計劃。例如通過拍照識別飲食內(nèi)容,利用AI幫助用戶養(yǎng)成良好習(xí)慣。 第三是健康問答。這是AGI的核心功能。阿福支持隨時隨地的對話,重點(diǎn)加強(qiáng)了多模態(tài)能力,用戶可以拍皮膚患處、拍化驗(yàn)報告或藥盒進(jìn)行咨詢。我們還推出了“AI診室”,它能像醫(yī)生一樣通過多輪對話主動追問,與用戶進(jìn)行深度互動。
在服務(wù)側(cè),阿福鏈接了“好大夫”線上30萬名三甲醫(yī)院醫(yī)生資源,支持在線問診、買藥,并提供線下云陪診、預(yù)約掛號及診后隨訪。同時,用戶也可以在阿福上通過醫(yī)保碼查看賬戶、動賬情況并進(jìn)行支付。
針對技術(shù)領(lǐng)域的同學(xué),我也分享一下我們團(tuán)隊在開源方面的兩個重大工作: 一是AQMedAI項(xiàng)目。這是我們持續(xù)運(yùn)營的開源項(xiàng)目,主要關(guān)注四大塊內(nèi)容:第一,持續(xù)推動醫(yī)療能力的Benchmark(評測基準(zhǔn))建設(shè)。目前行業(yè)內(nèi)優(yōu)質(zhì)的醫(yī)療評測基準(zhǔn)依然匱乏,需要與醫(yī)生專家協(xié)作來度量AI能力。第二,Medical Researcher(深度研究代理)。在醫(yī)學(xué)領(lǐng)域,文獻(xiàn)、指南和論文的檢索與理解至關(guān)重要,Deep Research Agent是關(guān)鍵能力。第三,Diver項(xiàng)目。我們利用RAG(檢索增強(qiáng)生成)技術(shù)做循證醫(yī)學(xué)增強(qiáng),幫助模型獲得更專業(yè)的表現(xiàn)。此外,我們團(tuán)隊具備操控千億級大模型進(jìn)行后訓(xùn)練和強(qiáng)化學(xué)習(xí)的能力,也開源了一些多智能體訓(xùn)練框架。
二是螞蟻安診兒(AntAngel)項(xiàng)目。這是我們與浙江人工智能基地聯(lián)合打造的開源醫(yī)療大模型。去年12月發(fā)布的第一個版本采用了MOE(混合專家)架構(gòu),基于螞蟻百靈Flash 2.0模型訓(xùn)練,擁有1000億參數(shù),同時激活約60億參數(shù)。該模型Token輸出速度極快,且量化后能部署在較小的資源環(huán)境下。我們積累了萬億的專業(yè)醫(yī)學(xué)語料,通過三階段訓(xùn)練,使模型在醫(yī)學(xué)專業(yè)能力上表現(xiàn)出色。在MedAIBench及上海Medbench等多個主流評測中,螞蟻安診兒模型均取得了高分,也是目前開源領(lǐng)域得分較高的模型之一。
許老師,我先介紹到這里。
許東:感謝顧老師的分享。接下來,我們請呂樂老師分享他的觀察與實(shí)踐。
呂樂:剛才進(jìn)杰老師提到的“阿福”,目前的定位更側(cè)重于AI全科醫(yī)生或家庭醫(yī)生。而我的工作主要是負(fù)責(zé)螞蟻健康關(guān)于四大慢病(腫瘤、呼吸系統(tǒng)疾病、代謝病、心血管疾病)以及大腦慢病的AI研發(fā)。
嚴(yán)肅醫(yī)療的本質(zhì)是為病人解決實(shí)際的病痛。目前,需要高強(qiáng)度干預(yù)(Intensive Care)以獲得更好預(yù)后的嚴(yán)重病患群體非常龐大,僅在中國就有數(shù)千萬人。然而,無論是中國還是美國,高端醫(yī)療資源始終是匱乏的。解決這個問題的核心,不在于互聯(lián)網(wǎng)醫(yī)療如何重新分配現(xiàn)有資源,而在于如何通過人工智能,從源頭上大規(guī)模地“生產(chǎn)”出優(yōu)質(zhì)的醫(yī)療生產(chǎn)力。
關(guān)于AI與醫(yī)生的關(guān)系,最近有很多討論。從嚴(yán)肅醫(yī)療的角度來看,我并不擔(dān)心這種競爭。我認(rèn)為AI在醫(yī)療中的角色,應(yīng)該是去做那些“醫(yī)生做不了”或“醫(yī)生由于精力限制無法高頻去做”的事情。雖然我們提倡“以病人為中心(Patient-centric Healthcare)”很多年,但只靠有限的醫(yī)生和醫(yī)院是很難徹底實(shí)現(xiàn)的。我們需要AI生產(chǎn)力來輔助醫(yī)生,由醫(yī)生決定如何使用,并最終讓病人獲益。在臨床醫(yī)學(xué)中,這有一套非常嚴(yán)謹(jǐn)?shù)囊?guī)章制度可以遵循,可以通過回顧性和前瞻性的研究,從統(tǒng)計學(xué)上證明病人是否真正受益。
具體到我們的核心工作,是解決癌癥的多學(xué)科會診(MDT)過程。嚴(yán)重的癌癥病人通常每兩三個月就需要評估是否調(diào)整治療方案,以確保方案始終是最優(yōu)的。這種高質(zhì)量、高頻次的干預(yù)需求,即便在美國也只有約5%能被滿足,這意味著本應(yīng)做20次MDT的病人,實(shí)際上只做了一次。全球范圍內(nèi),澳大利亞在這一塊做得最好,法律規(guī)定癌癥病人必須接受多學(xué)科會診,其癌癥五年存活率也確實(shí)是全球領(lǐng)先的,這證明了MDT的巨大價值。
一個高質(zhì)量的MDT需要融合極其復(fù)雜的信息:不僅包括病史、基因測序、血檢報告,還包括至關(guān)重要的放射影像和病理信息。影像展現(xiàn)了腫瘤及器官的細(xì)微變化,是實(shí)現(xiàn)個性化治療的關(guān)鍵,但它屬于非結(jié)構(gòu)化數(shù)據(jù)(Unstructured Data),難以定量計算。人類大腦在處理這種多模態(tài)信息并將其轉(zhuǎn)化為精準(zhǔn)的治療行動(Action)時,往往會面臨認(rèn)知瓶頸。而這正是AI最擅長處理的領(lǐng)域。
這種需求是真實(shí)存在且長期未被滿足的。我們正在研發(fā)的AI Agent,可以輔助多學(xué)科醫(yī)生進(jìn)行“預(yù)會診”,先產(chǎn)生一份科學(xué)且可循證的報告。這份報告必須由醫(yī)生簽字核準(zhǔn)后才能給病人使用。通過互聯(lián)網(wǎng)經(jīng)濟(jì)的規(guī)模效應(yīng),這種先進(jìn)生產(chǎn)力一旦被生產(chǎn)出來,給每個病人使用的邊際成本會非常低,從而讓每位大病患者都能享受到高質(zhì)量的醫(yī)療服務(wù)。這是我們團(tuán)隊奮斗的目標(biāo),是一件難而正確的事。
此外,在AGI(通用人工智能)與ASI(超人工智能)的邊界上,我們也與進(jìn)杰老師的團(tuán)隊緊密合作。比如如何更深層地理解病史,如何與病人家屬交流。家屬在理解AI與醫(yī)生推薦的方案時會有很多疑問,但主治醫(yī)生往往非常忙碌,此時“阿福”的專病版本就可以充當(dāng)高質(zhì)量的管家,照顧好病人和他的家庭。
許東:感謝呂老師的精彩分享。接下來,我也分享一下我們課題組在醫(yī)學(xué)大模型方面的工作。
我們開發(fā)了一個名為“本草”的中醫(yī)大語言模型。分享這個項(xiàng)目的目的,是想說明醫(yī)學(xué)大模型的開發(fā)也可以“普及化”——即一個小規(guī)模的團(tuán)隊也能做出專業(yè)級的醫(yī)學(xué)模型。
“本草”目前可以在GPT Store中下載使用。該項(xiàng)目主要由我課題組的博士生席嘉誠牽頭,并與國內(nèi)多位中醫(yī)專家、尤其是上海中醫(yī)藥大學(xué)的安光輝老師深度合作。我們利用OpenAI的GPT平臺提供的開發(fā)環(huán)境,不需要從底層調(diào)整模型參數(shù),而是通過提供海量專業(yè)素材進(jìn)行調(diào)試。
我們收集了1000多本中醫(yī)典籍,從《黃帝內(nèi)經(jīng)》到現(xiàn)代開源的中醫(yī)教科書。雖然團(tuán)隊規(guī)模很小,但我們通過不斷調(diào)試提示語(Prompt),并由資深中醫(yī)師進(jìn)行測試反饋,構(gòu)建了這個系統(tǒng)。它的功能涵蓋了健康咨詢、舌象分析(多模態(tài)模型)、中醫(yī)知識學(xué)習(xí)及中草藥識別。
這個系統(tǒng)在一年前上線后得到了廣泛關(guān)注,甚至主流科普雜志《科學(xué)美國人》(Scientific American)也對我們進(jìn)行了采訪。目前已有上千名活躍用戶,評價接近滿分。這說明無論是美國還是國內(nèi),大家對“中醫(yī)+大模型”的熱情都非常高。
在技術(shù)架構(gòu)上,我們采用了檢索增強(qiáng)生成(RAG)技術(shù),使模型能夠?qū)崟r檢索我們的中醫(yī)語料庫。同時,我們還通過API調(diào)用了自研的舌象分析軟件。在訓(xùn)練過程中,我們不調(diào)參數(shù),而是由中醫(yī)師進(jìn)行指令驅(qū)動的對齊(Alignment),通過大量的場景模擬,讓AI的回答符合中醫(yī)的辯證邏輯。正如剛才兩位老師所說,醫(yī)學(xué)問題需要多次迭代,模型會主動追問用戶,以獲取更全面的病史信息。
為了驗(yàn)證效果,我們發(fā)布了一個名為“TCM Ladder”的數(shù)據(jù)庫,并在今年的AI頂會NeurIPS上正式發(fā)表。利用這個數(shù)據(jù)庫,我們對比了通用大模型與中醫(yī)專用大模型。結(jié)果顯示,“本草”在診斷學(xué)、方劑學(xué)、中醫(yī)內(nèi)科、兒科及外科等各個維度的表現(xiàn),均顯著優(yōu)于通用模型。這歸功于大量專業(yè)知識的注入以及中醫(yī)師參與的經(jīng)驗(yàn)對齊。
在中醫(yī)界,由于缺乏像西醫(yī)那樣明確的本體(Ontology),診斷高度依賴經(jīng)驗(yàn)。因此,我們邀請了上海中醫(yī)藥大學(xué)的幾十位老師進(jìn)行人工測評,評估其診斷判斷和方劑開具的可靠性。測評結(jié)果再次證實(shí),專門的醫(yī)學(xué)大模型在專業(yè)深度上具有巨大優(yōu)勢。
總結(jié)來看,我們的工作提供了幾點(diǎn)啟示:
第一,醫(yī)學(xué)領(lǐng)域的垂直大模型在專業(yè)性上確實(shí)有潛力超越通用模型;
第二,專家反饋的閉環(huán)(對齊)是確保模型靠譜的關(guān)鍵;
第三,AI的開發(fā)模式正在普及,只要有專業(yè)的醫(yī)學(xué)知識儲備和少數(shù)AI開發(fā)人員,就可以在腺樣體肥大、慢病管理等非常細(xì)分的領(lǐng)域做出專屬的、深度的醫(yī)學(xué)模型。這種普及化模式不僅限于客戶端,在開發(fā)端也將成為常態(tài)。
02
專用模型如何跨越“醫(yī)學(xué)專業(yè)性”的鴻溝
許東:接下來的環(huán)節(jié),我們進(jìn)入深入探討階段。目前,很多用戶習(xí)慣直接向ChatGPT、通義千問或豆包咨詢健康問題,似乎并不一定非要使用專門的醫(yī)學(xué)大模型。作為研發(fā)端和應(yīng)用端的專家,我先分享幾點(diǎn)個人體會。
我認(rèn)為醫(yī)學(xué)大模型的額外價值主要體現(xiàn)在三方面:首先是訓(xùn)練數(shù)據(jù)與對齊,醫(yī)學(xué)模型擁有極其專業(yè)的語料,并由醫(yī)生輔助完成對齊,質(zhì)量更可控;其次是隱私處理,通用模型往往會將用戶上傳的信息作為語料進(jìn)行二次訓(xùn)練,存在隱私泄露風(fēng)險,而專業(yè)的醫(yī)學(xué)大模型在隱私保護(hù)上通常會有更嚴(yán)格的閉環(huán);最后是安全性邊界,通用模型偏向開放式創(chuàng)作,而醫(yī)學(xué)模型在給出建議時往往更保守,會不斷提示用戶線下就診,避免給出極端錯誤的決策。
針對這些問題,我想請教顧老師和呂老師:通過螞蟻“阿福”的研發(fā),你們認(rèn)為醫(yī)學(xué)大模型在輸出質(zhì)量、可靠性及用戶體驗(yàn)上,到底比通用大模型好在哪里?用戶在面對醫(yī)學(xué)問題時,是否應(yīng)該首選專用模型?
顧進(jìn)杰:關(guān)于垂類大模型與通用大模型的差異,我們感觸非常深。很多用戶在阿福上問的問題五花八門,甚至包括中醫(yī)方面的咨詢,這也正是許老師做“本草”模型的初衷。為什么要在通用模型之上專門針對醫(yī)療做優(yōu)化?我總結(jié)了三個關(guān)鍵原因:
第一,能力增強(qiáng)。通用大模型在訓(xùn)練時,其預(yù)訓(xùn)練數(shù)據(jù)、SFT(監(jiān)督微調(diào))樣本及強(qiáng)化學(xué)習(xí)任務(wù)的配比是通用的。比如,通用模型會加入大量代碼數(shù)據(jù)以提升Agent能力,加入數(shù)學(xué)數(shù)據(jù)以提升推理能力。但在醫(yī)療場景下,通用任務(wù)的配比可能并不適合醫(yī)學(xué)邏輯。醫(yī)學(xué)任務(wù)非常有特點(diǎn),例如對藥品、癥狀、疾病的精準(zhǔn)對應(yīng),以及基于RAG(檢索增強(qiáng)生成)的循證能力。如果研發(fā)者對醫(yī)學(xué)沒有深刻的判斷,就無法精準(zhǔn)增強(qiáng)這些核心能力。
第二,醫(yī)學(xué)對齊。這是極具挑戰(zhàn)的一環(huán)。優(yōu)秀的醫(yī)生在臨床診療中遵循特定的原則和思維鏈(CoT),他們往往習(xí)慣用最高效的方式與患者溝通,這種深層決策邏輯往往沒有被數(shù)字化。我們要想做好醫(yī)療AI,就必須讓模型與頂尖專家的處理方式達(dá)成高度一致,這種“醫(yī)學(xué)對齊”是通用模型難以深入觸達(dá)的。
第三,能力邊界與拒答能力。通用模型往往傾向于給出一個答案,但在醫(yī)學(xué)場景下,證據(jù)不足時強(qiáng)行給出判斷是非常危險的。醫(yī)學(xué)大模型需要學(xué)會在證據(jù)不充分或信息模糊時通過“追問”獲取更多信息,甚至學(xué)會“拒答”。比如,用戶拍一張模糊的手持報告照片,如果阿福強(qiáng)行識別,誤診風(fēng)險極大。這時,專用模型必須表現(xiàn)出更強(qiáng)的安全約束和邊界感。
呂樂:我補(bǔ)充幾點(diǎn)。醫(yī)療AGI的定義其實(shí)非常寬泛,涉及面極廣。我多年前讀過Eric Topol的《Deep Medicine》,他最近又寫了《Super Agers》,核心都在探討AI在復(fù)雜人體系統(tǒng)中的角色。
對于像“阿福”這樣的AI全科醫(yī)生,它面臨的是一個“多對多”的數(shù)學(xué)映射難題:多種病灶可能表現(xiàn)出同一種癥狀,而同一種病也可能有多種復(fù)雜的表征。在工程和臨床上,如何在保持有效性的同時確保安全性?如果回答太淺,病人覺得沒幫助;如果給得太深,模型不可避免會犯錯。要在兩者之間取得平衡,需要極高的科學(xué)挑戰(zhàn)性。
全科醫(yī)生是人類和AI都能做的事,本質(zhì)上是兩個智能體集合的碰撞。阿福目前日活已經(jīng)達(dá)到1000萬,這意味著我們擁有強(qiáng)大的“數(shù)據(jù)飛輪”,能通過海量真實(shí)交互不斷迭代,比別人更快地調(diào)優(yōu)這個平衡閾值。
而我負(fù)責(zé)的嚴(yán)肅醫(yī)療方向,任務(wù)定義更為具體。比如做一個Agent幫T2N0期的肺癌病人看病,這個問題的邊界是科學(xué)且清晰的。人體極其復(fù)雜,有30萬億個細(xì)胞,每個細(xì)胞都是精密工廠。從科學(xué)本質(zhì)上說,很多醫(yī)學(xué)難題短期內(nèi)不可解。因此,無論是循證醫(yī)學(xué)還是經(jīng)驗(yàn)醫(yī)學(xué),最核心的是取得平衡。
螞蟻集團(tuán)作為一家包含金融、保險、好大夫在線等多維業(yè)務(wù)的公司,我們將支付、服務(wù)與AI能力整合在一個復(fù)雜大系統(tǒng)中進(jìn)行優(yōu)化。這種全場景的配合,讓我們有機(jī)會解決醫(yī)療這一“復(fù)雜巨系統(tǒng)”中的可解問題。
許東:我們今天還請到了胡鋼清老師。胡老師是西弗吉尼亞大學(xué)的助理教授,也是最早一批嘗試將ChatGPT等模型應(yīng)用于生物醫(yī)學(xué)創(chuàng)新研究的專家。胡老師,對此您有什么看法?
胡鋼清:關(guān)于醫(yī)學(xué)大模型與通用模型的差別,我認(rèn)為從用戶角度看,醫(yī)學(xué)模型的容錯率必須定得極低。醫(yī)學(xué)不僅僅是科學(xué),更包含人文關(guān)懷。這種專業(yè)性決定了它不能僅僅作為一種信息檢索工具。
03
在“人情味”與“科學(xué)邊界”之間尋找平衡
許東:接下來第二個問題希望普通聽眾發(fā)一點(diǎn)“福利”:作為普通用戶,如何更好地使用這些醫(yī)學(xué)大模型?人與機(jī)器交流也需要“高情商”。
我個人的體會是:你提供的信息越詳盡,結(jié)論通常越靠譜;多次迭代、追問往往比單次提問效果好。另外,結(jié)論一定要做交叉驗(yàn)證,比如詢問大模型結(jié)論的參考文獻(xiàn)或證據(jù)支撐。特別是在醫(yī)學(xué)領(lǐng)域,說錯了可能產(chǎn)生極端后果,所以用戶必須掌握一些技巧。請嘉賓們分享一下使用建議。
顧進(jìn)杰:結(jié)合我們的產(chǎn)品實(shí)踐,我給用戶提三個“最佳實(shí)踐”建議:
第一,盡可能提供詳細(xì)的上下文。在AGI產(chǎn)品中,Prompt(提示詞)至關(guān)重要。如果只說一句“我肚子疼”,連最有經(jīng)驗(yàn)的醫(yī)生也無法給出解答,因?yàn)槿狈μ弁床课弧⒊掷m(xù)時間等信息。我特別建議大家使用阿福的“語音輸入”功能。打字往往簡短,但語音可以表達(dá)更豐富的長段信息。我們甚至增強(qiáng)了方言識別,就是為了讓用戶能把所有能想到的癥狀細(xì)節(jié)都講出來,上下文描述得越好,回答質(zhì)量越高。
第二,重視“醫(yī)療檔案管理”與記憶功能。ChatGPT Health版本上線時也特別強(qiáng)調(diào)了檔案管理。醫(yī)學(xué)Memory必須與其他通用記憶分開管理。如果你有一個綜合性問題,建議把既往病史、過往手術(shù)史、檢查報告拍照上傳。醫(yī)生面診時都會詢問既往病史,AI也一樣。你上傳的檔案越詳細(xì),AI在下一次判斷時就越能結(jié)合你的個人情況,給出個性化建議。
第三,多模態(tài)輸入與多個AI交叉驗(yàn)證。現(xiàn)在的模型各有風(fēng)格,你可以把自己的主訴和病史讓AI總結(jié)好,然后發(fā)給不同的醫(yī)療AI比如阿福、ChatGPT等去對比建議。這種“兼聽則明”的對比是非常好的實(shí)踐。甚至你可以讓一個AI幫你寫Prompt,再去問另一個AI。總之,善用檔案管理、多輪對話和跨平臺對比,是目前使用醫(yī)療大模型的最佳方式。
許東:顧老師提到的“記憶”很有價值。我注意到阿福已經(jīng)具備了圖像記錄功能。比如我手上長了一個“猴子”(疣),拍張照片存下來。我想請教顧老師,目前阿福的系統(tǒng)能否將歷史照片與后續(xù)提出的新問題進(jìn)行關(guān)聯(lián)建模?
顧進(jìn)杰:我們正在研發(fā)這種深度記憶能力。記憶邏輯很難做,比如女性經(jīng)期是周期性的,如果她腹部不適,模型需要從歷史記憶中調(diào)取經(jīng)期時間進(jìn)行推理是否跟經(jīng)期有關(guān)。我們目前的做法是先讓用戶記錄,然后逐步升級推理能力,先從用藥、疾病史開始,未來再接入日常行為數(shù)據(jù)(如運(yùn)動、監(jiān)測設(shè)備信號)。這種長期的健康軌跡連接,是我們努力的方向。
胡鋼清:我補(bǔ)充一個圖像交互的體驗(yàn)。人的眼睛非常精密,能看到一些細(xì)微的意向模式。在和大語言模型交流圖像時,如果模型沒看出來,我們可以通過文字反饋給它,進(jìn)行“人機(jī)耦合”解讀。此外,不僅是病史,甚至以往的旅行史也可以提供給模型,這往往能幫助模型發(fā)現(xiàn)特定癥狀背后的潛在原因。
許東:接下來討論第三個核心話題——大模型的“迎合性”風(fēng)險。大模型往往傾向于“順著用戶說”,不斷自我證明用戶思路的合理性。在醫(yī)學(xué)領(lǐng)域,如果用戶本身對病情認(rèn)知有偏差,這種迎合可能導(dǎo)致判斷越走越偏,甚至誘導(dǎo)極端行為(如自殺建議)。從研發(fā)角度看,我們該如何控制這種風(fēng)險?
胡鋼清:我對這一現(xiàn)象的研究始于去年夏天《Nature》以新聞形式報道的“AI Psychosis”,即與 AI 互動可能誘發(fā)或加重心理健康問題。GPT類模型往往想方設(shè)法去解釋用戶錯誤說法的合理性,而不是直接指出錯誤,這對于有潛在心理健康風(fēng)險的用戶非常危險。
我有兩個典型例子:
第一,在模擬躁狂癥場景時,如果用戶說自己要創(chuàng)辦公司、明年能拿諾貝爾獎,GPT為了表現(xiàn)得“高情商”,會不斷夸贊用戶是“天才”,這種共鳴可能加劇用戶的病態(tài)認(rèn)知。
第二,在皮膚科中有一種“寄生蟲妄想癥”病人,他們堅信皮膚下有蟲子。我們測試發(fā)現(xiàn),雖然大部分模型能識別其背后的精神問題,但仍有20%-40%的概率,模型會順著病人的話說:“這確實(shí)很嚴(yán)重,你不妨把‘蟲子’抓下來裝進(jìn)瓶子里作為樣本。”這恰好迎合了此類病人采集皮膚碎屑并試圖說服醫(yī)生的行為模式,強(qiáng)化了病人的幻覺。
從訓(xùn)練機(jī)制上,我很好奇進(jìn)杰老師如何通過對齊(Alignment)來修正這種過度迎合?
顧進(jìn)杰:這確實(shí)是行業(yè)痛點(diǎn)。大家普遍感覺GPT-4o升級的時候網(wǎng)上有很多人吐槽說GPT-5的“情商”似乎降低了,很多人要求Sam Altman回滾到GPT-4o,這也說明GPT-4o,從擬人的角度上來說是比較“圓滑”的,會在意你的情緒,而另一個例子,谷歌的Gemini則更像一個“理工直男”,缺乏共情力。
許東:Gemini確實(shí)更偏向“Nerd(技術(shù)宅)”開發(fā)給科研人員使用的風(fēng)格。情商低一點(diǎn),但在科研嚴(yán)謹(jǐn)性上表現(xiàn)較好。對于醫(yī)學(xué)模型來說,如何平衡“嚴(yán)謹(jǐn)性”與“人情味”,確實(shí)是個難題。
顧進(jìn)杰:醫(yī)學(xué)是人文加科學(xué)的結(jié)合。醫(yī)學(xué)界有一句名言:偶爾治愈,常常幫助,總是安慰。這意味著醫(yī)學(xué)中很大一部分工作是溝通與心理建設(shè)。如果我們?yōu)榱藝?yán)謹(jǐn)而把模型調(diào)教成“直男”,用戶可能會流失;但如果過度共情,又會產(chǎn)生剛才提到的風(fēng)險。
我們的經(jīng)驗(yàn)是將模型的表達(dá)風(fēng)格進(jìn)行多層級、多場景的“醫(yī)學(xué)對齊”。我們前段時間有一個工作叫“Medical EQ Bench”,專門用來評估模型的醫(yī)學(xué)情商。通過與臨床醫(yī)生的溝通,我們發(fā)現(xiàn)不同科室對溝通技巧的要求完全不同:
1、心理/精神類: 必須具備極強(qiáng)的聊天能力和耐心,不能驚嚇用戶,要提供充足的情緒價值。
2、母嬰/兒科: 媽媽們往往會放大孩子的病情(比如高燒)。模型需要識別并安撫其焦慮情緒,同時冷靜地告知生理指標(biāo)的科學(xué)含義。
3、重癥/危重癥: 絕不能過度共情。如果用戶發(fā)來一份嚴(yán)肅的病理報告,模型說“別擔(dān)心”是非常不負(fù)責(zé)任的。此時,模型必須切換到“嚴(yán)肅模式”,只聊事實(shí)、聊指標(biāo),建議必須極其謹(jǐn)慎。
具體實(shí)施上,我們把對齊分為三層:
? 表達(dá)層: 確保語言清晰、結(jié)構(gòu)化。比如什么時候該講專業(yè)術(shù)語,什么時候該講大白話。
? 理解層: 識別用戶的情緒(焦慮、緊張等)及其背后的價值偏好。
? 安全層: 動態(tài)調(diào)節(jié)風(fēng)險,一旦識別到嚴(yán)重的情緒危機(jī)或潛在風(fēng)險,系統(tǒng)會觸發(fā)預(yù)警。
胡鋼清:我非常認(rèn)同進(jìn)杰老師提到的“真人干預(yù)”。在產(chǎn)品端甄別出“Red Flag(紅色警報)”并接入人工干預(yù),是目前的最佳解。大模型處理純文本時,很難分辨用戶是在陳述事實(shí)還是在進(jìn)行病理性的幻想。此時,具備直覺的醫(yī)療專家介入,能從文字背后瞬間看穿用戶的真實(shí)精神狀態(tài)。這對于健康伙伴類產(chǎn)品來說,是至關(guān)重要的安全底座。
許東:呂老師有什么補(bǔ)充嗎?
呂樂:我前兩天剛在一家國內(nèi)頂級醫(yī)院實(shí)地觀察了針對癌癥病人的多學(xué)科會診(MDT)。我一直在探索醫(yī)生在真實(shí)臨床中的思考邏輯與服務(wù)流。
我發(fā)現(xiàn)了一個很有意思的現(xiàn)象:在很多醫(yī)院,MDT討論時病人是不出現(xiàn)的,醫(yī)生們討論10到20分鐘得出方案。但一些優(yōu)秀的醫(yī)院會在討論結(jié)束后,把病人家屬甚至病人請進(jìn)診室,由專家親自解釋方案。這種溝通其實(shí)是一門極高的藝術(shù)。面對病情嚴(yán)重的患者,醫(yī)生不僅要醫(yī)術(shù)高明,還需要極高的情商去處理家屬的心理壓力。
我最近參加了一個科研項(xiàng)目的啟動會,發(fā)現(xiàn)針對重癥癌癥病人的干預(yù)中,心理學(xué)家的角色非常重要。據(jù)估算,中國約有1000萬個癌癥家庭,如果算上親屬,受影響的人群達(dá)三四千萬。癌癥病人及其家屬往往承受著巨大的精神負(fù)擔(dān),如何進(jìn)行有效的心理干預(yù),不僅是醫(yī)學(xué)難題,也是社會難題。醫(yī)療是一個極其綜合的體系,必須整合多模態(tài)、多渠道的信息來服務(wù)病人。
我想勉勵大家,正如我的導(dǎo)師沈向洋所說,無論是在大公司、創(chuàng)業(yè)公司還是學(xué)校,只要在解決人類面臨的重大難題,就是在創(chuàng)業(yè)。在人工智能時代,我們更應(yīng)堅持“以人為本”,讓醫(yī)療AI更好地服務(wù)于人類。
顧進(jìn)杰:呂老師提到的這一點(diǎn)我非常有感觸。阿福上線后,我們發(fā)現(xiàn)中國用戶對AI醫(yī)生的強(qiáng)烈需求,很大程度上源于醫(yī)療資源的緊張。
我們曾與一線醫(yī)生深入交流。在北美,一位醫(yī)生面診一個病人的時間可能在30分鐘左右,有充足的時間溝通,甚至可以當(dāng)場檢索文獻(xiàn)。但中國的醫(yī)生由于接診量巨大,工作強(qiáng)度極高,往往沒有時間細(xì)致地安撫患者、回答每個疑問。
因此,很多中國患者將AI視作他們的“第二診室”。在醫(yī)院沒聽懂、沒問夠的信息,會轉(zhuǎn)而去問AI。在這種語境下,AI不僅要提供準(zhǔn)確的信息,更要承擔(dān)起“安撫者”的角色。這不僅是技術(shù)挑戰(zhàn),更是巨大的社會價值所在。
04
通往“以患者為中心”的AI醫(yī)療生態(tài)
許東:確實(shí),大模型能幫助偏遠(yuǎn)地區(qū)或資源緊張環(huán)境下的居民享受優(yōu)質(zhì)醫(yī)療,其價值是跨國界的。但我們也必須面對公眾、媒體及政府監(jiān)管對醫(yī)學(xué)大模型的不同態(tài)度。
目前,國內(nèi)對AI發(fā)展的監(jiān)管相對友好,公眾接受度也較高。相比之下,美國和歐洲的監(jiān)管則更為嚴(yán)苛和保守。醫(yī)學(xué)大模型和所有預(yù)測模型一樣,不可能做到100%準(zhǔn)確。美國曾有一個利用大模型提供營養(yǎng)建議的機(jī)構(gòu),因?yàn)槟P拖蛞晃贿M(jìn)食障礙患者建議節(jié)食,被媒體曝光后,該機(jī)構(gòu)在輿論壓力下被迫關(guān)閉。
我想請問幾位:在目前的全球語境下,醫(yī)學(xué)大模型普及的最大障礙是什么?我們該如何平衡監(jiān)管、風(fēng)險與社會收益?
呂樂:醫(yī)療是非常嚴(yán)肅的。一方面是病人的剛需,另一方面是復(fù)雜的監(jiān)管與社會利益分配。AI的引入可能會重塑現(xiàn)有的醫(yī)療服務(wù)鏈條,這涉及各方利益的重新界定,是一個非常復(fù)雜的社會問題。
但我認(rèn)為,醫(yī)療的本質(zhì)永遠(yuǎn)是“以病人為中心”。無論技術(shù)如何變革,衡量取舍的標(biāo)準(zhǔn)應(yīng)當(dāng)是:在費(fèi)用和社會消耗可控的前提下,病人是否獲得了最大收益。
針對嚴(yán)肅醫(yī)療,我有一個明確的觀點(diǎn):AI好不好的終極標(biāo)準(zhǔn)是“進(jìn)指南”。如果一項(xiàng)AI技術(shù)無法進(jìn)入嚴(yán)肅醫(yī)療的診療指南,說明它還不具備被行業(yè)核心認(rèn)可的成熟度。目前的醫(yī)學(xué)指南幾乎沒有AI的部分,未來我們需要明確:哪些環(huán)節(jié)可以交給AI?醫(yī)生與AI如何協(xié)作?這需要大量的真實(shí)世界研究(Real-world Study)去證明。回歸本質(zhì),醫(yī)療服務(wù)的存在是因?yàn)橛胁∪诵枰粠椭覀儜?yīng)致力于提供高頻、高質(zhì)量的輔助。
胡鋼清:我補(bǔ)充一點(diǎn)關(guān)于受眾群體的觀察。在美國,邊遠(yuǎn)地區(qū)的老年人對AI的接受度相對較低,這存在一定的數(shù)字鴻溝。為此,OpenAI曾提供專項(xiàng)資助,研究如何讓非營利組織推動AI在老年群體中的應(yīng)用。但在國內(nèi),像阿福這樣的產(chǎn)品,三四線城市的用戶反而可能因?yàn)獒t(yī)療資源匱乏而用得更多,這是一個有趣的差異。
顧進(jìn)杰:確實(shí),阿福在三四線城市及中老年群體中有很多擁躉。我認(rèn)為目前AI工具的普及還面臨易用性的挑戰(zhàn)。
對于很多平時連智能手機(jī)復(fù)雜功能都很少使用的老年人,讓他們用好AI其實(shí)很難。比如很多模型輸出純文本,且文本框很小,不符合老年人的習(xí)慣。因此我們在阿福中投入了大量精力做語音增強(qiáng),支持方言輸入,旨在降低工具的使用門檻,減少由于操作不當(dāng)帶來的風(fēng)險。
此外,醫(yī)學(xué)界對于好的評估框架(Benchmark)探討得還不夠。我今天還和呂老師討論了一個北美的評估框架。在中醫(yī)等領(lǐng)域,還有大量專業(yè)任務(wù)亟待量化和評估。隨著參與者增多,未來一定會建立起更規(guī)范的行業(yè)標(biāo)準(zhǔn),我對這種“標(biāo)準(zhǔn)驅(qū)動的進(jìn)步”持樂觀態(tài)度。
胡鋼清:關(guān)于媒體輿論,我想提醒用戶保持判斷力。媒體往往傾向于報道兩個極端:一個是極壞的個案,比如AI給自殺傾向者提供方案,這種新聞具有巨大的爆炸性,會迅速引發(fā)恐慌;另一個是極好的個案,比如一個患者找了十幾個醫(yī)生都無果,最后通過大語言模型得出了接近真實(shí)的診斷,輔助醫(yī)生最終確診。
極好的個案和極壞的個案都有新聞價值,但用戶閱讀時應(yīng)意識到這都是極少數(shù)的情況。我們作為研發(fā)者和用戶,既要正視風(fēng)險,也要看到其帶來的巨大賦能。
許東:剛才我們談到了很多關(guān)于大模型的風(fēng)險。那么,有沒有可能以更安全的形式來應(yīng)用這些技術(shù)?例如,目前螞蟻阿福這類產(chǎn)品主要是面向消費(fèi)者的,我們是否可以將其引入專業(yè)的醫(yī)療環(huán)境?比如在患者掛號后的等待期間,先由大語言模型進(jìn)行預(yù)溝通,并直接連通護(hù)士、醫(yī)生和既往病歷。大模型可以輔助患者高效整理信息,甚至在某些情況下,通過與模型的深入交流,在見到醫(yī)生前就解決了一部分疑問。即使患者不擅長操作,現(xiàn)場也可以由護(hù)士協(xié)助。大家認(rèn)為這種“導(dǎo)診/預(yù)問診”場景是否是更好的應(yīng)用路徑?
顧進(jìn)杰:您提到的這個想法非常好,業(yè)內(nèi)也已經(jīng)有很多實(shí)踐。我們將其定義為“醫(yī)療健康A(chǔ)gent”。 第一個典型場景是“預(yù)問診”。中國醫(yī)生接診壓力極大,超過50%的時間其實(shí)都在進(jìn)行重復(fù)性的病史詢問,比如“生病多久了?”、“吃過什么藥?”。我們正與多家醫(yī)院和機(jī)構(gòu)合作,提供預(yù)問診Agent。在患者進(jìn)入診室前,可以通過掃碼完成基礎(chǔ)癥狀描述或量表填寫,AI生成的摘要能極大提升醫(yī)生的診斷效率。 第二個場景是“隨訪Agent”。患者在術(shù)后或診后需要長期的信息同步,傳統(tǒng)方式靠護(hù)士打電話詢問,效率極低且難以規(guī)模化。AI Copilot可以替代人工收集康復(fù)數(shù)據(jù),一個醫(yī)生團(tuán)隊因此能管理更多的患者。目前的挑戰(zhàn)在于系統(tǒng)打通。這些Agent需要與醫(yī)院內(nèi)部的HIS(醫(yī)院信息系統(tǒng))深度對接,這個過程涉及信息化改造,雖然需要時間,但其中蘊(yùn)含的機(jī)會是巨大的。
胡鋼清:我非常贊同。在北美,預(yù)問診通常由護(hù)士或助理完成,他們會先與病人交流十幾分鐘,醫(yī)生在面診前就已經(jīng)掌握了基本信息。如果AI能把預(yù)問診和隨訪這兩部分工作做得更順暢,醫(yī)生的服務(wù)容量將得到質(zhì)的飛躍。
呂樂:我補(bǔ)充一點(diǎn)。醫(yī)學(xué)本質(zhì)上是“長期的”和“全面的”。它是一個時間序列,需要多維度信息的整合。 對于重癥癌癥或慢病患者,隨訪不僅是打個電話,更是對康復(fù)質(zhì)量的實(shí)時監(jiān)控。患者絕大部分時間不在醫(yī)院,而是在家中。以往靠護(hù)士手動隨訪非常痛苦,信息也難以持久留存。我認(rèn)為未來的理想形態(tài)是“每個家庭都有一個AI健康管家”。這個管家存儲著用戶的完整歷史檔案,能以全局視角管理病人的健康。醫(yī)療極其復(fù)雜,涉及社會化的全面服務(wù),這需要通過大型系統(tǒng)性的工程來解決。隨訪中蘊(yùn)含著大量的人工智能工作機(jī)會,甚至有些工作并不適合人類去做,因?yàn)槿祟愲y以時刻保持對數(shù)千名患者細(xì)節(jié)的精準(zhǔn)記憶。
許東:談到開發(fā),有觀眾問到“阿福”內(nèi)部的評測標(biāo)準(zhǔn)(Benchmark)是如何搭建的?顧老師能分享一下這方面的經(jīng)驗(yàn)嗎?
顧進(jìn)杰:醫(yī)學(xué)大模型研發(fā)中,最難也最重要的就是Benchmark。我們內(nèi)部構(gòu)建了大量的In-house評測集,是與頂尖醫(yī)生深入交流后產(chǎn)出的。 定義大模型在某個專科能力上的缺陷非常困難。很多模型雖然掌握了醫(yī)學(xué)知識,但在特定臨床場景下的邏輯依然會出錯。我們要創(chuàng)造出能評估這種深層能力的評測集。 目前,生成一條包含復(fù)雜問題和詳細(xì)評分標(biāo)準(zhǔn)的高質(zhì)量評測數(shù)據(jù),成本非常高,在國內(nèi)可能需要三四千元人民幣,在北美則更高。我們擁有接近千人的醫(yī)學(xué)醫(yī)師標(biāo)注團(tuán)隊在持續(xù)優(yōu)化這些“北極星”指標(biāo)。 除了評測,另一個核心是數(shù)據(jù)質(zhì)量。醫(yī)學(xué)領(lǐng)域不缺數(shù)據(jù),但缺“AI Ready”的高質(zhì)量數(shù)據(jù)。臨床數(shù)據(jù)往往非常“臟”,記錄不規(guī)范或信息缺失,需要大量的清洗。 我認(rèn)為,相比于大家熱衷討論的Transformer架構(gòu),冰山之下的評測集和數(shù)據(jù)治理才是真正的護(hù)城河。代碼數(shù)據(jù)可以靠編譯器自動驗(yàn)證質(zhì)量,但醫(yī)學(xué)數(shù)據(jù)只能靠專家人工核驗(yàn),這種規(guī)模化挑戰(zhàn)需要行業(yè)達(dá)成更多共識。
許東:鑒于時間關(guān)系,我們進(jìn)入最后一個問題:醫(yī)學(xué)大模型的未來挑戰(zhàn)與新機(jī)遇是什么?呂老師先談?wù)勀恼雇?/p>
呂樂:我認(rèn)為醫(yī)療AI的壁壘依然在數(shù)據(jù)。真正嚴(yán)肅且有價值的臨床數(shù)據(jù)在公有域是不存在的。要把醫(yī)院里的數(shù)據(jù)變成“AI Ready”,需要非常強(qiáng)大的數(shù)據(jù)治理AI。 我個人認(rèn)為,負(fù)責(zé)數(shù)據(jù)治理的AI算法可能比最終訓(xùn)練模型的算法還要復(fù)雜,研發(fā)者80%的精力應(yīng)該放在這里。同時,我們不能簡單地把人類醫(yī)生的眼光作為唯一的評測標(biāo)準(zhǔn)(Reward Function),因?yàn)槿搜塾袝r也看不清影像中所有細(xì)節(jié)。我們需要定義更科學(xué)、可驗(yàn)證的激勵機(jī)制。 我從事醫(yī)療AI二十年,經(jīng)歷過波峰波谷。在大家絕望時,我看到希望;在大家瘋狂時,我傾向于潑點(diǎn)冷水。中庸之道在醫(yī)療領(lǐng)域很重要。醫(yī)療創(chuàng)新不應(yīng)是轟轟烈烈的,而應(yīng)像春雨般“潤物無聲”。 最后,醫(yī)療創(chuàng)業(yè)必須是使命驅(qū)動的,開發(fā)者必須對病人有愛。如果我們創(chuàng)造了100塊錢的價值,應(yīng)該讓病人拿走98塊,我們分剩下的2塊。只有以人為本,回歸醫(yī)療本質(zhì),這個事情才可解。
顧進(jìn)杰:我補(bǔ)充一下。醫(yī)療是一個長坡厚雪的賽道。我們在廣州與鐘南山院士交流時,他強(qiáng)調(diào)“最重要的還是患者”。目前中國很多醫(yī)生因?yàn)閴毫Υ螅恰耙灾尾橹行摹保恰耙曰颊邽橹行摹薄I可以填補(bǔ)這個空隙。 目前的AI還處在早期,在“望聞問切”上的能力還很差,更多是解決信息獲取。我認(rèn)為未來有三個階段: 第一階段:提升知識深度與醫(yī)學(xué)感知能力; 第二階段:各種特定的專業(yè)Agent爆發(fā),涵蓋隨訪、預(yù)問診、營養(yǎng)、康復(fù)等環(huán)節(jié); 第三階段:人機(jī)協(xié)作。AI與醫(yī)生、患者形成新的協(xié)同范式。未來一個主任醫(yī)師通過AI輔助,可能從管理幾百個病人擴(kuò)展到管理上萬個病人,這種產(chǎn)能釋放的想象力是巨大的。 最終,ASI(超人工智能)與多智能體范式結(jié)合,將解決目前醫(yī)學(xué)上不可解的難題,比如生物制藥的突破。我們才剛剛開啟這個大幕。
許東:簡單回答幾個聽眾關(guān)心的問題。第一,阿福有出海計劃嗎?
顧進(jìn)杰:每個國家的醫(yī)療監(jiān)管政策差異很大,出海需要非常謹(jǐn)慎的調(diào)研。我們目前重點(diǎn)服務(wù)國內(nèi),同時也關(guān)注海外華人回國就醫(yī)的輔助,全球化布局會一步步探索。
許東:阿福能對接居家健康檢測和穿戴式設(shè)備的數(shù)據(jù)嗎?
顧進(jìn)杰:我們正在做。今年Q1會陸續(xù)連接市面上主流的硬件廠商。在老齡化背景下,AI+居家硬件大有可為。
許東:會針對精神醫(yī)學(xué)等細(xì)分方向做專門的模型嗎?
顧進(jìn)杰:精神類干預(yù)非常難,因?yàn)樗婕罢Z氣、互動等非文字信息。我們目前有一些研究性課題在與機(jī)構(gòu)合作,歡迎對此感興趣的專家共同建設(shè)。
許東:既然有了大模型,傳統(tǒng)的機(jī)器學(xué)習(xí)在醫(yī)學(xué)研究中還有意義嗎?
顧進(jìn)杰:意義非常大。大模型解決一般性問題,但在極專的領(lǐng)域,如通過語音識別判斷睡眠障礙,仍需要特殊的小模型。很多小模型可以基于大模型開發(fā),兩者是相輔相成的。
許東:今天的討論持續(xù)了兩個多小時,感謝三位嘉賓提供了極具洞察力的建議,無論是對研究者還是普通用戶都非常有啟發(fā)。感謝雷峰網(wǎng)和GAIR Live平臺的技術(shù)支持。今天的討論到此結(jié)束,謝謝大家!
呂樂、顧進(jìn)杰、胡鋼清:謝謝大家,再見。
完整視頻觀看地址:https://youtu.be/YiNBPmeQ7rs
未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.