337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從實(shí)驗(yàn)室Demo到國民級健康伙伴:醫(yī)療Agent離“進(jìn)指南”還有多遠(yuǎn)?| GAIR Live 024

0
分享至


拆解醫(yī)學(xué)專用大模型如何跨越從“信息檢索”到“嚴(yán)肅醫(yī)療”服務(wù)的鴻溝,打造“以患者為中心”的AI醫(yī)療生態(tài)。

作者丨岑峰

隨著大語言模型從生成式對話向?qū)I(yè)垂直領(lǐng)域的深度滲透,醫(yī)療健康正成為 AGI 落地最具價值也最受關(guān)注的“深水區(qū)”。過去,大眾在面臨健康困惑時,習(xí)慣于在搜索引擎的碎片化信息中自行“拼圖”,往往陷入信息矛盾與焦慮。而今天,以螞蟻集團(tuán)“阿福”為代表的醫(yī)學(xué)大模型,正憑借其強(qiáng)大的知識整合能力與多模態(tài)交互體驗(yàn),迅速從實(shí)驗(yàn)室的 Demo 演變?yōu)閾碛星f級日活、覆蓋全年齡段的“國民級健康伙伴”。

然而,當(dāng) AI 開始介入嚴(yán)肅醫(yī)療與日常健康管理,一系列深層命題也隨之而來:垂類模型如何在通用模型之上構(gòu)建不可替代的專業(yè)壁壘?如何平衡醫(yī)學(xué)的科學(xué)嚴(yán)謹(jǐn)性與人文關(guān)懷的溫情?在面臨“AI 迎合性”導(dǎo)致的倫理風(fēng)險時,我們該如何劃定安全紅線?

為此,本期 GAIR Live 舉辦了題為“AI for Health:從‘實(shí)驗(yàn)室 Demo’到‘國民級健康伙伴’的范式躍遷”的線上圓桌。論壇由南佛羅里達(dá)大學(xué)教授、美國醫(yī)學(xué)與生物工程學(xué)會會士許東發(fā)起并主持,特邀螞蟻集團(tuán)技術(shù)研究院副院長、醫(yī)療健康實(shí)驗(yàn)室主任呂樂,螞蟻健康 CTO、醫(yī)療大模型“阿福”之父顧進(jìn)杰,以及西弗吉尼亞大學(xué)助理教授胡鋼清。四位深耕 AI 與生物醫(yī)學(xué)交叉領(lǐng)域的專家,從研發(fā)底座、產(chǎn)品實(shí)踐、臨床觀察到倫理治理,展開了一場超過兩小時的硬核對談。

圓桌內(nèi)容呈現(xiàn)了醫(yī)療 AI 發(fā)展的四大核心維度:

第一,在產(chǎn)品范式上,顧進(jìn)杰詳細(xì)拆解了“螞蟻阿福”如何通過健康檔案管理、健康小目標(biāo)陪伴以及多模態(tài)問診三大功能,構(gòu)建起“AI 醫(yī)生朋友”的定位。他指出,醫(yī)療大模型不僅是信息的輸出者,更是長程健康的記憶者與管理者。許東教授則分享了中醫(yī)大模型“本草”的開發(fā)經(jīng)驗(yàn),論證了在垂直細(xì)分領(lǐng)域,小團(tuán)隊亦能通過專家反饋閉環(huán)和對齊技術(shù),做出專業(yè)深度超越通用模型的產(chǎn)品

第二,在技術(shù)壁壘上,嘉賓們達(dá)成共識:醫(yī)學(xué)大模型絕非通用模型的簡單微調(diào)。顧進(jìn)杰總結(jié)了能力增強(qiáng)、醫(yī)學(xué)對齊與能力邊界(拒答能力)三大關(guān)鍵差異。呂樂則從嚴(yán)肅醫(yī)療視角指出,AI 的終極價值在于“生產(chǎn)優(yōu)質(zhì)醫(yī)療生產(chǎn)力”,尤其是在腫瘤多學(xué)科會診(MDT)這類復(fù)雜決策中,AI 能夠處理人類大腦難以實(shí)時融合的多模態(tài)非結(jié)構(gòu)化數(shù)據(jù)。

第三,在安全與倫理上,胡鋼清警示了大模型的“迎合性”帶來的潛在風(fēng)險,如“AI Psychosis”, 即與 AI 互動可能誘發(fā)或加重心理健康問題。為此,專家們探討了“人機(jī)協(xié)作(Human in the loop)”的重要性,強(qiáng)調(diào)在識別到極端情緒或高風(fēng)險信號時,必須引入真人專家干預(yù),作為醫(yī)療 AI 的安全底座。

第四,在未來基建上,呂樂提出“AI 好不好的標(biāo)準(zhǔn)是進(jìn)指南”,強(qiáng)調(diào)醫(yī)療創(chuàng)新應(yīng)像春雨般“潤物無聲”。專家們預(yù)判,未來醫(yī)療將進(jìn)入 Agent 爆發(fā)期,預(yù)問診、隨訪、早篩等環(huán)節(jié)將實(shí)現(xiàn)全鏈路重塑。而這一切的護(hù)城河,并不在算法架構(gòu)本身,而在冰山之下的高質(zhì)量評測集(Benchmark)與數(shù)據(jù)治理(Data Curation)。

從實(shí)驗(yàn)室走向真實(shí)世界,AI for Health 的躍遷不僅是算力的競賽,更是對生命健康的深度敬畏與人文重構(gòu)。

以下是此次圓桌討論的精彩分享,AI 科技評論進(jìn)行了不改原意的編輯整理:


01


從“實(shí)驗(yàn)室Demo”到“國民級應(yīng)用”的進(jìn)化

許東:各位觀眾、老師、同學(xué),大家好。歡迎參加本期GAIR Live論壇。我是今天的主持人許東。

我們今天討論的主題是“大語言模型作為健康伙伴的范式躍遷”。過去幾年,人工智能在科研輔助、內(nèi)容創(chuàng)作、工業(yè)生產(chǎn)和日常辦公等各方面帶來了巨大紅利,重塑了諸多行業(yè)。但對普通百姓來說,最實(shí)惠、最關(guān)心的莫過于AI如何幫助我們的健康。

以往身體不適時,大家通常習(xí)慣使用搜索引擎(如百度、谷歌)。這種方式雖然信息量大,但往往碎片化、片面甚至彼此矛盾,用戶常處于“信息過載卻不知如何使用”的困境。大語言模型的出現(xiàn)整合了海量內(nèi)容,能進(jìn)行系統(tǒng)的歸納與總結(jié),比傳統(tǒng)搜索更具價值和可靠性。

目前,醫(yī)學(xué)專用大語言模型不斷涌現(xiàn)。在這一領(lǐng)域,螞蟻集團(tuán)研發(fā)的“阿福”醫(yī)學(xué)模型自上線以來,短時間內(nèi)下載量已突破5000萬,確實(shí)非常出色。國外也有類似探索,如ChatGPT推出的Health項(xiàng)目,但因監(jiān)管較多,步伐相對慢一點(diǎn),仍處于小范圍測試階段。

我們今天既想探討專業(yè)的科研問題,比如醫(yī)學(xué)大模型的邊界、研發(fā)效率及風(fēng)險控制;也想探討普通百姓如何更好地使用這些工具。黃仁勛等大咖曾談到,能否熟練使用大模型將對一個人的生活方式和職業(yè)發(fā)展產(chǎn)生巨大影響。醫(yī)學(xué)是極其專業(yè)的領(lǐng)域,如何與醫(yī)學(xué)模型有效交流、判斷結(jié)果是否可靠,是一門專業(yè)的技術(shù)活。

首先介紹一下我自己。我目前在美國南佛羅里達(dá)大學(xué)醫(yī)學(xué)院工作,本科和碩士畢業(yè)于北大,在伊利諾伊大學(xué)香檳分校(UIUC)獲得博士學(xué)位。我曾在美國安全研究所、橡樹嶺國家實(shí)驗(yàn)室和密蘇里大學(xué)工作,研究方向是AI在生物和醫(yī)學(xué)的應(yīng)用,是美國科學(xué)促進(jìn)會(AAAS)和美國醫(yī)學(xué)與生物工程學(xué)會(AIMBE)會士。

今天我們請到了幾位重量級嘉賓,特別是兩位“阿福”的核心開發(fā)人員: 呂樂老師,螞蟻集團(tuán)技術(shù)研究院副院長、健康事業(yè)群醫(yī)療健康實(shí)驗(yàn)室主任。他是美國約翰霍普金斯大學(xué)計算機(jī)科學(xué)顧問委員會委員,曾任阿里巴巴達(dá)摩院醫(yī)療AI部門負(fù)責(zé)人、英偉達(dá)醫(yī)療AI部門創(chuàng)始人,是TPAMI等頂刊的編委,引用率高達(dá)4萬余次。 顧進(jìn)杰老師,螞蟻健康事業(yè)群CTO。他帶領(lǐng)團(tuán)隊推動了醫(yī)療通用人工智能開發(fā)及“阿福”APP的創(chuàng)新。他曾負(fù)責(zé)支付寶等部門的核心AI應(yīng)用落地,兩次獲得吳文俊人工智能科技進(jìn)步一等獎。

今天的流程是先請嘉賓進(jìn)行簡單分享,再進(jìn)行深度探討,最后開放聽眾問答。首先請顧進(jìn)杰老師介紹“阿福”的開發(fā)情況。

顧進(jìn)杰:感謝許老師的介紹,很高興歡迎線上的同學(xué)一起探討AI for Health這個方向。我先簡單介紹一下“阿福”這款產(chǎn)品,這是我們近期推出并重點(diǎn)運(yùn)營的一款健康產(chǎn)品。

螞蟻健康事業(yè)群在醫(yī)療領(lǐng)域深耕多年。從2016年起,我們推動了全國首家醫(yī)院醫(yī)保線上支付;2019年推出了全國第一張醫(yī)保電子憑證;在ChatGPT出現(xiàn)后,我們推出了數(shù)字陪診師解決方案。在線下就診過程中,陪診師角色非常重要,能告知診室位置、排隊情況、取藥流程及用藥指導(dǎo)。

2024年,支付寶醫(yī)療健康頻道推出了AI健康管家,用AI重塑服務(wù)過程。2023年,我們聯(lián)合浙江省衛(wèi)健委推出全國首個數(shù)字健康人“安診兒”,目前已服務(wù)浙江省內(nèi)多家線下醫(yī)院。2024年7月,我們推出了螞蟻醫(yī)療大模型;2025年6月,獨(dú)立APP正式發(fā)布。最初由于英文名AQ記憶門檻較高,我們將其升級為中文名“螞蟻阿福”,將定位從“AI工具”轉(zhuǎn)變?yōu)橛脩舻摹癆I醫(yī)生朋友”。

螞蟻阿福的用戶群體與一般的AGI產(chǎn)品挺不一樣。通常AGI產(chǎn)品吸引年輕人嘗鮮,但作為健康產(chǎn)品,阿福的用戶年齡段覆蓋非常均衡,60后、70后、80后占比極高,因?yàn)橹欣夏耆后w確實(shí)有更迫切的健康需求。此外,由于三四線城市醫(yī)療服務(wù)的可及性相對較差,我們有55%的用戶來自三線以下城市。目前,阿福每天回答的提問數(shù)已超過1000萬,月環(huán)比增速達(dá)94%。

螞蟻阿福核心有三大功能:陪伴、問答、服務(wù)。 第一是記錄與管理。阿福能持續(xù)記錄用戶的健康檔案,支持病歷拍照上傳,并已接入包括蘋果、華為、榮耀、vivo在內(nèi)的9個智能設(shè)備大品牌,以及魚躍等專業(yè)醫(yī)療設(shè)備。 第二是健康陪伴。我們推出了“健康小目標(biāo)”功能,幫助用戶定義運(yùn)動、飲食和作息計劃。例如通過拍照識別飲食內(nèi)容,利用AI幫助用戶養(yǎng)成良好習(xí)慣。 第三是健康問答。這是AGI的核心功能。阿福支持隨時隨地的對話,重點(diǎn)加強(qiáng)了多模態(tài)能力,用戶可以拍皮膚患處、拍化驗(yàn)報告或藥盒進(jìn)行咨詢。我們還推出了“AI診室”,它能像醫(yī)生一樣通過多輪對話主動追問,與用戶進(jìn)行深度互動。

在服務(wù)側(cè),阿福鏈接了“好大夫”線上30萬名三甲醫(yī)院醫(yī)生資源,支持在線問診、買藥,并提供線下云陪診、預(yù)約掛號及診后隨訪。同時,用戶也可以在阿福上通過醫(yī)保碼查看賬戶、動賬情況并進(jìn)行支付。

針對技術(shù)領(lǐng)域的同學(xué),我也分享一下我們團(tuán)隊在開源方面的兩個重大工作: 一是AQMedAI項(xiàng)目。這是我們持續(xù)運(yùn)營的開源項(xiàng)目,主要關(guān)注四大塊內(nèi)容:第一,持續(xù)推動醫(yī)療能力的Benchmark(評測基準(zhǔn))建設(shè)。目前行業(yè)內(nèi)優(yōu)質(zhì)的醫(yī)療評測基準(zhǔn)依然匱乏,需要與醫(yī)生專家協(xié)作來度量AI能力。第二,Medical Researcher(深度研究代理)。在醫(yī)學(xué)領(lǐng)域,文獻(xiàn)、指南和論文的檢索與理解至關(guān)重要,Deep Research Agent是關(guān)鍵能力。第三,Diver項(xiàng)目。我們利用RAG(檢索增強(qiáng)生成)技術(shù)做循證醫(yī)學(xué)增強(qiáng),幫助模型獲得更專業(yè)的表現(xiàn)。此外,我們團(tuán)隊具備操控千億級大模型進(jìn)行后訓(xùn)練和強(qiáng)化學(xué)習(xí)的能力,也開源了一些多智能體訓(xùn)練框架。

二是螞蟻安診兒(AntAngel)項(xiàng)目。這是我們與浙江人工智能基地聯(lián)合打造的開源醫(yī)療大模型。去年12月發(fā)布的第一個版本采用了MOE(混合專家)架構(gòu),基于螞蟻百靈Flash 2.0模型訓(xùn)練,擁有1000億參數(shù),同時激活約60億參數(shù)。該模型Token輸出速度極快,且量化后能部署在較小的資源環(huán)境下。我們積累了萬億的專業(yè)醫(yī)學(xué)語料,通過三階段訓(xùn)練,使模型在醫(yī)學(xué)專業(yè)能力上表現(xiàn)出色。在MedAIBench及上海Medbench等多個主流評測中,螞蟻安診兒模型均取得了高分,也是目前開源領(lǐng)域得分較高的模型之一。

許老師,我先介紹到這里。

許東:感謝顧老師的分享。接下來,我們請呂樂老師分享他的觀察與實(shí)踐。

呂樂:剛才進(jìn)杰老師提到的“阿福”,目前的定位更側(cè)重于AI全科醫(yī)生或家庭醫(yī)生。而我的工作主要是負(fù)責(zé)螞蟻健康關(guān)于四大慢病(腫瘤、呼吸系統(tǒng)疾病、代謝病、心血管疾病)以及大腦慢病的AI研發(fā)。

嚴(yán)肅醫(yī)療的本質(zhì)是為病人解決實(shí)際的病痛。目前,需要高強(qiáng)度干預(yù)(Intensive Care)以獲得更好預(yù)后的嚴(yán)重病患群體非常龐大,僅在中國就有數(shù)千萬人。然而,無論是中國還是美國,高端醫(yī)療資源始終是匱乏的。解決這個問題的核心,不在于互聯(lián)網(wǎng)醫(yī)療如何重新分配現(xiàn)有資源,而在于如何通過人工智能,從源頭上大規(guī)模地“生產(chǎn)”出優(yōu)質(zhì)的醫(yī)療生產(chǎn)力。

關(guān)于AI與醫(yī)生的關(guān)系,最近有很多討論。從嚴(yán)肅醫(yī)療的角度來看,我并不擔(dān)心這種競爭。我認(rèn)為AI在醫(yī)療中的角色,應(yīng)該是去做那些“醫(yī)生做不了”或“醫(yī)生由于精力限制無法高頻去做”的事情。雖然我們提倡“以病人為中心(Patient-centric Healthcare)”很多年,但只靠有限的醫(yī)生和醫(yī)院是很難徹底實(shí)現(xiàn)的。我們需要AI生產(chǎn)力來輔助醫(yī)生,由醫(yī)生決定如何使用,并最終讓病人獲益。在臨床醫(yī)學(xué)中,這有一套非常嚴(yán)謹(jǐn)?shù)囊?guī)章制度可以遵循,可以通過回顧性和前瞻性的研究,從統(tǒng)計學(xué)上證明病人是否真正受益。

具體到我們的核心工作,是解決癌癥的多學(xué)科會診(MDT)過程。嚴(yán)重的癌癥病人通常每兩三個月就需要評估是否調(diào)整治療方案,以確保方案始終是最優(yōu)的。這種高質(zhì)量、高頻次的干預(yù)需求,即便在美國也只有約5%能被滿足,這意味著本應(yīng)做20次MDT的病人,實(shí)際上只做了一次。全球范圍內(nèi),澳大利亞在這一塊做得最好,法律規(guī)定癌癥病人必須接受多學(xué)科會診,其癌癥五年存活率也確實(shí)是全球領(lǐng)先的,這證明了MDT的巨大價值。

一個高質(zhì)量的MDT需要融合極其復(fù)雜的信息:不僅包括病史、基因測序、血檢報告,還包括至關(guān)重要的放射影像和病理信息。影像展現(xiàn)了腫瘤及器官的細(xì)微變化,是實(shí)現(xiàn)個性化治療的關(guān)鍵,但它屬于非結(jié)構(gòu)化數(shù)據(jù)(Unstructured Data),難以定量計算。人類大腦在處理這種多模態(tài)信息并將其轉(zhuǎn)化為精準(zhǔn)的治療行動(Action)時,往往會面臨認(rèn)知瓶頸。而這正是AI最擅長處理的領(lǐng)域。

這種需求是真實(shí)存在且長期未被滿足的。我們正在研發(fā)的AI Agent,可以輔助多學(xué)科醫(yī)生進(jìn)行“預(yù)會診”,先產(chǎn)生一份科學(xué)且可循證的報告。這份報告必須由醫(yī)生簽字核準(zhǔn)后才能給病人使用。通過互聯(lián)網(wǎng)經(jīng)濟(jì)的規(guī)模效應(yīng),這種先進(jìn)生產(chǎn)力一旦被生產(chǎn)出來,給每個病人使用的邊際成本會非常低,從而讓每位大病患者都能享受到高質(zhì)量的醫(yī)療服務(wù)。這是我們團(tuán)隊奮斗的目標(biāo),是一件難而正確的事。

此外,在AGI(通用人工智能)與ASI(超人工智能)的邊界上,我們也與進(jìn)杰老師的團(tuán)隊緊密合作。比如如何更深層地理解病史,如何與病人家屬交流。家屬在理解AI與醫(yī)生推薦的方案時會有很多疑問,但主治醫(yī)生往往非常忙碌,此時“阿福”的專病版本就可以充當(dāng)高質(zhì)量的管家,照顧好病人和他的家庭。

許東:感謝呂老師的精彩分享。接下來,我也分享一下我們課題組在醫(yī)學(xué)大模型方面的工作。

我們開發(fā)了一個名為“本草”的中醫(yī)大語言模型。分享這個項(xiàng)目的目的,是想說明醫(yī)學(xué)大模型的開發(fā)也可以“普及化”——即一個小規(guī)模的團(tuán)隊也能做出專業(yè)級的醫(yī)學(xué)模型。

“本草”目前可以在GPT Store中下載使用。該項(xiàng)目主要由我課題組的博士生席嘉誠牽頭,并與國內(nèi)多位中醫(yī)專家、尤其是上海中醫(yī)藥大學(xué)的安光輝老師深度合作。我們利用OpenAI的GPT平臺提供的開發(fā)環(huán)境,不需要從底層調(diào)整模型參數(shù),而是通過提供海量專業(yè)素材進(jìn)行調(diào)試。

我們收集了1000多本中醫(yī)典籍,從《黃帝內(nèi)經(jīng)》到現(xiàn)代開源的中醫(yī)教科書。雖然團(tuán)隊規(guī)模很小,但我們通過不斷調(diào)試提示語(Prompt),并由資深中醫(yī)師進(jìn)行測試反饋,構(gòu)建了這個系統(tǒng)。它的功能涵蓋了健康咨詢、舌象分析(多模態(tài)模型)、中醫(yī)知識學(xué)習(xí)及中草藥識別。

這個系統(tǒng)在一年前上線后得到了廣泛關(guān)注,甚至主流科普雜志《科學(xué)美國人》(Scientific American)也對我們進(jìn)行了采訪。目前已有上千名活躍用戶,評價接近滿分。這說明無論是美國還是國內(nèi),大家對“中醫(yī)+大模型”的熱情都非常高。

在技術(shù)架構(gòu)上,我們采用了檢索增強(qiáng)生成(RAG)技術(shù),使模型能夠?qū)崟r檢索我們的中醫(yī)語料庫。同時,我們還通過API調(diào)用了自研的舌象分析軟件。在訓(xùn)練過程中,我們不調(diào)參數(shù),而是由中醫(yī)師進(jìn)行指令驅(qū)動的對齊(Alignment),通過大量的場景模擬,讓AI的回答符合中醫(yī)的辯證邏輯。正如剛才兩位老師所說,醫(yī)學(xué)問題需要多次迭代,模型會主動追問用戶,以獲取更全面的病史信息。

為了驗(yàn)證效果,我們發(fā)布了一個名為“TCM Ladder”的數(shù)據(jù)庫,并在今年的AI頂會NeurIPS上正式發(fā)表。利用這個數(shù)據(jù)庫,我們對比了通用大模型與中醫(yī)專用大模型。結(jié)果顯示,“本草”在診斷學(xué)、方劑學(xué)、中醫(yī)內(nèi)科、兒科及外科等各個維度的表現(xiàn),均顯著優(yōu)于通用模型。這歸功于大量專業(yè)知識的注入以及中醫(yī)師參與的經(jīng)驗(yàn)對齊。

在中醫(yī)界,由于缺乏像西醫(yī)那樣明確的本體(Ontology),診斷高度依賴經(jīng)驗(yàn)。因此,我們邀請了上海中醫(yī)藥大學(xué)的幾十位老師進(jìn)行人工測評,評估其診斷判斷和方劑開具的可靠性。測評結(jié)果再次證實(shí),專門的醫(yī)學(xué)大模型在專業(yè)深度上具有巨大優(yōu)勢。

總結(jié)來看,我們的工作提供了幾點(diǎn)啟示:

第一,醫(yī)學(xué)領(lǐng)域的垂直大模型在專業(yè)性上確實(shí)有潛力超越通用模型;

第二,專家反饋的閉環(huán)(對齊)是確保模型靠譜的關(guān)鍵;

第三,AI的開發(fā)模式正在普及,只要有專業(yè)的醫(yī)學(xué)知識儲備和少數(shù)AI開發(fā)人員,就可以在腺樣體肥大、慢病管理等非常細(xì)分的領(lǐng)域做出專屬的、深度的醫(yī)學(xué)模型。這種普及化模式不僅限于客戶端,在開發(fā)端也將成為常態(tài)。

02


專用模型如何跨越“醫(yī)學(xué)專業(yè)性”的鴻溝

許東:接下來的環(huán)節(jié),我們進(jìn)入深入探討階段。目前,很多用戶習(xí)慣直接向ChatGPT、通義千問或豆包咨詢健康問題,似乎并不一定非要使用專門的醫(yī)學(xué)大模型。作為研發(fā)端和應(yīng)用端的專家,我先分享幾點(diǎn)個人體會。

我認(rèn)為醫(yī)學(xué)大模型的額外價值主要體現(xiàn)在三方面:首先是訓(xùn)練數(shù)據(jù)與對齊,醫(yī)學(xué)模型擁有極其專業(yè)的語料,并由醫(yī)生輔助完成對齊,質(zhì)量更可控;其次是隱私處理,通用模型往往會將用戶上傳的信息作為語料進(jìn)行二次訓(xùn)練,存在隱私泄露風(fēng)險,而專業(yè)的醫(yī)學(xué)大模型在隱私保護(hù)上通常會有更嚴(yán)格的閉環(huán);最后是安全性邊界,通用模型偏向開放式創(chuàng)作,而醫(yī)學(xué)模型在給出建議時往往更保守,會不斷提示用戶線下就診,避免給出極端錯誤的決策。

針對這些問題,我想請教顧老師和呂老師:通過螞蟻“阿福”的研發(fā),你們認(rèn)為醫(yī)學(xué)大模型在輸出質(zhì)量、可靠性及用戶體驗(yàn)上,到底比通用大模型好在哪里?用戶在面對醫(yī)學(xué)問題時,是否應(yīng)該首選專用模型?

顧進(jìn)杰:關(guān)于垂類大模型與通用大模型的差異,我們感觸非常深。很多用戶在阿福上問的問題五花八門,甚至包括中醫(yī)方面的咨詢,這也正是許老師做“本草”模型的初衷。為什么要在通用模型之上專門針對醫(yī)療做優(yōu)化?我總結(jié)了三個關(guān)鍵原因:

第一,能力增強(qiáng)。通用大模型在訓(xùn)練時,其預(yù)訓(xùn)練數(shù)據(jù)、SFT(監(jiān)督微調(diào))樣本及強(qiáng)化學(xué)習(xí)任務(wù)的配比是通用的。比如,通用模型會加入大量代碼數(shù)據(jù)以提升Agent能力,加入數(shù)學(xué)數(shù)據(jù)以提升推理能力。但在醫(yī)療場景下,通用任務(wù)的配比可能并不適合醫(yī)學(xué)邏輯。醫(yī)學(xué)任務(wù)非常有特點(diǎn),例如對藥品、癥狀、疾病的精準(zhǔn)對應(yīng),以及基于RAG(檢索增強(qiáng)生成)的循證能力。如果研發(fā)者對醫(yī)學(xué)沒有深刻的判斷,就無法精準(zhǔn)增強(qiáng)這些核心能力。

第二,醫(yī)學(xué)對齊。這是極具挑戰(zhàn)的一環(huán)。優(yōu)秀的醫(yī)生在臨床診療中遵循特定的原則和思維鏈(CoT),他們往往習(xí)慣用最高效的方式與患者溝通,這種深層決策邏輯往往沒有被數(shù)字化。我們要想做好醫(yī)療AI,就必須讓模型與頂尖專家的處理方式達(dá)成高度一致,這種“醫(yī)學(xué)對齊”是通用模型難以深入觸達(dá)的。

第三,能力邊界與拒答能力。通用模型往往傾向于給出一個答案,但在醫(yī)學(xué)場景下,證據(jù)不足時強(qiáng)行給出判斷是非常危險的。醫(yī)學(xué)大模型需要學(xué)會在證據(jù)不充分或信息模糊時通過“追問”獲取更多信息,甚至學(xué)會“拒答”。比如,用戶拍一張模糊的手持報告照片,如果阿福強(qiáng)行識別,誤診風(fēng)險極大。這時,專用模型必須表現(xiàn)出更強(qiáng)的安全約束和邊界感。

呂樂:我補(bǔ)充幾點(diǎn)。醫(yī)療AGI的定義其實(shí)非常寬泛,涉及面極廣。我多年前讀過Eric Topol的《Deep Medicine》,他最近又寫了《Super Agers》,核心都在探討AI在復(fù)雜人體系統(tǒng)中的角色。

對于像“阿福”這樣的AI全科醫(yī)生,它面臨的是一個“多對多”的數(shù)學(xué)映射難題:多種病灶可能表現(xiàn)出同一種癥狀,而同一種病也可能有多種復(fù)雜的表征。在工程和臨床上,如何在保持有效性的同時確保安全性?如果回答太淺,病人覺得沒幫助;如果給得太深,模型不可避免會犯錯。要在兩者之間取得平衡,需要極高的科學(xué)挑戰(zhàn)性。

全科醫(yī)生是人類和AI都能做的事,本質(zhì)上是兩個智能體集合的碰撞。阿福目前日活已經(jīng)達(dá)到1000萬,這意味著我們擁有強(qiáng)大的“數(shù)據(jù)飛輪”,能通過海量真實(shí)交互不斷迭代,比別人更快地調(diào)優(yōu)這個平衡閾值。

而我負(fù)責(zé)的嚴(yán)肅醫(yī)療方向,任務(wù)定義更為具體。比如做一個Agent幫T2N0期的肺癌病人看病,這個問題的邊界是科學(xué)且清晰的。人體極其復(fù)雜,有30萬億個細(xì)胞,每個細(xì)胞都是精密工廠。從科學(xué)本質(zhì)上說,很多醫(yī)學(xué)難題短期內(nèi)不可解。因此,無論是循證醫(yī)學(xué)還是經(jīng)驗(yàn)醫(yī)學(xué),最核心的是取得平衡。

螞蟻集團(tuán)作為一家包含金融、保險、好大夫在線等多維業(yè)務(wù)的公司,我們將支付、服務(wù)與AI能力整合在一個復(fù)雜大系統(tǒng)中進(jìn)行優(yōu)化。這種全場景的配合,讓我們有機(jī)會解決醫(yī)療這一“復(fù)雜巨系統(tǒng)”中的可解問題。

許東:我們今天還請到了胡鋼清老師。胡老師是西弗吉尼亞大學(xué)的助理教授,也是最早一批嘗試將ChatGPT等模型應(yīng)用于生物醫(yī)學(xué)創(chuàng)新研究的專家。胡老師,對此您有什么看法?

胡鋼清:關(guān)于醫(yī)學(xué)大模型與通用模型的差別,我認(rèn)為從用戶角度看,醫(yī)學(xué)模型的容錯率必須定得極低。醫(yī)學(xué)不僅僅是科學(xué),更包含人文關(guān)懷。這種專業(yè)性決定了它不能僅僅作為一種信息檢索工具。

03


在“人情味”與“科學(xué)邊界”之間尋找平衡

許東:接下來第二個問題希望普通聽眾發(fā)一點(diǎn)“福利”:作為普通用戶,如何更好地使用這些醫(yī)學(xué)大模型?人與機(jī)器交流也需要“高情商”。

我個人的體會是:你提供的信息越詳盡,結(jié)論通常越靠譜;多次迭代、追問往往比單次提問效果好。另外,結(jié)論一定要做交叉驗(yàn)證,比如詢問大模型結(jié)論的參考文獻(xiàn)或證據(jù)支撐。特別是在醫(yī)學(xué)領(lǐng)域,說錯了可能產(chǎn)生極端后果,所以用戶必須掌握一些技巧。請嘉賓們分享一下使用建議。

顧進(jìn)杰:結(jié)合我們的產(chǎn)品實(shí)踐,我給用戶提三個“最佳實(shí)踐”建議:

第一,盡可能提供詳細(xì)的上下文。在AGI產(chǎn)品中,Prompt(提示詞)至關(guān)重要。如果只說一句“我肚子疼”,連最有經(jīng)驗(yàn)的醫(yī)生也無法給出解答,因?yàn)槿狈μ弁床课弧⒊掷m(xù)時間等信息。我特別建議大家使用阿福的“語音輸入”功能。打字往往簡短,但語音可以表達(dá)更豐富的長段信息。我們甚至增強(qiáng)了方言識別,就是為了讓用戶能把所有能想到的癥狀細(xì)節(jié)都講出來,上下文描述得越好,回答質(zhì)量越高。

第二,重視“醫(yī)療檔案管理”與記憶功能。ChatGPT Health版本上線時也特別強(qiáng)調(diào)了檔案管理。醫(yī)學(xué)Memory必須與其他通用記憶分開管理。如果你有一個綜合性問題,建議把既往病史、過往手術(shù)史、檢查報告拍照上傳。醫(yī)生面診時都會詢問既往病史,AI也一樣。你上傳的檔案越詳細(xì),AI在下一次判斷時就越能結(jié)合你的個人情況,給出個性化建議。

第三,多模態(tài)輸入與多個AI交叉驗(yàn)證。現(xiàn)在的模型各有風(fēng)格,你可以把自己的主訴和病史讓AI總結(jié)好,然后發(fā)給不同的醫(yī)療AI比如阿福、ChatGPT等去對比建議。這種“兼聽則明”的對比是非常好的實(shí)踐。甚至你可以讓一個AI幫你寫Prompt,再去問另一個AI。總之,善用檔案管理、多輪對話和跨平臺對比,是目前使用醫(yī)療大模型的最佳方式。

許東:顧老師提到的“記憶”很有價值。我注意到阿福已經(jīng)具備了圖像記錄功能。比如我手上長了一個“猴子”(疣),拍張照片存下來。我想請教顧老師,目前阿福的系統(tǒng)能否將歷史照片與后續(xù)提出的新問題進(jìn)行關(guān)聯(lián)建模?

顧進(jìn)杰:我們正在研發(fā)這種深度記憶能力。記憶邏輯很難做,比如女性經(jīng)期是周期性的,如果她腹部不適,模型需要從歷史記憶中調(diào)取經(jīng)期時間進(jìn)行推理是否跟經(jīng)期有關(guān)。我們目前的做法是先讓用戶記錄,然后逐步升級推理能力,先從用藥、疾病史開始,未來再接入日常行為數(shù)據(jù)(如運(yùn)動、監(jiān)測設(shè)備信號)。這種長期的健康軌跡連接,是我們努力的方向。

胡鋼清:我補(bǔ)充一個圖像交互的體驗(yàn)。人的眼睛非常精密,能看到一些細(xì)微的意向模式。在和大語言模型交流圖像時,如果模型沒看出來,我們可以通過文字反饋給它,進(jìn)行“人機(jī)耦合”解讀。此外,不僅是病史,甚至以往的旅行史也可以提供給模型,這往往能幫助模型發(fā)現(xiàn)特定癥狀背后的潛在原因。

許東:接下來討論第三個核心話題——大模型的“迎合性”風(fēng)險。大模型往往傾向于“順著用戶說”,不斷自我證明用戶思路的合理性。在醫(yī)學(xué)領(lǐng)域,如果用戶本身對病情認(rèn)知有偏差,這種迎合可能導(dǎo)致判斷越走越偏,甚至誘導(dǎo)極端行為(如自殺建議)。從研發(fā)角度看,我們該如何控制這種風(fēng)險?

胡鋼清:我對這一現(xiàn)象的研究始于去年夏天《Nature》以新聞形式報道的“AI Psychosis”,即與 AI 互動可能誘發(fā)或加重心理健康問題。GPT類模型往往想方設(shè)法去解釋用戶錯誤說法的合理性,而不是直接指出錯誤,這對于有潛在心理健康風(fēng)險的用戶非常危險。

我有兩個典型例子:

第一,在模擬躁狂癥場景時,如果用戶說自己要創(chuàng)辦公司、明年能拿諾貝爾獎,GPT為了表現(xiàn)得“高情商”,會不斷夸贊用戶是“天才”,這種共鳴可能加劇用戶的病態(tài)認(rèn)知。

第二,在皮膚科中有一種“寄生蟲妄想癥”病人,他們堅信皮膚下有蟲子。我們測試發(fā)現(xiàn),雖然大部分模型能識別其背后的精神問題,但仍有20%-40%的概率,模型會順著病人的話說:“這確實(shí)很嚴(yán)重,你不妨把‘蟲子’抓下來裝進(jìn)瓶子里作為樣本。”這恰好迎合了此類病人采集皮膚碎屑并試圖說服醫(yī)生的行為模式,強(qiáng)化了病人的幻覺。

從訓(xùn)練機(jī)制上,我很好奇進(jìn)杰老師如何通過對齊(Alignment)來修正這種過度迎合?

顧進(jìn)杰:這確實(shí)是行業(yè)痛點(diǎn)。大家普遍感覺GPT-4o升級的時候網(wǎng)上有很多人吐槽說GPT-5的“情商”似乎降低了,很多人要求Sam Altman回滾到GPT-4o,這也說明GPT-4o,從擬人的角度上來說是比較“圓滑”的,會在意你的情緒,而另一個例子,谷歌的Gemini則更像一個“理工直男”,缺乏共情力。

許東:Gemini確實(shí)更偏向“Nerd(技術(shù)宅)”開發(fā)給科研人員使用的風(fēng)格。情商低一點(diǎn),但在科研嚴(yán)謹(jǐn)性上表現(xiàn)較好。對于醫(yī)學(xué)模型來說,如何平衡“嚴(yán)謹(jǐn)性”與“人情味”,確實(shí)是個難題。

顧進(jìn)杰:醫(yī)學(xué)是人文加科學(xué)的結(jié)合。醫(yī)學(xué)界有一句名言:偶爾治愈,常常幫助,總是安慰。這意味著醫(yī)學(xué)中很大一部分工作是溝通與心理建設(shè)。如果我們?yōu)榱藝?yán)謹(jǐn)而把模型調(diào)教成“直男”,用戶可能會流失;但如果過度共情,又會產(chǎn)生剛才提到的風(fēng)險。

我們的經(jīng)驗(yàn)是將模型的表達(dá)風(fēng)格進(jìn)行多層級、多場景的“醫(yī)學(xué)對齊”。我們前段時間有一個工作叫“Medical EQ Bench”,專門用來評估模型的醫(yī)學(xué)情商。通過與臨床醫(yī)生的溝通,我們發(fā)現(xiàn)不同科室對溝通技巧的要求完全不同:

1、心理/精神類: 必須具備極強(qiáng)的聊天能力和耐心,不能驚嚇用戶,要提供充足的情緒價值。

2、母嬰/兒科: 媽媽們往往會放大孩子的病情(比如高燒)。模型需要識別并安撫其焦慮情緒,同時冷靜地告知生理指標(biāo)的科學(xué)含義。

3、重癥/危重癥: 絕不能過度共情。如果用戶發(fā)來一份嚴(yán)肅的病理報告,模型說“別擔(dān)心”是非常不負(fù)責(zé)任的。此時,模型必須切換到“嚴(yán)肅模式”,只聊事實(shí)、聊指標(biāo),建議必須極其謹(jǐn)慎。

具體實(shí)施上,我們把對齊分為三層:

? 表達(dá)層: 確保語言清晰、結(jié)構(gòu)化。比如什么時候該講專業(yè)術(shù)語,什么時候該講大白話。

? 理解層: 識別用戶的情緒(焦慮、緊張等)及其背后的價值偏好。

? 安全層: 動態(tài)調(diào)節(jié)風(fēng)險,一旦識別到嚴(yán)重的情緒危機(jī)或潛在風(fēng)險,系統(tǒng)會觸發(fā)預(yù)警。

胡鋼清:我非常認(rèn)同進(jìn)杰老師提到的“真人干預(yù)”。在產(chǎn)品端甄別出“Red Flag(紅色警報)”并接入人工干預(yù),是目前的最佳解。大模型處理純文本時,很難分辨用戶是在陳述事實(shí)還是在進(jìn)行病理性的幻想。此時,具備直覺的醫(yī)療專家介入,能從文字背后瞬間看穿用戶的真實(shí)精神狀態(tài)。這對于健康伙伴類產(chǎn)品來說,是至關(guān)重要的安全底座。

許東:呂老師有什么補(bǔ)充嗎?

呂樂:我前兩天剛在一家國內(nèi)頂級醫(yī)院實(shí)地觀察了針對癌癥病人的多學(xué)科會診(MDT)。我一直在探索醫(yī)生在真實(shí)臨床中的思考邏輯與服務(wù)流。

我發(fā)現(xiàn)了一個很有意思的現(xiàn)象:在很多醫(yī)院,MDT討論時病人是不出現(xiàn)的,醫(yī)生們討論10到20分鐘得出方案。但一些優(yōu)秀的醫(yī)院會在討論結(jié)束后,把病人家屬甚至病人請進(jìn)診室,由專家親自解釋方案。這種溝通其實(shí)是一門極高的藝術(shù)。面對病情嚴(yán)重的患者,醫(yī)生不僅要醫(yī)術(shù)高明,還需要極高的情商去處理家屬的心理壓力。

我最近參加了一個科研項(xiàng)目的啟動會,發(fā)現(xiàn)針對重癥癌癥病人的干預(yù)中,心理學(xué)家的角色非常重要。據(jù)估算,中國約有1000萬個癌癥家庭,如果算上親屬,受影響的人群達(dá)三四千萬。癌癥病人及其家屬往往承受著巨大的精神負(fù)擔(dān),如何進(jìn)行有效的心理干預(yù),不僅是醫(yī)學(xué)難題,也是社會難題。醫(yī)療是一個極其綜合的體系,必須整合多模態(tài)、多渠道的信息來服務(wù)病人。

我想勉勵大家,正如我的導(dǎo)師沈向洋所說,無論是在大公司、創(chuàng)業(yè)公司還是學(xué)校,只要在解決人類面臨的重大難題,就是在創(chuàng)業(yè)。在人工智能時代,我們更應(yīng)堅持“以人為本”,讓醫(yī)療AI更好地服務(wù)于人類。

顧進(jìn)杰:呂老師提到的這一點(diǎn)我非常有感觸。阿福上線后,我們發(fā)現(xiàn)中國用戶對AI醫(yī)生的強(qiáng)烈需求,很大程度上源于醫(yī)療資源的緊張。

我們曾與一線醫(yī)生深入交流。在北美,一位醫(yī)生面診一個病人的時間可能在30分鐘左右,有充足的時間溝通,甚至可以當(dāng)場檢索文獻(xiàn)。但中國的醫(yī)生由于接診量巨大,工作強(qiáng)度極高,往往沒有時間細(xì)致地安撫患者、回答每個疑問。

因此,很多中國患者將AI視作他們的“第二診室”。在醫(yī)院沒聽懂、沒問夠的信息,會轉(zhuǎn)而去問AI。在這種語境下,AI不僅要提供準(zhǔn)確的信息,更要承擔(dān)起“安撫者”的角色。這不僅是技術(shù)挑戰(zhàn),更是巨大的社會價值所在。

04


通往“以患者為中心”的AI醫(yī)療生態(tài)

許東:確實(shí),大模型能幫助偏遠(yuǎn)地區(qū)或資源緊張環(huán)境下的居民享受優(yōu)質(zhì)醫(yī)療,其價值是跨國界的。但我們也必須面對公眾、媒體及政府監(jiān)管對醫(yī)學(xué)大模型的不同態(tài)度。

目前,國內(nèi)對AI發(fā)展的監(jiān)管相對友好,公眾接受度也較高。相比之下,美國和歐洲的監(jiān)管則更為嚴(yán)苛和保守。醫(yī)學(xué)大模型和所有預(yù)測模型一樣,不可能做到100%準(zhǔn)確。美國曾有一個利用大模型提供營養(yǎng)建議的機(jī)構(gòu),因?yàn)槟P拖蛞晃贿M(jìn)食障礙患者建議節(jié)食,被媒體曝光后,該機(jī)構(gòu)在輿論壓力下被迫關(guān)閉。

我想請問幾位:在目前的全球語境下,醫(yī)學(xué)大模型普及的最大障礙是什么?我們該如何平衡監(jiān)管、風(fēng)險與社會收益?

呂樂:醫(yī)療是非常嚴(yán)肅的。一方面是病人的剛需,另一方面是復(fù)雜的監(jiān)管與社會利益分配。AI的引入可能會重塑現(xiàn)有的醫(yī)療服務(wù)鏈條,這涉及各方利益的重新界定,是一個非常復(fù)雜的社會問題。

但我認(rèn)為,醫(yī)療的本質(zhì)永遠(yuǎn)是“以病人為中心”。無論技術(shù)如何變革,衡量取舍的標(biāo)準(zhǔn)應(yīng)當(dāng)是:在費(fèi)用和社會消耗可控的前提下,病人是否獲得了最大收益。

針對嚴(yán)肅醫(yī)療,我有一個明確的觀點(diǎn):AI好不好的終極標(biāo)準(zhǔn)是“進(jìn)指南”。如果一項(xiàng)AI技術(shù)無法進(jìn)入嚴(yán)肅醫(yī)療的診療指南,說明它還不具備被行業(yè)核心認(rèn)可的成熟度。目前的醫(yī)學(xué)指南幾乎沒有AI的部分,未來我們需要明確:哪些環(huán)節(jié)可以交給AI?醫(yī)生與AI如何協(xié)作?這需要大量的真實(shí)世界研究(Real-world Study)去證明。回歸本質(zhì),醫(yī)療服務(wù)的存在是因?yàn)橛胁∪诵枰粠椭覀儜?yīng)致力于提供高頻、高質(zhì)量的輔助。

胡鋼清:我補(bǔ)充一點(diǎn)關(guān)于受眾群體的觀察。在美國,邊遠(yuǎn)地區(qū)的老年人對AI的接受度相對較低,這存在一定的數(shù)字鴻溝。為此,OpenAI曾提供專項(xiàng)資助,研究如何讓非營利組織推動AI在老年群體中的應(yīng)用。但在國內(nèi),像阿福這樣的產(chǎn)品,三四線城市的用戶反而可能因?yàn)獒t(yī)療資源匱乏而用得更多,這是一個有趣的差異。

顧進(jìn)杰:確實(shí),阿福在三四線城市及中老年群體中有很多擁躉。我認(rèn)為目前AI工具的普及還面臨易用性的挑戰(zhàn)。

對于很多平時連智能手機(jī)復(fù)雜功能都很少使用的老年人,讓他們用好AI其實(shí)很難。比如很多模型輸出純文本,且文本框很小,不符合老年人的習(xí)慣。因此我們在阿福中投入了大量精力做語音增強(qiáng),支持方言輸入,旨在降低工具的使用門檻,減少由于操作不當(dāng)帶來的風(fēng)險。

此外,醫(yī)學(xué)界對于好的評估框架(Benchmark)探討得還不夠。我今天還和呂老師討論了一個北美的評估框架。在中醫(yī)等領(lǐng)域,還有大量專業(yè)任務(wù)亟待量化和評估。隨著參與者增多,未來一定會建立起更規(guī)范的行業(yè)標(biāo)準(zhǔn),我對這種“標(biāo)準(zhǔn)驅(qū)動的進(jìn)步”持樂觀態(tài)度。

胡鋼清:關(guān)于媒體輿論,我想提醒用戶保持判斷力。媒體往往傾向于報道兩個極端:一個是極壞的個案,比如AI給自殺傾向者提供方案,這種新聞具有巨大的爆炸性,會迅速引發(fā)恐慌;另一個是極好的個案,比如一個患者找了十幾個醫(yī)生都無果,最后通過大語言模型得出了接近真實(shí)的診斷,輔助醫(yī)生最終確診。

極好的個案和極壞的個案都有新聞價值,但用戶閱讀時應(yīng)意識到這都是極少數(shù)的情況。我們作為研發(fā)者和用戶,既要正視風(fēng)險,也要看到其帶來的巨大賦能。

許東:剛才我們談到了很多關(guān)于大模型的風(fēng)險。那么,有沒有可能以更安全的形式來應(yīng)用這些技術(shù)?例如,目前螞蟻阿福這類產(chǎn)品主要是面向消費(fèi)者的,我們是否可以將其引入專業(yè)的醫(yī)療環(huán)境?比如在患者掛號后的等待期間,先由大語言模型進(jìn)行預(yù)溝通,并直接連通護(hù)士、醫(yī)生和既往病歷。大模型可以輔助患者高效整理信息,甚至在某些情況下,通過與模型的深入交流,在見到醫(yī)生前就解決了一部分疑問。即使患者不擅長操作,現(xiàn)場也可以由護(hù)士協(xié)助。大家認(rèn)為這種“導(dǎo)診/預(yù)問診”場景是否是更好的應(yīng)用路徑?

顧進(jìn)杰:您提到的這個想法非常好,業(yè)內(nèi)也已經(jīng)有很多實(shí)踐。我們將其定義為“醫(yī)療健康A(chǔ)gent”。 第一個典型場景是“預(yù)問診”中國醫(yī)生接診壓力極大,超過50%的時間其實(shí)都在進(jìn)行重復(fù)性的病史詢問,比如“生病多久了?”、“吃過什么藥?”。我們正與多家醫(yī)院和機(jī)構(gòu)合作,提供預(yù)問診Agent。在患者進(jìn)入診室前,可以通過掃碼完成基礎(chǔ)癥狀描述或量表填寫,AI生成的摘要能極大提升醫(yī)生的診斷效率。 第二個場景是“隨訪Agent”。患者在術(shù)后或診后需要長期的信息同步,傳統(tǒng)方式靠護(hù)士打電話詢問,效率極低且難以規(guī)模化。AI Copilot可以替代人工收集康復(fù)數(shù)據(jù),一個醫(yī)生團(tuán)隊因此能管理更多的患者。目前的挑戰(zhàn)在于系統(tǒng)打通。這些Agent需要與醫(yī)院內(nèi)部的HIS(醫(yī)院信息系統(tǒng))深度對接,這個過程涉及信息化改造,雖然需要時間,但其中蘊(yùn)含的機(jī)會是巨大的。

胡鋼清:我非常贊同。在北美,預(yù)問診通常由護(hù)士或助理完成,他們會先與病人交流十幾分鐘,醫(yī)生在面診前就已經(jīng)掌握了基本信息。如果AI能把預(yù)問診和隨訪這兩部分工作做得更順暢,醫(yī)生的服務(wù)容量將得到質(zhì)的飛躍。

呂樂:我補(bǔ)充一點(diǎn)。醫(yī)學(xué)本質(zhì)上是“長期的”和“全面的”。它是一個時間序列,需要多維度信息的整合。 對于重癥癌癥或慢病患者,隨訪不僅是打個電話,更是對康復(fù)質(zhì)量的實(shí)時監(jiān)控。患者絕大部分時間不在醫(yī)院,而是在家中。以往靠護(hù)士手動隨訪非常痛苦,信息也難以持久留存。我認(rèn)為未來的理想形態(tài)是“每個家庭都有一個AI健康管家”。這個管家存儲著用戶的完整歷史檔案,能以全局視角管理病人的健康。醫(yī)療極其復(fù)雜,涉及社會化的全面服務(wù),這需要通過大型系統(tǒng)性的工程來解決。隨訪中蘊(yùn)含著大量的人工智能工作機(jī)會,甚至有些工作并不適合人類去做,因?yàn)槿祟愲y以時刻保持對數(shù)千名患者細(xì)節(jié)的精準(zhǔn)記憶。

許東:談到開發(fā),有觀眾問到“阿福”內(nèi)部的評測標(biāo)準(zhǔn)(Benchmark)是如何搭建的?顧老師能分享一下這方面的經(jīng)驗(yàn)嗎?

顧進(jìn)杰:醫(yī)學(xué)大模型研發(fā)中,最難也最重要的就是Benchmark。我們內(nèi)部構(gòu)建了大量的In-house評測集,是與頂尖醫(yī)生深入交流后產(chǎn)出的。 定義大模型在某個專科能力上的缺陷非常困難。很多模型雖然掌握了醫(yī)學(xué)知識,但在特定臨床場景下的邏輯依然會出錯。我們要創(chuàng)造出能評估這種深層能力的評測集。 目前,生成一條包含復(fù)雜問題和詳細(xì)評分標(biāo)準(zhǔn)的高質(zhì)量評測數(shù)據(jù),成本非常高,在國內(nèi)可能需要三四千元人民幣,在北美則更高。我們擁有接近千人的醫(yī)學(xué)醫(yī)師標(biāo)注團(tuán)隊在持續(xù)優(yōu)化這些“北極星”指標(biāo)。 除了評測,另一個核心是數(shù)據(jù)質(zhì)量。醫(yī)學(xué)領(lǐng)域不缺數(shù)據(jù),但缺“AI Ready”的高質(zhì)量數(shù)據(jù)。臨床數(shù)據(jù)往往非常“臟”,記錄不規(guī)范或信息缺失,需要大量的清洗。 我認(rèn)為,相比于大家熱衷討論的Transformer架構(gòu),冰山之下的評測集和數(shù)據(jù)治理才是真正的護(hù)城河。代碼數(shù)據(jù)可以靠編譯器自動驗(yàn)證質(zhì)量,但醫(yī)學(xué)數(shù)據(jù)只能靠專家人工核驗(yàn),這種規(guī)模化挑戰(zhàn)需要行業(yè)達(dá)成更多共識。

許東:鑒于時間關(guān)系,我們進(jìn)入最后一個問題:醫(yī)學(xué)大模型的未來挑戰(zhàn)與新機(jī)遇是什么?呂老師先談?wù)勀恼雇?/p>

呂樂:我認(rèn)為醫(yī)療AI的壁壘依然在數(shù)據(jù)。真正嚴(yán)肅且有價值的臨床數(shù)據(jù)在公有域是不存在的。要把醫(yī)院里的數(shù)據(jù)變成“AI Ready”,需要非常強(qiáng)大的數(shù)據(jù)治理AI。 我個人認(rèn)為,負(fù)責(zé)數(shù)據(jù)治理的AI算法可能比最終訓(xùn)練模型的算法還要復(fù)雜,研發(fā)者80%的精力應(yīng)該放在這里。同時,我們不能簡單地把人類醫(yī)生的眼光作為唯一的評測標(biāo)準(zhǔn)(Reward Function),因?yàn)槿搜塾袝r也看不清影像中所有細(xì)節(jié)。我們需要定義更科學(xué)、可驗(yàn)證的激勵機(jī)制。 我從事醫(yī)療AI二十年,經(jīng)歷過波峰波谷。在大家絕望時,我看到希望;在大家瘋狂時,我傾向于潑點(diǎn)冷水。中庸之道在醫(yī)療領(lǐng)域很重要。醫(yī)療創(chuàng)新不應(yīng)是轟轟烈烈的,而應(yīng)像春雨般“潤物無聲”。 最后,醫(yī)療創(chuàng)業(yè)必須是使命驅(qū)動的,開發(fā)者必須對病人有愛。如果我們創(chuàng)造了100塊錢的價值,應(yīng)該讓病人拿走98塊,我們分剩下的2塊。只有以人為本,回歸醫(yī)療本質(zhì),這個事情才可解。

顧進(jìn)杰:我補(bǔ)充一下。醫(yī)療是一個長坡厚雪的賽道。我們在廣州與鐘南山院士交流時,他強(qiáng)調(diào)“最重要的還是患者”。目前中國很多醫(yī)生因?yàn)閴毫Υ螅恰耙灾尾橹行摹保恰耙曰颊邽橹行摹薄I可以填補(bǔ)這個空隙。 目前的AI還處在早期,在“望聞問切”上的能力還很差,更多是解決信息獲取。我認(rèn)為未來有三個階段: 第一階段:提升知識深度與醫(yī)學(xué)感知能力; 第二階段:各種特定的專業(yè)Agent爆發(fā),涵蓋隨訪、預(yù)問診、營養(yǎng)、康復(fù)等環(huán)節(jié); 第三階段:人機(jī)協(xié)作。AI與醫(yī)生、患者形成新的協(xié)同范式。未來一個主任醫(yī)師通過AI輔助,可能從管理幾百個病人擴(kuò)展到管理上萬個病人,這種產(chǎn)能釋放的想象力是巨大的。 最終,ASI(超人工智能)與多智能體范式結(jié)合,將解決目前醫(yī)學(xué)上不可解的難題,比如生物制藥的突破。我們才剛剛開啟這個大幕。

許東:簡單回答幾個聽眾關(guān)心的問題。第一,阿福有出海計劃嗎?

顧進(jìn)杰:每個國家的醫(yī)療監(jiān)管政策差異很大,出海需要非常謹(jǐn)慎的調(diào)研。我們目前重點(diǎn)服務(wù)國內(nèi),同時也關(guān)注海外華人回國就醫(yī)的輔助,全球化布局會一步步探索。

許東:阿福能對接居家健康檢測和穿戴式設(shè)備的數(shù)據(jù)嗎?

顧進(jìn)杰:我們正在做。今年Q1會陸續(xù)連接市面上主流的硬件廠商。在老齡化背景下,AI+居家硬件大有可為。

許東:會針對精神醫(yī)學(xué)等細(xì)分方向做專門的模型嗎?

顧進(jìn)杰:精神類干預(yù)非常難,因?yàn)樗婕罢Z氣、互動等非文字信息。我們目前有一些研究性課題在與機(jī)構(gòu)合作,歡迎對此感興趣的專家共同建設(shè)。

許東:既然有了大模型,傳統(tǒng)的機(jī)器學(xué)習(xí)在醫(yī)學(xué)研究中還有意義嗎?

顧進(jìn)杰:意義非常大。大模型解決一般性問題,但在極專的領(lǐng)域,如通過語音識別判斷睡眠障礙,仍需要特殊的小模型。很多小模型可以基于大模型開發(fā),兩者是相輔相成的。

許東:今天的討論持續(xù)了兩個多小時,感謝三位嘉賓提供了極具洞察力的建議,無論是對研究者還是普通用戶都非常有啟發(fā)。感謝雷峰網(wǎng)和GAIR Live平臺的技術(shù)支持。今天的討論到此結(jié)束,謝謝大家!

呂樂、顧進(jìn)杰、胡鋼清:謝謝大家,再見。

完整視頻觀看地址:https://youtu.be/YiNBPmeQ7rs

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
真神仙專業(yè)!中國道教學(xué)院招生了,包含道教歷史與神仙等5個專業(yè),計劃招30名本科生,16名研究生

真神仙專業(yè)!中國道教學(xué)院招生了,包含道教歷史與神仙等5個專業(yè),計劃招30名本科生,16名研究生

觀威海
2026-03-21 15:43:14
輸北京!烏戈直指北京豪華陣容,點(diǎn)哈維三分打鐵,付豪總結(jié)第三節(jié)

輸北京!烏戈直指北京豪華陣容,點(diǎn)哈維三分打鐵,付豪總結(jié)第三節(jié)

籃球資訊達(dá)人
2026-03-21 22:42:19
好瘋!31+27!他破了58年的紀(jì)錄!

好瘋!31+27!他破了58年的紀(jì)錄!

柚子說球
2026-03-21 21:09:50
56歲虞美人集團(tuán)董事長與26歲男友大婚:陪嫁5000萬,男方身份被扒

56歲虞美人集團(tuán)董事長與26歲男友大婚:陪嫁5000萬,男方身份被扒

老貓觀點(diǎn)
2026-03-19 08:35:09
中美達(dá)成共識,48小時剛過,美方就宣布中國已經(jīng)增持了109億美債

中美達(dá)成共識,48小時剛過,美方就宣布中國已經(jīng)增持了109億美債

共工之錨
2026-03-21 14:51:18
戰(zhàn)爭第20天,終于打出了讓全世界屏住呼吸的一幕!

戰(zhàn)爭第20天,終于打出了讓全世界屏住呼吸的一幕!

浪子的煙火人間
2026-03-21 17:15:59
比披絲巾更可怕的是“瑜伽褲外穿”,廉價又卡襠,三角區(qū)更尷尬

比披絲巾更可怕的是“瑜伽褲外穿”,廉價又卡襠,三角區(qū)更尷尬

生命之泉的奧秘
2026-03-20 03:56:49
醫(yī)院院長落馬貪了七千萬,養(yǎng)了三十個情人,妻子一句話讓人沉默

醫(yī)院院長落馬貪了七千萬,養(yǎng)了三十個情人,妻子一句話讓人沉默

霧島夜話
2026-03-21 16:32:00
菲總統(tǒng)候選人莫雷諾:如果當(dāng)選,我會讓菲律賓成為下一個新加坡!

菲總統(tǒng)候選人莫雷諾:如果當(dāng)選,我會讓菲律賓成為下一個新加坡!

小丸說故事
2026-03-17 14:23:29
“1元購車”商家拒發(fā)貨,法院駁回消費(fèi)者訴請:交易合同不成立

“1元購車”商家拒發(fā)貨,法院駁回消費(fèi)者訴請:交易合同不成立

澎湃新聞
2026-03-21 18:06:33
中央定調(diào),延遲退休正式執(zhí)行,靈活就業(yè)參保繳15年可提前退休嗎?

中央定調(diào),延遲退休正式執(zhí)行,靈活就業(yè)參保繳15年可提前退休嗎?

另子維愛讀史
2026-03-20 18:41:44
《好好的時光》演員演技排名,李雪琴第2,梅婷倒數(shù),第1名最意外

《好好的時光》演員演技排名,李雪琴第2,梅婷倒數(shù),第1名最意外

小丸子的娛樂圈
2026-03-21 21:24:37
不是李夢!馳援女籃世界杯第1人或是她,21歲前鋒,有望取代功勛

不是李夢!馳援女籃世界杯第1人或是她,21歲前鋒,有望取代功勛

萌蘭聊個球
2026-03-21 09:52:17
快訊!為什么騰訊要不惜一切代價也要把抖音壓下來?

快訊!為什么騰訊要不惜一切代價也要把抖音壓下來?

達(dá)文西看世界
2026-03-21 19:17:46
硒是梨80倍!“肺部救星”大量上市,潤肺清腸,咳嗽悄悄消失

硒是梨80倍!“肺部救星”大量上市,潤肺清腸,咳嗽悄悄消失

無處遁形
2026-03-19 12:11:59
美媒分析:伊森已打完火箭最后賽季&為追求高薪和首發(fā)夏天會離隊

美媒分析:伊森已打完火箭最后賽季&為追求高薪和首發(fā)夏天會離隊

春日筆記
2026-03-22 01:58:36
1992年夏天,15歲的我被鄰居大姐姐喊去看碟片,屋里只有我們倆

1992年夏天,15歲的我被鄰居大姐姐喊去看碟片,屋里只有我們倆

千秋文化
2026-03-19 21:15:31
官方:德拉蒙德做不當(dāng)手勢,薩格斯朝觀眾扔牙套,均被罰款2.5萬美元

官方:德拉蒙德做不當(dāng)手勢,薩格斯朝觀眾扔牙套,均被罰款2.5萬美元

懂球帝
2026-03-22 03:06:05
92號汽油破9元,我卻更看清燃油車的好:它不省錢,但能救命

92號汽油破9元,我卻更看清燃油車的好:它不省錢,但能救命

音樂時光的娛樂
2026-03-21 22:36:52
阿拉伯國家譴責(zé)以色列

阿拉伯國家譴責(zé)以色列

參考消息
2026-03-21 21:46:09
2026-03-22 04:52:49
AI科技評論 incentive-icons
AI科技評論
點(diǎn)評學(xué)術(shù),服務(wù)AI
7134文章數(shù) 20742關(guān)注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機(jī)器人出貨量第一!

頭條要聞

伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細(xì)節(jié)披露

頭條要聞

伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細(xì)節(jié)披露

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩?qū)幗K于涼了?出軌風(fēng)波影響惡劣

財經(jīng)要聞

通脹警報拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態(tài)度原創(chuàng)

時尚
房產(chǎn)
健康
教育
本地

這個趨勢好適合亞洲人!不用花大錢也能跟

房產(chǎn)要聞

全城狂送1000杯咖啡!網(wǎng)易房產(chǎn)【早C計劃】,即刻啟動!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

教育要聞

南師附中舉行2026年31公里步行者行動

本地新聞

春色滿城關(guān)不住|紹興春日頂流,這片櫻花海藏不住了

無障礙瀏覽 進(jìn)入關(guān)懷版