337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI 醫(yī)療還在比進度,百川已在比高度

0
分享至


Baichuan-M3:以為醫(yī)療決策過程建模為核心,三項關鍵評測達到全球最優(yōu)水平。

作者丨鄭佳美

編輯丨岑峰

近一年來,AI 醫(yī)療正在進入一個明顯不同于以往的新階段。無論在國內還是海外,越來越多大型科技公司、醫(yī)藥企業(yè)和產(chǎn)業(yè)資本開始通過投資、并購或深度合作的方式,進入 AI 健康與醫(yī)療領域。

這背后并不只是對賽道規(guī)模的押注,而是一個更清晰的共識正在形成:醫(yī)療,正在成為少數(shù)真正需要、也能夠檢驗大模型能力上限的核心場景之一。

但現(xiàn)實問題同樣突出。盡管應用數(shù)量快速增長,受限于能力,真正能進入醫(yī)療核心流程的 AI依然有限。當前主流醫(yī)療大模型,大多仍建立在靜態(tài)問答或醫(yī)生角色扮演的范式之上,模型被要求給出看起來合理、語氣專業(yè)的回答,卻并不真正理解醫(yī)療決策是如何發(fā)生的。

在真實場景中,這類模型往往難以主動發(fā)現(xiàn)信息缺口,無法構建完整的醫(yī)學推理路徑,也缺乏對醫(yī)療幻覺的有效約束,最終只能反復輸出模糊而安全的高頻建議。這正是AI醫(yī)療看起來很熱,但落地很難的根本原因。

行業(yè)真正需要的,并不是更像醫(yī)生的回答,而是更接近醫(yī)療決策過程本身的模型能力。

百川給出的解法,正是從這一點切入。百川新一代醫(yī)療增強大語言模型 Baichuan-M3,沒有繼續(xù)強化問答或對話表現(xiàn),而是將訓練目標直接對準醫(yī)療決策過程本身。新的模型不再只負責生成結論,而是被訓練為能夠主動收集關鍵信息、構建醫(yī)學推理路徑,并在推理過程中持續(xù)抑制幻覺。這意味著,模型第一次被系統(tǒng)性地當作決策參與者,而不是回答生成器。

這種能力定義的變化,直接提升了模型在真實醫(yī)療場景中的可用性與可靠性。在多項醫(yī)療評測中,Baichuan-M3 已經(jīng)展現(xiàn)出超越當前國際主流模型的表現(xiàn),它的優(yōu)勢并不體現(xiàn)在表達更自然,而在于判斷更穩(wěn)定、推理更完整、風險更可控。

從更宏觀的角度看,百川的路徑,或許代表著 AI 醫(yī)療正在發(fā)生的一次重要轉向:行業(yè)關注點正從模型能不能回答醫(yī)學問題,轉向模型是否能被信任地嵌入醫(yī)療系統(tǒng)

當這一條件逐步成立,AI 醫(yī)療的價值,才可能真正從單點工具,演進為醫(yī)療體系中的基礎能力。

01
百川用三個SOTA破局AI臨床落地難題

在嚴肅醫(yī)療場景中,判斷一個大模型能不能真正用起來,關鍵并不在于它能不能給出一個看起來合理的答案,而在于它能不能在復雜、不確定、要求很高的情況下,穩(wěn)定走完整個醫(yī)療決策過程。

百川在新一代醫(yī)療增強大語言模型 Baichuan-M3 中,正是圍繞這一點做系統(tǒng)性設計的。模型的實際效果,主要體現(xiàn)在三個關鍵評測維度上,而且在這三個維度中都達到了當前行業(yè)的最好水平。

第一個維度,是HealthBench評估基準。HealthBench 是由 OpenAI 發(fā)布的醫(yī)療健康評測測試集,一共包含5000 組來自真實醫(yī)療場景的多輪對話,覆蓋了多種實際應用情況。它和常見的問答測試不一樣,不是看答得像不像,而是由 262 名醫(yī)生共同制定了 48,562 項評估標準,用來系統(tǒng)評估模型在連續(xù)問診、醫(yī)學推理和風險控制等方面的能力。這一基準,也是 OpenAI 用來評估自家最先進模型和醫(yī)療健康產(chǎn)品的重要參考,包括 GPT-5.2 和 ChatGPT Health。

在 HealthBench 及其高難度子集 HealthBench-Hard 的測試中,Baichuan-M3表現(xiàn)出了明顯的代際提升。和上一代模型 Baichuan-M2 相比,M3 在 HealthBench-Hard 上的得分提高了 27.9 個百分點,最終達到 44.4 分,并超過 GPT-5.2,刷新了這一基準的最好成績。同時,在HealthBench的綜合排行榜中,Baichuan-M3也排在第一位。這說明,在更復雜、更接近真實使用環(huán)境的醫(yī)療場景中,模型的穩(wěn)定性和一致性已經(jīng)明顯提高。


第二個維度,是對醫(yī)療幻覺的控制。降低幻覺一直是百川在醫(yī)療方向上的長期目標。此前在 Baichuan-M2 Plus 中,百川已經(jīng)驗證,通過六源證據(jù)體系引入外部證據(jù),可以在一定程度上緩解幻覺問題。 Baichuan-M3 更進一步,重點進一步前移到了模型本身,也就是在不使用外部工具、不做檢索增強的情況下,盡量減少模型僅憑內部知識生成時出現(xiàn)幻覺。


為此,百川采用了一種更嚴格的評估方式。模型生成的長文本,會被拆解成一條條可以核查的醫(yī)學判斷,再逐條和權威醫(yī)學來源進行比對,從而量化模型的事實準確性。

在這種無工具場景下的測試中,Baichuan-M3 的幻覺問題明顯減少,整體可靠性已經(jīng)超過 GPT-5.2。這意味著,模型在信息不充分時,不再急于給出結論,而是更傾向于收斂判斷、降低風險。


第三個維度,是端到端的嚴肅問診能力。為此,百川提出了“嚴肅問診范式”與“SCAN原則”,通過Safety Stratification(安全分層)、Clarity Matters(信息澄清)、Association & Inquiry(關聯(lián)追問)與 Normative Protocol(規(guī)范化輸出),將臨床問診中高度依賴經(jīng)驗的思維過程,第一次系統(tǒng)性地“白盒化”。

圍繞 SCAN 原則,百川借鑒醫(yī)學教育里長期使用的 OSCE 方法,聯(lián)合 150 多位一線醫(yī)生,搭建了 SCAN-bench 評測體系,這個體系以真實臨床經(jīng)驗作為“標準答案”,將診療過程拆解為病史采集、輔助檢查、精準診斷三大階段,通過動態(tài)、多輪的方式進行考核,完整模擬醫(yī)生從接診到確診的全過程。相比于 HealthBench,SCAN-bench 是更加全流程端到端的動態(tài)評測新范式。

同時,百川還使用原生模型訓練方法取代角色扮演 prompt,針對 GRPO 無法穩(wěn)定進行長對話訓練的問題,設計了新的SPAR 算法,使模型能夠在有限對話輪次中,把臨床真正需要的關鍵問題問全、問準,把風險兜住,讓輸出經(jīng)得起復核。


SCAN-bench的綜合評測中,Baichuan-M3 在臨床問診、實驗室檢查和疾病診斷三個核心環(huán)節(jié)中都排在第一位。

尤其是在最難、也最能拉開差距的臨床問診階段,Baichuan-M3 得到了 74.9 分,不僅比第二名模型 GPT-5.2-High 高出 12.4 分,也明顯高于 53.5 分的人類基線水平。在實驗室檢查建議和最終診斷兩個環(huán)節(jié),模型分別取得 72.1 分和 74.4 分,同樣保持最高準確率。這些結果說明,Baichuan-M3已經(jīng)具備從病史采集、檢查決策到最終診斷的完整醫(yī)療推理能力。


支撐這些結果的,是百川對醫(yī)療長決策鏈訓練方式的系統(tǒng)調整。在訓練中,復雜的診療流程被拆分成多個階段分別優(yōu)化,并通過分段流水線強化學習提高整體效率。同時,引入 SPAR 算法,對多輪對話中的每一步進行更精細的獎勵和約束,減少無效提問和邏輯跳躍,讓模型在保證準確率的同時,保持交互過程的連貫和可控。

在此基礎上,Baichuan-M3 把推理能力的提升和幻覺控制放在同一套工程目標中一起優(yōu)化。通過事實感知強化學習訓練架構,模型在提升推理能力的同時,引入對醫(yī)學事實的動態(tài)校驗機制,避免因為推理能力變強而放大幻覺風險。最終形成的,是一種既能深入推理、又足夠可靠的醫(yī)療服務能力。


整體來看,Baichuan-M3 在 HealthBench、幻覺評估和 SCAN-bench 三個維度上的領先,并不是零散成績,而是同一套設計思路在不同評測體系中的集中體現(xiàn)。當模型被訓練為真正理解醫(yī)療決策是如何一步步發(fā)生的,它在真實醫(yī)療場景中的長期使用價值,才真正開始成立。

02
真正的
AI醫(yī)療,不是一場短跑

如果把視角從單一模型或單次技術突破中抽離出來,放到更長的產(chǎn)業(yè)周期中去看,百川在醫(yī)療方向上的持續(xù)投入,本質上是一種少見但更具確定性的長期主義選擇

醫(yī)療從來不是 AI 最容易兌現(xiàn)價值的領域,它不允許快速試錯,也不接受模糊結論,對安全性、可解釋性和責任邊界都有近乎苛刻的要求。正因如此,醫(yī)療也成為少數(shù)幾個真正能夠逼迫大模型走出生成能力舒適區(qū)、檢驗其工程成熟度與系統(tǒng)可靠性的場景之一。

近一年來,國內外 AI 醫(yī)療的密集升溫,并不是偶然的市場情緒變化,而是多重因素疊加后的結果。一方面,大模型在推理、長鏈條決策和多輪交互上的能力開始逼近可用門檻,另一方面,醫(yī)療系統(tǒng)內部長期存在的信息割裂、效率瓶頸和結構性壓力,也在主動尋找新的技術解法。

這種供需在時間點上的重合,使 AI 醫(yī)療從是否可行的討論,逐步轉向如何進入核心流程的現(xiàn)實問題。在這一背景下,早期就選擇深度參與醫(yī)療的公司,開始顯現(xiàn)出路徑上的先發(fā)優(yōu)勢。

也正是在這一階段,行業(yè)內不同路徑之間的差異開始被放大。

一類玩家選擇用規(guī)模和連接來證明自身價值,通過強調日活用戶數(shù)量、資金投入規(guī)模以及連接了多少醫(yī)生和醫(yī)療資源,來展示自身的存在感。但如果整個行業(yè)都用這些產(chǎn)品經(jīng)理所熟悉的B端規(guī)模指標來衡量AI價值時,醫(yī)療AI其實正在陷入一種‘數(shù)據(jù)焦慮’。

從某種程度上說,這段時間一些原本以醫(yī)療為核心敘事的產(chǎn)品將重心轉向大健康領域,更多聚焦飲食管理、運動建議和情緒價值,同樣也是互聯(lián)網(wǎng)產(chǎn)品經(jīng)理數(shù)據(jù)焦慮的另一種體現(xiàn)。這種選擇能夠立竿見影地改善數(shù)據(jù),但客觀上回避了醫(yī)療中最困難、也最不可回避的核心問題,即診斷責任

在嚴肅醫(yī)療場景中,上述數(shù)據(jù)的優(yōu)勢和體驗的優(yōu)化,并不會自動轉化為診斷能力本身。AI 醫(yī)療或許并不需要另一個更親民的‘導診員’或‘掛號助手’,真正稀缺的是能夠像主治醫(yī)師一樣,在復雜病史中抽絲剝繭、構建推理路徑的‘決策大腦’。

相比于走向泛健康、泛陪伴的‘輕型助手’路徑,百川選擇了最難的一條路:硬碰硬地進入嚴肅醫(yī)療場景,把重心前移到模型能力上,關注的不是連接了多少醫(yī)生、患者,而是模型本身是否具備醫(yī)生級別的能力結構——醫(yī)療AI不應只是緩解焦慮的‘情緒搭子’,而應是解決病痛的‘科學工具’。

百川更看重的,不是優(yōu)化看病的流程,而是提升診斷的質量。

這也意味著,百川面對的并不是短期競爭,而是一場標準更高、周期更長的系統(tǒng)工程

嚴肅醫(yī)療要求模型不僅能夠給出結論,還必須在信息是否充分、判斷是否穩(wěn)健、風險是否可控等方面經(jīng)得起反復檢驗。這類能力很難通過簡單的模型堆疊或話術優(yōu)化獲得,而更依賴長期的訓練范式、評估體系和工程經(jīng)驗積累。這也是為什么,真正有能力進入醫(yī)療核心流程的AI系統(tǒng),始終屈指可數(shù)。

從這個意義上看,百川正在構建的并不僅是一代模型的領先優(yōu)勢,而是一套更底層的能力結構。它試圖讓 AI 從輔助工具,逐步轉變?yōu)榭梢员会t(yī)療系統(tǒng)理解、審核和接續(xù)的能力模塊。

這種結構一旦成立,價值就不會局限于某個產(chǎn)品或某次應用上線,而會在更長時間內持續(xù)釋放復利效應。它看起來很慢,但回報方式本身,更符合醫(yī)療系統(tǒng)的演進邏輯。

AI 醫(yī)療真正的分水嶺,或許不在于模型參數(shù)規(guī)模或單項指標的領先,而在于是否有足夠的耐心和判斷力,去承擔嚴肅醫(yī)療所必然伴隨的復雜性、約束與長期投入。當行業(yè)逐步從熱度回歸理性,那些真正圍繞醫(yī)療本身做系統(tǒng)性建設的路徑,才會開始顯現(xiàn)出不可替代的價值。百川正在押注的,正是這樣一個更長遠、也更具確定性的未來。

未經(jīng)「AI科技評論」授權,嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
丹麥被曝向格陵蘭島派遣部隊:必要時將炸毀機場跑道阻止美軍進入

丹麥被曝向格陵蘭島派遣部隊:必要時將炸毀機場跑道阻止美軍進入

澎湃新聞
2026-03-20 17:58:26
銅價大變局將至!三大信號齊發(fā),歷史或將再次上演

銅價大變局將至!三大信號齊發(fā),歷史或將再次上演

奇思妙想生活家
2026-03-21 19:11:01
荒唐不可怕,可怕的是荒唐了幾十年,沒人問一句“憑什么”!

荒唐不可怕,可怕的是荒唐了幾十年,沒人問一句“憑什么”!

阿離家居
2026-03-20 04:49:00
蔡國慶小兒子參加中國時裝周走秀,蔡國慶激動發(fā)文,兒子太優(yōu)秀了

蔡國慶小兒子參加中國時裝周走秀,蔡國慶激動發(fā)文,兒子太優(yōu)秀了

章眽八卦
2026-03-21 14:42:08
美媒:中國軍艦在仙賓礁用火控雷達照射了菲律賓最新型護衛(wèi)艦

美媒:中國軍艦在仙賓礁用火控雷達照射了菲律賓最新型護衛(wèi)艦

愛吃醋的貓咪
2026-03-21 22:11:00
以色列致命死穴曝光!一旦這里被摧毀,便可覆滅以色列全境

以色列致命死穴曝光!一旦這里被摧毀,便可覆滅以色列全境

紀中百大事
2026-03-19 09:59:24
韓國加入七國聯(lián)合聲明,譴責伊朗封鎖霍爾木茲海峽

韓國加入七國聯(lián)合聲明,譴責伊朗封鎖霍爾木茲海峽

界面新聞
2026-03-20 23:21:55
汪寶大名終定,全家三代投票折中,小菲的堅持戳中無數(shù)家長

汪寶大名終定,全家三代投票折中,小菲的堅持戳中無數(shù)家長

一口娛樂
2026-03-21 13:38:21
老人再婚后第一次圓房有何感想?67歲老人傾訴:她給了我很多驚喜

老人再婚后第一次圓房有何感想?67歲老人傾訴:她給了我很多驚喜

熱心柚子姐姐
2026-03-20 19:24:24
射程500誤差1500?武契奇:中國導彈太準了,我都有點不習慣

射程500誤差1500?武契奇:中國導彈太準了,我都有點不習慣

興史興談
2026-03-20 16:39:11
救命,除了床戲,還是床戲

救命,除了床戲,還是床戲

獨立魚
2026-03-21 21:06:14
悲催!45歲,47歲,42歲,網(wǎng)友哭訴接連倒了3個老師,評論區(qū)炸鍋

悲催!45歲,47歲,42歲,網(wǎng)友哭訴接連倒了3個老師,評論區(qū)炸鍋

火山詩話
2026-03-20 06:51:22
俄羅斯價值20億的A-50預警機被擊中,俄“空中大腦”被撕開缺口

俄羅斯價值20億的A-50預警機被擊中,俄“空中大腦”被撕開缺口

桂系007
2026-03-20 23:57:07
829.9公里!新一代小米SU7真實續(xù)航成績出爐 達成率92.2%

829.9公里!新一代小米SU7真實續(xù)航成績出爐 達成率92.2%

快科技
2026-03-21 13:28:06
出場數(shù)已達標!不出意外,以杜蘭特本賽季的表現(xiàn)保底最佳三陣!

出場數(shù)已達標!不出意外,以杜蘭特本賽季的表現(xiàn)保底最佳三陣!

田先生籃球
2026-03-21 13:03:30
你干過最舒服的工作是啥?網(wǎng)友:姐,你們公司還招人嗎

你干過最舒服的工作是啥?網(wǎng)友:姐,你們公司還招人嗎

帶你感受人間冷暖
2026-03-19 22:37:39
內塔尼亞胡失算了,擊中俄羅斯人后,普京一聲令下,以色列恐遭殃

內塔尼亞胡失算了,擊中俄羅斯人后,普京一聲令下,以色列恐遭殃

觸摸史跡
2026-03-21 03:58:23
29歲廣東男子南太行失聯(lián)數(shù)天續(xù):救援人員潛入瀑布打撈無果

29歲廣東男子南太行失聯(lián)數(shù)天續(xù):救援人員潛入瀑布打撈無果

南方都市報
2026-03-21 21:42:11
陳牧馳成功當?shù)耍?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-03-20 11:20:55
江蘇省政府副秘書長邱志強、楊新忠,擬任省級機關正職

江蘇省政府副秘書長邱志強、楊新忠,擬任省級機關正職

娛樂圈的筆娛君
2026-03-21 19:22:22
2026-03-21 23:27:00
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7134文章數(shù) 20742關注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機器人出貨量第一!

頭條要聞

達利歐:霍爾木茲海峽大決戰(zhàn)即將爆發(fā)

頭條要聞

達利歐:霍爾木茲海峽大決戰(zhàn)即將爆發(fā)

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩寧終于涼了?出軌風波影響惡劣

財經(jīng)要聞

通脹警報拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態(tài)度原創(chuàng)

家居
數(shù)碼
教育
手機
軍事航空

家居要聞

時空交織 空間綺夢

數(shù)碼要聞

炸鍋!國產(chǎn)存儲芯片再突破!手機固態(tài)價格大跳水,內存自由要來了

教育要聞

宋清輝錯了,你的孩子只是你的孩子,絕不會是別人的孩子

手機要聞

90Hz水滴屏歸來?曝中低端機測試中

軍事要聞

特朗普:正考慮逐步降級對伊朗的軍事行動

無障礙瀏覽 進入關懷版