337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

百川M3醫療大模型開源,「嚴肅問診」定義AI醫療新能力

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區,始終堅持“中立、開放、共建、共創、合作”五項基本原則,歡迎加入共同成長。

新一代醫療大模型 Baichuan-M3正式開源,其在全球最權威的醫療 AI 評測 HealthBench 中以 65.1 分的綜合成績位列全球第一;在專門考驗復雜決策能力的 HealthBench Hard 上,也以44.4分的成績奪冠。這一成績,不僅刷新了 HealthBench 的最高分,更首次在醫療領域實現了對 GPT-5.2 的全面超越。在OpenAI引以為傲的低幻覺領域,M3也實現了超越,幻覺率3.5全球最低。

此外,M3 還首次具備了原生的“端到端”嚴肅問診能力。它能像醫生一樣主動追問、逐層逼近,把關鍵病史和風險信號問出來,進而在完整的信息上進行深度醫學推理。評測顯示,其問診能力顯著高于真人醫生的平均水平。Baichuan-M3已上線始智AI-wisemodel開源社區,歡迎大家前去體驗。


項目地址

https://wisemodel.cn/models/Baichuan-inc/Baichuan-M3-235B

01.

醫療溝通和推理能力超越GPT-5.2,

登頂世界第一

2025年5月份,OpenAI發布HealthBench,由 262 位來自 60 個國家的醫生共同構建,收錄了 5000 組高度逼真的多輪醫療對話,構建了全球最權威、也最貼近真實臨床場景的醫療評測集。這一事件,被視為 OpenAI 在醫療領域開始“重兵投入”,吹響進軍醫療的號角。

相當長一段時間里,無論是HealthBench總分還是 HealthBench-Hard 子集, GPT系列模型從未被超越。2025 年 8 月,百川開源醫療增強大模型 M2 在 HealthBench 上力壓 gpt-oss-120B、DeepSeek-R1 等同期所有開源模型,并在 HealthBench Hard 上取得 34.7 分的成績,僅次于GPT-5,成為全球唯二突破 32 分的模型。


2025年,強化學習無疑是新一代 Scaling Law 的技術中軸。在M2 發布后的五個月里,對強化學習系統進行了全面升級,將原本以患者模擬器和靜態 Rubric 為主的半動態反饋,升級為隨模型能力不斷演進的全動態 Verifier System。隨著監督信號持續變細、變難,模型得以不斷突破能力上限,使 M3 在復雜醫學問題上的表現實現躍遷,不僅在 HealthBench 總分上超越 OpenAI 最新模型 GPT-5.2,也在 HealthBench Hard 上登頂,成為當前全球醫療溝通和推理能力最強的醫療大模型。

02.

重構幻覺抑制的訓練范式,

刷新醫療幻覺率底線

幻覺是這一代大模型技術范式的通病,更是AI進入嚴肅醫療的攔路虎。在大多數場景幻覺只是體驗問題,而在嚴肅醫療場景可導致安全事件。

降低幻覺,一直是 OpenAI 最重視的研究方向之一。幾乎每一代 GPT 模型的幻覺率均為行業最低。OpenAI也是第一個單獨評測醫療能力和提供醫療服務的通用模型公司。

國內 DeepSeek等模型的普及,讓越來越多人開始使用AI并嘗試進行醫療健康咨詢。但大多數模型公司并沒有把“降幻覺”提升到與推理、代碼等相同的高度。用這樣的模型獲取健康咨詢和診療建議,對AI醫療的普及和醫患信任建立帶來很大困擾。

百川M3將醫療幻覺抑制前移至模型訓練階段,在強化學習過程中將醫學事實一致性作為核心訓練目標之一,將“知之為知之,不知為不知”直接作用于模型自身能力的形成過程。這一新的訓練方法將醫學事實可靠性內化為M3自身的基礎能力,使其在不借助任何外部系統的情況下,依然能夠基于自身醫學知識進行穩定、可信的作答。

通過將事實一致性約束融入訓練流程,M3重構了幻覺抑制的訓練范式,在不依賴工具或檢索增強的純模型設置下,醫療幻覺率3.5,超越GPT-5.2,達到全球最低水平。


03.

構建“嚴肅問診”新能力,

端到端問診超越真人醫生

除了強推理和低幻覺,端到端的問診能力是本次M3最重要的一項突破。2025年行業的技術共識是,用戶提供更完整的上下文,模型才有更好的表現。可在醫療領域,患者很難完整表達自己的病癥,需要模型像醫生一樣有能力把患者的混亂敘述轉變成可做診療決策的信息。

HealthBench代表了OpenAI對臨床場景的認知高度,然而它本質上是一個切片式的評測,考核的更像是“AI會不會回答問題”,而不是帶著診療目標,完整的患者信息收集。這也正說明了行業對問診重要性和建模思路的理解不足。

應用實踐中,通過prompt“你是一位經驗豐富的醫生”,激活模型的“角色扮演”是更常見的做法。這種方式得到的是模型的表演行為,而非內生能力,激活的是模型應該提問的行為,而不是必須獲取關鍵信息的思考。例如,臨床醫生面對患者的第一反應,永遠是先排除危急重癥,再考慮常規診療,這是刻在職業本能里的安全優先級。但常見的“角色扮演”的問診方式,無法將“紅旗征識別與處置”作為核心行動原則。這種不圍繞關鍵風險點展開的信息收集,即便對話看似完整,也難以支撐安全、可靠的臨床判斷,從根本上偏離了醫療“安全第一”的原則。

針對這一行業困境,團隊提出了“嚴肅問診范式”與“SCAN原則”,通過Safety Stratification(安全分層)、Clarity Matters(信息澄清)、Association & Inquiry(關聯追問)與Normative Protocol(規范化輸出),將臨床問診中高度依賴經驗的思維過程,第一次系統性地“白盒化”。

圍繞SCAN原則,借鑒醫學教育里長期使用的 OSCE 方法,聯合 150 多位一線醫生,搭建了 SCAN-bench 評測體系,該體系以真實臨床經驗作為“標準答案”,將診療過程拆解為病史采集、輔助檢查、精準診斷三大階段,通過動態、多輪的方式進行考核,完整模擬醫生從接診到確診的全過程。相比于HealthBench,SCAN-bench是更加全流程端到端的動態評測新范式。

同時,還使用原生模型訓練方法取代角色扮演prompt,針對GRPO無法穩定進行長對話訓練的問題,設計了新的 SPAR 算法,使模型能夠在有限對話輪次中,把臨床真正需要的關鍵問題問全、問準,把風險兜住,讓輸出經得起復核。

在實驗過程中發現,問診準確度每增加2%,診療結果準確度就會增加1%。評測結果顯示,M3 在SCAN的四個維度均顯著高于人類醫生基線水平,并大幅領先于國內外頂尖模型,成功構建了從精準的臨床問詢、深度醫學推理到安全可靠決策的閉環。


從 1 月初 OpenAI 發布醫療產品 ChatGPT Health,到今天 Anthropic 推出 Claude for Healthcare,AI 醫療正在全球范圍內提檔加速,競爭也正式進入深水區。在這場競速中,作為國內唯一專注醫療的大模型企業,百川持續突破低幻覺率、端到端問診和復雜臨床推理等核心能力,已從“跟隨者”躍遷為行業“引領者”與新范式的“定義者”,正以硬核實力扛起中國 AI 醫療發展的旗幟。

醫療應用“百小應”已同步接入 M3,面向醫生與患者開放相關能力。醫生可借助它推演問診與診療思路,患者及家屬也可通過該應用更系統地理解診斷、治療、檢查與預后背后的醫學邏輯。

編輯:成蘊年

----- END -----

wisemodel相關:

系列模型:


關于wisemodel更多


1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
49歲舒淇承認求子九年:拼盡全力后的和解,才是人生最通透圓滿

49歲舒淇承認求子九年:拼盡全力后的和解,才是人生最通透圓滿

魔都姐姐雜談
2026-03-30 12:24:35
英德同時對美展現立場,特朗普僅剩一條路可走

英德同時對美展現立場,特朗普僅剩一條路可走

史政先鋒
2026-03-30 07:11:46
秦皇島阿那亞現罕見“帶狀”海市蜃樓,拍攝者:像積木搭成的火車,還有船只在浮動

秦皇島阿那亞現罕見“帶狀”海市蜃樓,拍攝者:像積木搭成的火車,還有船只在浮動

極目新聞
2026-03-29 12:15:15
大雨!雷暴大風!江蘇最新預測

大雨!雷暴大風!江蘇最新預測

無錫eTV全媒體
2026-03-30 16:22:39
香港男子繼承妻家15000套房,年收租300億成香港首富

香港男子繼承妻家15000套房,年收租300億成香港首富

觀察者海風
2026-03-30 10:44:38
養魚界最強王者!廣東男子因把帶魚養活5天而爆紅,網友驚嘆圍觀

養魚界最強王者!廣東男子因把帶魚養活5天而爆紅,網友驚嘆圍觀

觀察鑒娛
2026-03-29 09:59:48
中國斬釘截鐵,就是要日本賠罪,軍官侵館第4天,防衛大臣行動了

中國斬釘截鐵,就是要日本賠罪,軍官侵館第4天,防衛大臣行動了

老謝談史
2026-03-29 01:20:29
人口告別世界第一?二孩催生無效后,國家終于向住房出手了

人口告別世界第一?二孩催生無效后,國家終于向住房出手了

豬小艷吖
2026-03-16 19:59:46
東北虎這么強,為啥不敢進入西伯利亞深處?它也有害怕的東西嗎?

東北虎這么強,為啥不敢進入西伯利亞深處?它也有害怕的東西嗎?

向航說
2026-03-29 00:45:03
茶水是心梗“加速器”?醫生:不想心臟出問題,這幾種茶一定少喝

茶水是心梗“加速器”?醫生:不想心臟出問題,這幾種茶一定少喝

健康之光
2026-03-28 16:00:09
佤族為國守邊1720年,卻在1953年致信毛主席:若不要我們,請告知

佤族為國守邊1720年,卻在1953年致信毛主席:若不要我們,請告知

小莜讀史
2026-03-29 21:47:54
曝托納利提出加盟曼聯條件!不會為轉會施壓紐卡,最少也要7000萬

曝托納利提出加盟曼聯條件!不會為轉會施壓紐卡,最少也要7000萬

羅米的曼聯博客
2026-03-30 11:45:33
剛送別張雪峰,11歲女兒收到第一張江湖令!

剛送別張雪峰,11歲女兒收到第一張江湖令!

職場火鍋
2026-03-30 15:42:03
首任駐香港部隊司令員,劉鎮武能領到多少工資?

首任駐香港部隊司令員,劉鎮武能領到多少工資?

歸史
2026-03-27 17:39:21
7分24秒打出31-0!保羅被裁44天后,猛龍大勝52分,就差一點啊!

7分24秒打出31-0!保羅被裁44天后,猛龍大勝52分,就差一點啊!

Haviven聊球
2026-03-30 16:32:18
55歲雪姨王琳cos冰雪女王炸場上海時裝周,這狀態是吃了防腐劑吧

55歲雪姨王琳cos冰雪女王炸場上海時裝周,這狀態是吃了防腐劑吧

觀魚聽雨
2026-03-29 16:26:45
拉莫斯40歲生日:求職被拒?干脆把塞維利亞買下來!

拉莫斯40歲生日:求職被拒?干脆把塞維利亞買下來!

仰臥撐FTUer
2026-03-30 15:35:04
李在明召開全軍會議,宣布韓國將從美國手中,收回戰時作戰指揮權

李在明召開全軍會議,宣布韓國將從美國手中,收回戰時作戰指揮權

知法而形
2026-03-30 14:34:57
中央轉移支付再超10萬億!四川、河南、湖南、湖北、河北,分得最多

中央轉移支付再超10萬億!四川、河南、湖南、湖北、河北,分得最多

城市財經
2026-03-30 11:47:41
饒毅:中國產出的科學垃圾,絕對數量和比例都世界第一

饒毅:中國產出的科學垃圾,絕對數量和比例都世界第一

生物學霸
2026-03-29 17:09:59
2026-03-30 16:56:49
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

DeepSeek性能異常問題已解決,服務恢復

頭條要聞

單套最低5400萬 北京豪宅暴雷幾十戶業主辦不了房產證

頭條要聞

單套最低5400萬 北京豪宅暴雷幾十戶業主辦不了房產證

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

油價沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態度原創

教育
時尚
游戲
本地
藝術

教育要聞

義務教育搖號“可以操作”?教育局辟謠:典型騙局,請別入坑!

來到1980的周也,好毛利蘭

白天撿垃圾、晚上守家的多人肉鴿!《佩布爾騎士》發售信息公布!

本地新聞

用Color Walk的方式解鎖城市春日

藝術要聞

600 年前的「產亡孤魂」,藏著中國女性最痛的記憶

無障礙瀏覽 進入關懷版