337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

百川開源全球最強(qiáng)醫(yī)療大模型M3,「嚴(yán)肅問診」定義AI醫(yī)療新能力

0
分享至

勇礪商業(yè)評論 阿桶觀察 白麗

2026年1月13日,百川智能正式開源新一代醫(yī)療大模型 Baichuan-M3,其在全球最權(quán)威的醫(yī)療 AI 評測 HealthBench 中以 65.1 分的綜合成績位列全球第一;在專門考驗(yàn)復(fù)雜決策能力的 HealthBench Hard 上,也以44.4分的成績奪冠。這一成績,不僅刷新了 HealthBench 的最高分,更首次在醫(yī)療領(lǐng)域?qū)崿F(xiàn)了對 GPT-5.2 的全面超越。在OpenAI引以為傲的低幻覺領(lǐng)域,M3也實(shí)現(xiàn)了超越,幻覺率3.5全球最低。

此外,M3 還首次具備了原生的“端到端”嚴(yán)肅問診能力。它能像醫(yī)生一樣主動追問、逐層逼近,把關(guān)鍵病史和風(fēng)險(xiǎn)信號問出來,進(jìn)而在完整的信息上進(jìn)行深度醫(yī)學(xué)推理。評測顯示,其問診能力顯著高于真人醫(yī)生的平均水平。

Hugging Face 地址:https://huggingface.co/baichuan-inc/Baichuan-M3-235B

GitHub 地址:https://github.com/baichuan-inc/Baichuan-M3-235B

醫(yī)療溝通和推理能力超越 GPT-5.2,登頂世界第一

2025年5月份,OpenAI發(fā)布HealthBench,由 262 位來自 60 個(gè)國家的醫(yī)生共同構(gòu)建,收錄了 5000 組高度逼真的多輪醫(yī)療對話,構(gòu)建了全球最權(quán)威、也最貼近真實(shí)臨床場景的醫(yī)療評測集。這一事件,被視為 OpenAI 在醫(yī)療領(lǐng)域開始“重兵投入”,吹響進(jìn)軍醫(yī)療的號角。

相當(dāng)長一段時(shí)間里,無論是HealthBench總分還是 HealthBench-Hard 子集, GPT系列模型從未被超越。2025 年 8 月,百川開源醫(yī)療增強(qiáng)大模型 M2 在 HealthBench 上力壓 gpt-oss-120B、DeepSeek-R1 等同期所有開源模型,并在 HealthBench Hard 上取得 34.7 分的成績,僅次于GPT-5,成為全球唯二突破 32 分的模型。



2025年,強(qiáng)化學(xué)習(xí)無疑是新一代 Scaling Law 的技術(shù)中軸。在M2 發(fā)布后的五個(gè)月里,我們對強(qiáng)化學(xué)習(xí)系統(tǒng)進(jìn)行了全面升級,將原本以患者模擬器和靜態(tài) Rubric 為主的半動態(tài)反饋,升級為隨模型能力不斷演進(jìn)的全動態(tài) Verifier System。隨著監(jiān)督信號持續(xù)變細(xì)、變難,模型得以不斷突破能力上限,使 M3 在復(fù)雜醫(yī)學(xué)問題上的表現(xiàn)實(shí)現(xiàn)躍遷,不僅在 HealthBench 總分上超越 OpenAI 最新模型 GPT-5.2,也在 HealthBench Hard 上登頂,成為當(dāng)前全球醫(yī)療溝通和推理能力最強(qiáng)的醫(yī)療大模型。

重構(gòu)幻覺抑制的訓(xùn)練范式,刷新醫(yī)療幻覺率底線

幻覺是這一代大模型技術(shù)范式的通病,更是AI進(jìn)入嚴(yán)肅醫(yī)療的攔路虎。在大多數(shù)場景幻覺只是體驗(yàn)問題,而在嚴(yán)肅醫(yī)療場景可導(dǎo)致安全事件。

降低幻覺,一直是 OpenAI 最重視的研究方向之一。幾乎每一代 GPT 模型的幻覺率均為行業(yè)最低。OpenAI也是第一個(gè)單獨(dú)評測醫(yī)療能力和提供醫(yī)療服務(wù)的通用模型公司。

國內(nèi) DeepSeek等模型的普及,讓越來越多人開始使用AI并嘗試進(jìn)行醫(yī)療健康咨詢。但大多數(shù)模型公司并沒有把“降幻覺”提升到與推理、代碼等相同的高度。用這樣的模型獲取健康咨詢和診療建議,對AI醫(yī)療的普及和醫(yī)患信任建立帶來很大困擾。

百川M3將醫(yī)療幻覺抑制前移至模型訓(xùn)練階段,在強(qiáng)化學(xué)習(xí)過程中將醫(yī)學(xué)事實(shí)一致性作為核心訓(xùn)練目標(biāo)之一,將“知之為知之,不知為不知”直接作用于模型自身能力的形成過程。這一新的訓(xùn)練方法將醫(yī)學(xué)事實(shí)可靠性內(nèi)化為M3自身的基礎(chǔ)能力,使其在不借助任何外部系統(tǒng)的情況下,依然能夠基于自身醫(yī)學(xué)知識進(jìn)行穩(wěn)定、可信的作答。

通過將事實(shí)一致性約束融入訓(xùn)練流程,M3重構(gòu)了幻覺抑制的訓(xùn)練范式,在不依賴工具或檢索增強(qiáng)的純模型設(shè)置下,醫(yī)療幻覺率3.5,超越GPT-5.2,達(dá)到全球最低水平。



構(gòu)建「嚴(yán)肅問診」新能力,端到端問診超越真人醫(yī)生

除了強(qiáng)推理和低幻覺,端到端的問診能力是本次M3最重要的一項(xiàng)突破。2025年行業(yè)的技術(shù)共識是,用戶提供更完整的上下文,模型才有更好的表現(xiàn)。可在醫(yī)療領(lǐng)域,患者很難完整表達(dá)自己的病癥,需要模型像醫(yī)生一樣有能力把患者的混亂敘述轉(zhuǎn)變成可做診療決策的信息。

HealthBench代表了OpenAI對臨床場景的認(rèn)知高度,然而它本質(zhì)上是一個(gè)切片式的評測,考核的更像是“AI會不會回答問題”,而不是帶著診療目標(biāo),完整的患者信息收集。這也正說明了行業(yè)對問診重要性和建模思路的理解不足。

應(yīng)用實(shí)踐中,通過prompt“你是一位經(jīng)驗(yàn)豐富的醫(yī)生”,激活模型的“角色扮演”是更常見的做法。這種方式得到的是模型的表演行為,而非內(nèi)生能力,激活的是模型應(yīng)該提問的行為,而不是必須獲取關(guān)鍵信息的思考。例如,臨床醫(yī)生面對患者的第一反應(yīng),永遠(yuǎn)是先排除危急重癥,再考慮常規(guī)診療,這是刻在職業(yè)本能里的安全優(yōu)先級。但常見的“角色扮演”的問診方式,無法將“紅旗征識別與處置”作為核心行動原則。這種不圍繞關(guān)鍵風(fēng)險(xiǎn)點(diǎn)展開的信息收集,即便對話看似完整,也難以支撐安全、可靠的臨床判斷,從根本上偏離了醫(yī)療“安全第一”的原則。

針對這一行業(yè)困境,我們提出了“嚴(yán)肅問診范式”與“SCAN原則”,通過Safety Stratification(安全分層)、Clarity Matters(信息澄清)、Association & Inquiry(關(guān)聯(lián)追問)與Normative Protocol(規(guī)范化輸出),將臨床問診中高度依賴經(jīng)驗(yàn)的思維過程,第一次系統(tǒng)性地“白盒化”。

圍繞SCAN原則,我們借鑒醫(yī)學(xué)教育里長期使用的 OSCE 方法,聯(lián)合 150 多位一線醫(yī)生,搭建了 SCAN-bench 評測體系,該體系以真實(shí)臨床經(jīng)驗(yàn)作為“標(biāo)準(zhǔn)答案”,將診療過程拆解為病史采集、輔助檢查、精準(zhǔn)診斷三大階段,通過動態(tài)、多輪的方式進(jìn)行考核,完整模擬醫(yī)生從接診到確診的全過程。相比于HealthBench,SCAN-bench是更加全流程端到端的動態(tài)評測新范式。

同時(shí),我們還使用原生模型訓(xùn)練方法取代角色扮演prompt,針對GRPO無法穩(wěn)定進(jìn)行長對話訓(xùn)練的問題,設(shè)計(jì)了新的 SPAR 算法,使模型能夠在有限對話輪次中,把臨床真正需要的關(guān)鍵問題問全、問準(zhǔn),把風(fēng)險(xiǎn)兜住,讓輸出經(jīng)得起復(fù)核。

在實(shí)驗(yàn)過程中我們發(fā)現(xiàn),問診準(zhǔn)確度每增加2%,診療結(jié)果準(zhǔn)確度就會增加1%。評測結(jié)果顯示,M3 在SCAN的四個(gè)維度均顯著高于人類醫(yī)生基線水平,并大幅領(lǐng)先于國內(nèi)外頂尖模型,成功構(gòu)建了從精準(zhǔn)的臨床問詢、深度醫(yī)學(xué)推理到安全可靠決策的閉環(huán)。



從 1 月初 OpenAI 發(fā)布醫(yī)療產(chǎn)品 ChatGPT Health,到今天 Anthropic 推出 Claude for Healthcare,AI 醫(yī)療正在全球范圍內(nèi)提檔加速,競爭也正式進(jìn)入深水區(qū)。在這場競速中,作為國內(nèi)唯一專注醫(yī)療的大模型企業(yè),百川持續(xù)突破低幻覺率、端到端問診和復(fù)雜臨床推理等核心能力,已從“跟隨者”躍遷為行業(yè)“引領(lǐng)者”與新范式的“定義者”,正以硬核實(shí)力扛起中國 AI 醫(yī)療發(fā)展的旗幟。

我們的醫(yī)療應(yīng)用“百小應(yīng)”已同步接入 M3,面向醫(yī)生與患者開放相關(guān)能力。醫(yī)生可借助它推演問診與診療思路,患者及家屬也可通過該應(yīng)用更系統(tǒng)地理解診斷、治療、檢查與預(yù)后背后的醫(yī)學(xué)邏輯。(白麗)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
油價(jià)微漲1.8元/升

油價(jià)微漲1.8元/升

傳播真能量
2026-03-23 07:12:56
杜鋒深夜發(fā)聲!多角度強(qiáng)硬辯解,恩師親自站臺力挺,帥位穩(wěn)如泰山

杜鋒深夜發(fā)聲!多角度強(qiáng)硬辯解,恩師親自站臺力挺,帥位穩(wěn)如泰山

郝小小看體育
2026-03-23 14:27:13
伊朗攻勢如潮,以色列傷亡慘重,首次公開承認(rèn):無法攔截伊朗導(dǎo)彈

伊朗攻勢如潮,以色列傷亡慘重,首次公開承認(rèn):無法攔截伊朗導(dǎo)彈

阿芒娛樂說
2026-03-23 14:11:45
霍爾木茲斷航!第一個(gè)亞洲國家已斷糧倒下,下一個(gè)受害者浮出水面

霍爾木茲斷航!第一個(gè)亞洲國家已斷糧倒下,下一個(gè)受害者浮出水面

興史興談
2026-03-22 23:50:28
近7戰(zhàn)三分僅18中6啊!看到肯納德投進(jìn)絕殺,才懂克內(nèi)克特缺了什么

近7戰(zhàn)三分僅18中6??!看到肯納德投進(jìn)絕殺,才懂克內(nèi)克特缺了什么

小路看球
2026-03-23 14:35:46
衣服也要漲價(jià)了!油價(jià)帶動服裝原料暴漲:一夜?jié)q幅超20%

衣服也要漲價(jià)了!油價(jià)帶動服裝原料暴漲:一夜?jié)q幅超20%

快科技
2026-03-22 19:10:26
一票否決!歐盟內(nèi)部集體暴怒,德國總理當(dāng)場發(fā)話:這事沒完!

一票否決!歐盟內(nèi)部集體暴怒,德國總理當(dāng)場發(fā)話:這事沒完!

輝輝歷史記
2026-03-23 13:00:35
晚飯七分飽被推翻了?醫(yī)生調(diào)查:過了56歲,吃飯盡量要做到這5點(diǎn)

晚飯七分飽被推翻了?醫(yī)生調(diào)查:過了56歲,吃飯盡量要做到這5點(diǎn)

蜉蝣說
2026-02-03 15:00:19
瘋了!曼城雙巨星換巴薩神童,哈蘭德逼宮引爆重磅交易

瘋了!曼城雙巨星換巴薩神童,哈蘭德逼宮引爆重磅交易

奶蓋熊本熊
2026-03-23 06:59:39
女子打幼童骨折后續(xù): 身份被扒,1000元私了遭拒,家屬硬剛不和解

女子打幼童骨折后續(xù): 身份被扒,1000元私了遭拒,家屬硬剛不和解

潮鹿逐夢
2026-03-23 11:47:27
默克爾警告成真!俄烏沖突最大輸家已出現(xiàn):不是俄羅斯不是美國

默克爾警告成真!俄烏沖突最大輸家已出現(xiàn):不是俄羅斯不是美國

觸摸史跡
2026-03-23 14:33:00
美以伊開打20天,下一步最大威脅,是糧食和淡水危機(jī)

美以伊開打20天,下一步最大威脅,是糧食和淡水危機(jī)

紅星新聞
2026-03-19 18:45:22
中國不記隔夜仇!才23天巴拿馬港口就癱了,總統(tǒng)直呼請中方放過

中國不記隔夜仇!才23天巴拿馬港口就癱了,總統(tǒng)直呼請中方放過

丁丁鯉史紀(jì)
2026-03-23 11:07:18
雷克薩斯全新一代ES,預(yù)售30.88萬起

雷克薩斯全新一代ES,預(yù)售30.88萬起

懂車之道
2026-03-23 09:31:53
美國被嚴(yán)重“誤判”!全世界都在對我們?nèi)鲋e,真相很殘酷

美國被嚴(yán)重“誤判”!全世界都在對我們?nèi)鲋e,真相很殘酷

毛豆論道
2026-03-21 19:54:29
臺軍方放話,只要解放軍集結(jié)兵力準(zhǔn)備登陸,將遠(yuǎn)程打擊港口等目標(biāo)

臺軍方放話,只要解放軍集結(jié)兵力準(zhǔn)備登陸,將遠(yuǎn)程打擊港口等目標(biāo)

史料布籍
2026-03-23 14:09:58
我娶了單位32歲前臺,結(jié)婚半個(gè)月后董事長:你知道你老婆是啥人不

我娶了單位32歲前臺,結(jié)婚半個(gè)月后董事長:你知道你老婆是啥人不

千秋歷史
2026-03-12 19:18:12
今晚7點(diǎn)半!客戰(zhàn)上海,廣東兩大主力不給打!杜鋒最后救贖!輸球恐走人

今晚7點(diǎn)半!客戰(zhàn)上海,廣東兩大主力不給打!杜鋒最后救贖!輸球恐走人

King迪哥侃球
2026-03-23 14:27:09
A股大跌,等錨定新的估值,市場就會見底!

A股大跌,等錨定新的估值,市場就會見底!

童童讀財(cái)
2026-03-23 14:57:34
官宣確認(rèn)!克洛普重返安菲爾德已定,妻子態(tài)度決定他是否二度執(zhí)教

官宣確認(rèn)!克洛普重返安菲爾德已定,妻子態(tài)度決定他是否二度執(zhí)教

夜白侃球
2026-03-22 23:18:51
2026-03-23 15:27:00
曾憲勇 incentive-icons
曾憲勇
有趣的科技互聯(lián)網(wǎng)原創(chuàng)自媒體
738文章數(shù) 63關(guān)注度
往期回顧 全部

科技要聞

雷軍、蔡崇信最新發(fā)聲,提到同一件事

頭條要聞

以色列大規(guī)模轟炸伊首都基礎(chǔ)設(shè)施 德黑蘭彌漫刺鼻氣味

頭條要聞

以色列大規(guī)模轟炸伊首都基礎(chǔ)設(shè)施 德黑蘭彌漫刺鼻氣味

體育要聞

不敢放手一搏,你拿什么去爭冠?

娛樂要聞

劉燁47歲生日,安娜曬全家福為其慶生

財(cái)經(jīng)要聞

滬指跌逾3% 下跌個(gè)股近5100只

汽車要聞

嵐圖汽車香江鳴鑼 一場關(guān)于"國家隊(duì)"的突圍實(shí)驗(yàn)

態(tài)度原創(chuàng)

健康
旅游
教育
公開課
軍事航空

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

旅游要聞

貴州“櫻花海”又一次美到海外

教育要聞

青春期孩子,總是憤怒,無原由的憤怒

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗回應(yīng)美方威脅:將在戰(zhàn)場上堅(jiān)決對抗

無障礙瀏覽 進(jìn)入關(guān)懷版