337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

「你是專家」竟成AI幻覺毒藥?新論文一巴掌揭穿提示詞最大騙局

0
分享至


新智元報道

編輯:KinHZ 元宇

【新智元導讀】AI最強幻覺,原來不是不會,而是太會「裝會」。 「你是專家」這句咒語,可能騙了整個AI圈一年。

人生如戲,全靠演技,但AI不行——

最新論文證實,「讓AI裝專家」會可測量、持續地降低模型的準確率


鏈接:https://arxiv.org/pdf/2603.18507

過去一年,AI圈最成功的騙局之一,可能就是這句話:

你是XX專家。

無數教程把它吹成神級提示詞。

這句話幾乎被包裝成了大模型時代的「黑魔法」:只要人設立住,AI就會突然開竅。

但現在,最新論文給了所有人一記耳光:

這句神提示詞,可能根本不是外掛,而是毒藥

研究發現,當AI被要求扮演「專家」時,它并不總是更聰明,反而會更像一個堅持人設的「假專家」:

不愿承認不知道,不愿暴露猶豫,不愿停下來仔細想,最后選擇用一種極其專業、極其自信、極其像那么回事的方式, 把錯話說圓。


圖 1: 專家角色在不同模型、任務類型、信息粒度及位置的影響分析

上圖1中給出的結果非常直觀:

長專家人設在5個生成類別上有顯著提升,但在硬核的MMLU知識基準上,加了人設后準確率全面跌破71.6%的基線,哪怕是最短的人設也掉到了68.0%,而詳細的長版本人設更是慘跌至66.3%。

安全場景則相反,「安全監督員」人設能顯著提高拒絕越獄攻擊的概率,在JailbreakBench上拒答率從53.2%升到70.9%。

因此,這篇論文最值得關注的一個地方,不只是它提出了「專家人設可能有害」,而是進一步解釋了:為什么過去關于Persona Prompting(人格提示)的研究,結論總會相互矛盾

幻覺的開端

當你對大模型念出「你是專家」

研究人員發現,Persona Prompting的效果并不是全方位的增益。

它的表現強烈依賴任務類型、模型訓練方式、提示長度,以及人設到底放在system prompt還是user prompt里。

研究者把任務大致分成兩類:

  • 一類是「判別式任務」,更依賴預訓練記憶,比如事實檢索、知識判斷、多項選擇題;

  • 另一類是「生成式任務」,更依賴對齊能力,比如格式遵循、風格控制、安全拒答、人類偏好匹配。

結果顯示:

在安全防御、偏好對齊等「生成式任務」上,專家人設確實是個好工具。

但在知識檢索、事實判斷這類極度依賴預訓練記憶的「判別式任務」上,專家人設卻成了拖后腿的。


大模型「偏科」熱力圖:藍色代表能力提升,紅色代表能力受損。在普通指令微調模型(左圖)中,大量出現的紅色色塊顯示:所謂的專家人設正在全面破壞模型的客觀知識準確度。

換句話說,專家人設提升的,很多時候不是「真實性」,而是「對齊感」

在MT-Bench這類更偏生成質量的任務里,專家人設能提升寫作、角色扮演、抽取、STEM表達等類別表現。

但到了MMLU這種更依賴知識檢索的基準上,所有專家人設版本都在掉分。

這解釋了一個很多用戶都曾遇到過、但又說不清的體驗:

為什么同一個模型,寫郵件時像個訓練有素的顧問;一到數學、事實核查、代碼細節,反而一本正經地胡說八道?

因為它真的更像專家了,但未必更擅長把底層記憶準確調出來。

論文里甚至給了個很諷刺的例子。

擲兩枚骰子,點數和至少為3的概率是多少?不加數學人設時,模型基本答對,給出35/36。

加了數學專家人設后,它卻開始一本正經地列步驟,最后把簡單概率題算錯。

你能明顯感覺到,它不是不會「表演數學家」,而是太像在「做數學的樣子」了。

我們獎勵的是「像專家」,還是「答得對」?

今天很多用戶判斷一個模型好不好,第一標準并不是「它是不是更接近事實」,而是「它是不是說得穩、說得順、說得像專業人士」。

只要它結構完整、術語到位、語氣沉著,用戶就會天然提高信任度。

這正是大模型最危險的一類幻覺:不是胡說八道,而是用極其專業的方式說錯話

從訓練邏輯看,預訓練階段,大模型主要學到的是知識記憶、模式統計、事實關聯、語言規律;后續的指令微調和RLHF,則更多在塑造它「怎么說」「怎么更像人類偏好的回答者」。

論文的關鍵判斷就在這里:

專家人設本質上更容易激活的是后者,也就是風格、格式、意圖跟隨和安全邊界這些對齊能力;但當任務需要的是直接、精準地調用預訓練知識時,額外的人設上下文可能反而會干擾檢索。

你可以把它理解成一種「對齊稅」:模型為了更符合你期待中的專家樣子,犧牲了一部分事實調用的準確度

相關研究也反復證實,Persona Prompting并不總能帶來穩定提升,有時甚至會因為引入了不相關的人格屬性而產生難以預料的負面影響。

所以,真正的問題其實不在于「人設」本身,而在于我們把風格控制、價值對齊、事實判斷、推理求解,這些完全不同的任務,粗暴塞給了同一種Persona機制。

讓模型在寫一封安撫用戶的郵件時像個成熟顧問,沒毛病。

讓模型在面對危險請求時像個安全審查員,也沒毛病。

但讓它在做概率題、答醫學事實、查法律條文時,先進入一段長長的「專家角色扮演」,這可能從一開始就走錯了方向。

救贖之道

路由分配才是正解

那是不是從此以后,專家人設就該扔掉?

當然不是。

如前文提到的,研究人員同時發現,專家人設在「生成式任務」等更依賴對齊能力的特定場景下仍然具有不可替代的價值。

所以,核心關鍵根本不是「用不用」,而是「什么時候用」。

為了解決這個痛點,研究人員發明了PRISM算法(Persona Routing via Intent-based Self-Modeling,基于意圖的自舉人格路由)。

這個系統不給AI固定一個角色,而是先看懂用戶真實意圖,再動態路由分配正確人設。


圖中展示了兩種自動選擇專家角色的方法。PRISM通過LoRA適配器動態分配合適人設,無需外部資源即可保留對齊益處、維持判別任務準確性

PRISM的核心思路非常精妙:

它不再在推理時給模型生硬地套上專家Prompt,而是把所有專家人設中有益的部分,提前「濃縮蒸餾」到了一個輕量化的門控LoRA適配器(Gated LoRA Adapter)中。

在真正面對用戶問題時,PRISM的門控機制只做一道極簡的二元選擇題:

開啟「專家外掛」,還是退回 「樸素模式」。

用戶問「幫我寫代碼」或「進行高情商安撫」,系統判定需要對齊能力,門控瞬間激活LoRA適配器,調出內化好的專家水平;

用戶問「客觀數學計算」或「事實核查」,系統判定人設會產生干擾,門控立刻關閉適配器,讓未經修飾的基座模型用最純粹的預訓練記憶去準確作答。

整個PRISM提取過程不需要額外數據、額外模型、額外算力。

成本并不高,訓練一個門控單LoRA版本,在A100上大約45分鐘,額外開銷也比較小。

具體而言,PRISM訓練流程分為五大階段:

(1) 以人設提示詞為條件生成查詢;

(2) 按人設作答,生成多種人設下的回復;

(3) 通過成對比較進行自驗證,從而篩選蒸餾數據集;

(4) 進行路由器/門控模塊訓練,學習基于意圖的路由機制,以判斷何時啟用人設會更有幫助;

(5) 通過LoRA進行自蒸餾,讓模型內化這些人設行為。

PRISM想做的不是讓AI「更會演」,而是「該演的時候演,該準的時候準」。

結果很炸裂:

在保持極低算力開銷的同時,大模型終于能在「高情商生成」與「硬核知識檢索」之間實現絲滑切換。

PRISM不僅在生成式任務上大幅提升了人類偏好與安全對齊得分,還完美保住了判別式任務的客觀準確率。


Qwen等五個模型及MT-Bench等三個基準維度上的綜合評估

在Qwen2.5-7B上,單純做專家提示時,整體分數是72.2,和基線71.8差不多,說明「有得有失,基本互相抵消」。

但PRISM能把整體拉到73.5,MT-Bench從7.56提到7.76,同時把MMLU維持在71.7%,基本不傷知識準確率。

Mistral-7B上更明顯:

專家提示會把整體表現從79.9打到71.4,但PRISM可以做到81.5,甚至高于基線。Llama-3.1-8B上,PRISM也把Overall從67.5提高到70.3。

這意味著:提示工程的下一階段,可能不再是「寫一個更長、更唬人的專家人設prompt」,而是「把任務拆清楚,再決定是否啟用人格化對齊」。

這時,PRISM像聰明的中介,先看清問題本質,再派對的人上場。

大模型這時的表現既專業,又老實,再也不會去用錯誤換好評。

行動起來

就現在

所以,別再第一句話就喊「你是專家」,試著把PRISM這樣的動態路由用起來。

讓AI根據問題真正需要什么角色,而不是永遠戴同一張面具。


圖4:在Qwen2.5-7B-Instruct模型上,門控網絡將查詢路由至LoRA的比例與各類別在專家角色影響下的表現之間的關系

如果你是開發者,請開始關注PRISM這樣的底層意圖路由機制,讓模型在權重層面就學會「該演就演,該準就準」。

如果你是普通用戶,現在就可以行動。

打開對話框,在遇到硬核知識核查、邏輯推演時,把那句自作聰明的「專家咒語」果斷刪掉。

換成一句最干凈的指令:「請一步步客觀推演,如果不確定就直接告訴我」。

少給AI加戲,它才能真正開始思考。

而你,也會第一次聽到它說真話。

參考資料:

https://x.com/sukh_saroy/status/2035761644270411994?s=20%20

https://arxiv.org/abs/2603.18507

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
繼母燙幼子下體逼吃大便 姐弟慘遭虐待生母怒討說法

繼母燙幼子下體逼吃大便 姐弟慘遭虐待生母怒討說法

大象新聞
2026-03-25 12:09:04
遼寧高速127個收費站關閉

遼寧高速127個收費站關閉

娛樂圈見解說
2026-03-26 10:28:08
猝死三件套:熬夜、咖啡、跑步——人生最后一課

猝死三件套:熬夜、咖啡、跑步——人生最后一課

水滴的聲音
2026-03-25 08:36:43
人民日報痛批大學生 “沉睡” 現象:躺平四年,畢業真的會失業!

人民日報痛批大學生 “沉睡” 現象:躺平四年,畢業真的會失業!

復轉這些年
2026-03-25 10:02:32
5分鐘開通國家免費電視!不用機頂盒、不連網,永久免費

5分鐘開通國家免費電視!不用機頂盒、不連網,永久免費

叮當當科技
2026-03-20 03:29:51
張雪峰被曝心臟驟停搶救,前一天還在大魚大肉,一人吃6個菜

張雪峰被曝心臟驟停搶救,前一天還在大魚大肉,一人吃6個菜

映射生活的身影
2026-03-24 18:27:44
上海滬牌,基本停發了

上海滬牌,基本停發了

侃故事的阿慶
2026-03-24 18:13:29
第21次1000賽四強!薩巴倫卡橫掃晉級,背靠背躋身陽光雙賽半決賽

第21次1000賽四強!薩巴倫卡橫掃晉級,背靠背躋身陽光雙賽半決賽

全景體育V
2026-03-26 08:39:10
2387億一夜歸零!江蘇前首富“凈身出戶”?曾被許家印坑了200億

2387億一夜歸零!江蘇前首富“凈身出戶”?曾被許家印坑了200億

次元君情感
2026-03-26 04:49:41
4月1日起執行!高血壓糖尿病患者注意這3件事現在辦,看病少花錢

4月1日起執行!高血壓糖尿病患者注意這3件事現在辦,看病少花錢

觀星賞月
2026-03-26 09:17:28
美軍司令:一旦臺海戰爭打響,6個航母戰斗群2個陸戰師將全都出動

美軍司令:一旦臺海戰爭打響,6個航母戰斗群2個陸戰師將全都出動

混沌錄
2026-03-24 22:31:03
河南00后游戲主播因手長得像“奶龍”卻打出五殺戰績火了,本人回應:是天生殘疾,一開始很自卑

河南00后游戲主播因手長得像“奶龍”卻打出五殺戰績火了,本人回應:是天生殘疾,一開始很自卑

大象新聞
2026-03-25 19:45:06
特朗普支持率公布

特朗普支持率公布

第一財經資訊
2026-03-25 08:31:57
“感謝中產家庭,讓我偶爾能洗頭,”12歲女孩低認知炫耀,被群嘲

“感謝中產家庭,讓我偶爾能洗頭,”12歲女孩低認知炫耀,被群嘲

妍妍教育日記
2026-03-23 20:06:00
張天愛太豐滿了!穿掛脖裙兜不住好身材,真讓人心動!

張天愛太豐滿了!穿掛脖裙兜不住好身材,真讓人心動!

東方不敗然多多
2026-03-09 06:31:29
姆巴佩:無法想象沒有內馬爾的世界杯,但我也不能去反對安帥

姆巴佩:無法想象沒有內馬爾的世界杯,但我也不能去反對安帥

懂球帝
2026-03-26 07:00:47
公安部172號令落地:70歲駕照不再終身有效,2026年這些事必須辦

公安部172號令落地:70歲駕照不再終身有效,2026年這些事必須辦

小怪吃美食
2026-03-24 17:29:52
獨立百年的蒙古國,正在把中國人40年的努力悄悄毀掉

獨立百年的蒙古國,正在把中國人40年的努力悄悄毀掉

犀利辣椒
2026-03-19 06:40:31
上海為什么能成為中國的F1"痛城"?

上海為什么能成為中國的F1"痛城"?

新浪財經
2026-03-25 14:12:26
江蘇一女子嫌婆婆寄的咸菜臟,轉手送給了領導,誰料,半個月后推開領導辦公室大門,眼前一幕讓她愣住!

江蘇一女子嫌婆婆寄的咸菜臟,轉手送給了領導,誰料,半個月后推開領導辦公室大門,眼前一幕讓她愣住!

不二大叔
2026-03-25 21:36:11
2026-03-26 11:36:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
14817文章數 66720關注度
往期回顧 全部

科技要聞

硅谷因AI大裁員?一線工程師戳破真相

頭條要聞

上海36歲女子嫁23歲小伙 拿千萬元房產99%份額"閃離"

頭條要聞

上海36歲女子嫁23歲小伙 拿千萬元房產99%份額"閃離"

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰遺產分割復雜!是否立遺囑成關鍵

財經要聞

黃仁勛:芯片公司的時代已經結束了

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

教育
藝術
時尚
房產
本地

教育要聞

ISAR選修課丨重磅古典占星預測課程:整合6大預測技法,從入門到實戰

藝術要聞

哪一座橋不是風景?

《非窮盡列舉》,好看又絕望

房產要聞

41億!259畝!建學校…三亞這個大城更,最新方案曝光!

本地新聞

來永泰同安 赴一場春天的約會

無障礙瀏覽 進入關懷版