網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

“專家人設(shè)”反而讓 AI 變笨？研究實(shí)錘：一句“你是資深工程師”，代碼準(zhǔn)確率不升反降！

2026-03-24 18:23:39　來(lái)源: CSDN

北京舉報(bào)

分享至

編譯 | 鄭麗媛

出品 | CSDN（ID：CSDNnews）

如果你也經(jīng)常這樣寫(xiě) Prompt——

“你是一位資深全棧工程師，請(qǐng)幫我寫(xiě)一套生產(chǎn)級(jí)系統(tǒng)代碼……”

那這篇研究，可能會(huì)讓你重新審視自己的使用習(xí)慣。

一直以來(lái)，“給 AI 加人設(shè)”幾乎成了默認(rèn)操作。從寫(xiě)代碼、寫(xiě)文檔，到做架構(gòu)設(shè)計(jì)，不少開(kāi)發(fā)者都會(huì)在開(kāi)頭先“鋪墊一句”，試圖把模型“催眠”成一個(gè)更專業(yè)的版本。但問(wèn)題是：這種看似提升專業(yè)性的技巧，可能正在悄悄拉低結(jié)果質(zhì)量。

近日，一項(xiàng)來(lái)自美國(guó)南加州大學(xué)（USC）的最新研究，對(duì)這一做法給出了一個(gè)有些反直覺(jué)的結(jié)論：讓 AI 扮演“專家”，并不會(huì)讓它更擅長(zhǎng)解決專業(yè)問(wèn)題，反而在編程和數(shù)學(xué)任務(wù)上會(huì)明顯變差。（論文地址：https://arxiv.org/abs/2603.18507）

一項(xiàng)研究：為什么“專家人設(shè)”會(huì)翻車？

所謂“人設(shè)提示”（Persona-based Prompting），本質(zhì)上就是一種“角色扮演式”的 Prompt 技術(shù)。它的核心邏輯很簡(jiǎn)單：通過(guò)一句身份設(shè)定，讓模型進(jìn)入某種“工作狀態(tài)”。

這種方法在 2023 年開(kāi)始被廣泛討論，并迅速在開(kāi)發(fā)者社區(qū)流行開(kāi)來(lái)。無(wú)論是教程、課程，還是各種 Prompt 模板，幾乎都會(huì)建議你這樣寫(xiě)：

● “你是一位經(jīng)驗(yàn)豐富的機(jī)器學(xué)習(xí)工程師……”

● “你是一名精通系統(tǒng)設(shè)計(jì)的架構(gòu)師……”

● “請(qǐng)以安全專家的視角分析以下問(wèn)題……”

理論上來(lái)說(shuō)，這種方法似乎很合理。畢竟模型是“語(yǔ)言驅(qū)動(dòng)”的，那多給一點(diǎn)上下文，不就能讓它“更像專家”嗎？但來(lái)自南加州大學(xué)（USC）的研究人員在一篇論文中指出：

“人設(shè)提示是否有效，很大程度上要看任務(wù)類型。”

也就是說(shuō)，并不是“加了人設(shè)就一定能變強(qiáng)”，而是“用對(duì)了才行”。具體來(lái)說(shuō)，該研究團(tuán)隊(duì)將任務(wù)大致分成兩類：

（1）一類是依賴“對(duì)齊能力”的任務(wù)，比如寫(xiě)作、角色扮演、遵守規(guī)則、安全策略等。在這些場(chǎng)景中，模型需要的是“行為符合預(yù)期”，而不是絕對(duì)正確的答案。

（2）一類則是依賴“知識(shí)和推理能力”的任務(wù)，比如數(shù)學(xué)計(jì)算、代碼生成、事實(shí)問(wèn)答。這些任務(wù)則更依賴模型在預(yù)訓(xùn)練階段學(xué)到的知識(shí)儲(chǔ)備。

基于這兩類任務(wù)，研究團(tuán)隊(duì)得到的實(shí)驗(yàn)結(jié)果為：在“人設(shè)提示”的加持下，第一類任務(wù)表現(xiàn)有所提升；但在第二類任務(wù)中，模型表現(xiàn)卻出現(xiàn)了系統(tǒng)性下降。

真正的問(wèn)題：它在“演”，而不是在“算”

為了量化這種影響，研究人員使用了一個(gè)經(jīng)典評(píng)測(cè)基準(zhǔn)：MMLU（大規(guī)模多任務(wù)語(yǔ)言理解測(cè)試）。這個(gè)測(cè)試覆蓋多個(gè)學(xué)科，常被用來(lái)衡量大模型的綜合能力。

評(píng)測(cè)之后，結(jié)果非常直接：

● 不加“人設(shè)”：準(zhǔn)確率 71.6%

● 加“專家人設(shè)”：準(zhǔn)確率 68.0%

更重要的是，這種下降幾乎出現(xiàn)在所有學(xué)科類別中，而不僅僅是個(gè)別任務(wù)。這說(shuō)明了一個(gè)問(wèn)題：“人設(shè)提示”確實(shí)改變了模型的行為方式，但這種改變，并不總是好的。

對(duì)于這個(gè)結(jié)果，研究團(tuán)隊(duì)給出的解釋非常耐人尋味：

“人設(shè)前綴可能激活了模型的‘指令執(zhí)行模式’，從而擠占了原本用于‘事實(shí)回憶’的能力。”

解釋一下，從模型機(jī)制來(lái)看，大語(yǔ)言模型本質(zhì)上是在做“概率生成”。當(dāng)你告訴它“你是一位專家”，它并不會(huì)獲得任何新的知識(shí)，也不會(huì)解鎖新的推理能力，但會(huì)進(jìn)入一種更偏“指令執(zhí)行”和“角色模擬”的模式。而這，就帶來(lái)了一個(gè)微妙但關(guān)鍵的變化：原本用于“從預(yù)訓(xùn)練數(shù)據(jù)中檢索事實(shí)”的能力，被部分“擠占”了。

簡(jiǎn)單來(lái)說(shuō)，就是模型開(kāi)始更關(guān)注“如何像專家說(shuō)話”，而不是“答案本身是否正確”。這也是為什么在編程和數(shù)學(xué)任務(wù)中，“人設(shè)”反而成為了模型的負(fù)擔(dān)。

不過(guò)，雖然準(zhǔn)確性下降，但在人類更關(guān)心的“安全”和“規(guī)范”上，人設(shè)提示確實(shí)有明顯幫助。

例如，在安全性測(cè)試中引入一個(gè)類似“安全審查員（Safety Monitor）”的人設(shè)后，模型拒絕惡意請(qǐng)求的能力將明顯提升。其中在 JailbreakBench 測(cè)試中：原始模型拒絕率為53.2%，但加了“人設(shè)”后拒絕率提升 17.7 個(gè)百分點(diǎn)，變?yōu)?0.9%。

對(duì)開(kāi)發(fā)者來(lái)說(shuō)，有點(diǎn)“反直覺(jué)”的結(jié)論

基于以上發(fā)現(xiàn)，研究人員在論文中明確表示：

讓 AI 扮演“專家程序員”，不會(huì)提升代碼質(zhì)量或?qū)嵱眯浴?/blockquote>
這對(duì)很多開(kāi)發(fā)者來(lái)說(shuō)，可能是一個(gè)需要“糾正”的習(xí)慣。
因?yàn)樵趯?shí)際使用中，大量開(kāi)發(fā)者的 Prompt 都包含類似話術(shù)： “你是 Google 級(jí)別的架構(gòu)專家” 、 “你擁有 20 年開(kāi)發(fā)經(jīng)驗(yàn)”……這些描述看似增強(qiáng)了“專業(yè)性”，實(shí)際上并沒(méi)有給模型帶來(lái)任何實(shí)質(zhì)性的能力提升。
不過(guò)研究也指出，雖然“泛化的人設(shè)”沒(méi)什么用，但具體、細(xì)粒度的約束卻是有效的。例如：
● 明確前端框架（React / Vue）
● 指定架構(gòu)模式（微服務(wù) / 單體）
● 限定工具鏈（Docker / Kubernetes）
● 描述代碼風(fēng)格、接口規(guī)范
因?yàn)楸举|(zhì)上來(lái)說(shuō)，這些屬于“對(duì)齊信息”、“需求約束”，而不是“身份設(shè)定”，它們的作用是幫助模型更好地對(duì)齊你的目標(biāo)，而不是讓它“扮演某個(gè)人”。

一個(gè)更工程化的解法：PRISM
既然人設(shè)提示“有利有弊”，那有沒(méi)有辦法兩者兼顧呢？
針對(duì)這個(gè)問(wèn)題，研究團(tuán)隊(duì)提出了一種新的方法，叫做 PRISM（基于意圖的人設(shè)路由機(jī)制）。它的核心思想有點(diǎn)像“動(dòng)態(tài)開(kāi)關(guān)”：一般情況下保持原始模型，主要確保知識(shí)與準(zhǔn)確性，僅在需要時(shí)啟用“人設(shè)行為”。
在實(shí)現(xiàn)上，它借助了一種叫 LoRA（低秩適配）的技術(shù)，通過(guò)一個(gè)“門控機(jī)制”來(lái)自動(dòng)判斷使用哪種模式。簡(jiǎn)單來(lái)說(shuō)，這就讓模型具備一種能力：該認(rèn)真的時(shí)候就認(rèn)真算，該演的時(shí)候再去演。
在論文的最后，研究人員總結(jié)了一條非常實(shí)用的經(jīng)驗(yàn)法則：
● 當(dāng)你更關(guān)心“對(duì)齊”（安全、格式、規(guī)則）時(shí)→可以加人設(shè)，并具體描述要求；
● 當(dāng)你更關(guān)心“準(zhǔn)確性和事實(shí)”時(shí)→ 不要加任何設(shè)定，直接提問(wèn)。
某種程度上來(lái)說(shuō)，“你是一位專家”這句話，本質(zhì)上更像是寫(xiě)給人看的，而不是寫(xiě)給模型看的——它滿足的是人類對(duì)“專業(yè)感”的心理預(yù)期，卻未必真能提升結(jié)果質(zhì)量。
有時(shí)候，想讓模型輸出得更好，并不用讓它“更像人”，而是盡量別干擾它本就擅長(zhǎng)的事情。
參考鏈接：https://www.theregister.com/2026/03/24/ai_models_persona_prompting/
110 萬(wàn)美金懸賞！
AMD 2026 線上黑客松大賽來(lái)襲
從 MXFP4 MoE 算子爆改，到真實(shí)千倍并發(fā)下的吞吐量極限拉扯
不看資歷，只看絕對(duì)速度
挑戰(zhàn)DeepSeek?R1/KimiK2.5極致并發(fā)
入圍即能拿 1 萬(wàn)美金

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.