337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

“專家人設(shè)”反而讓 AI 變笨?研究實(shí)錘:一句“你是資深工程師”,代碼準(zhǔn)確率不升反降!

0
分享至

編譯 | 鄭麗媛

出品 | CSDN(ID:CSDNnews)

如果你也經(jīng)常這樣寫(xiě) Prompt——

“你是一位資深全棧工程師,請(qǐng)幫我寫(xiě)一套生產(chǎn)級(jí)系統(tǒng)代碼……”

那這篇研究,可能會(huì)讓你重新審視自己的使用習(xí)慣。

一直以來(lái),“給 AI 加人設(shè)”幾乎成了默認(rèn)操作。從寫(xiě)代碼、寫(xiě)文檔,到做架構(gòu)設(shè)計(jì),不少開(kāi)發(fā)者都會(huì)在開(kāi)頭先“鋪墊一句”,試圖把模型“催眠”成一個(gè)更專業(yè)的版本。但問(wèn)題是:這種看似提升專業(yè)性的技巧,可能正在悄悄拉低結(jié)果質(zhì)量。

近日,一項(xiàng)來(lái)自美國(guó)南加州大學(xué)(USC)的最新研究,對(duì)這一做法給出了一個(gè)有些反直覺(jué)的結(jié)論:讓 AI 扮演“專家”,并不會(huì)讓它更擅長(zhǎng)解決專業(yè)問(wèn)題,反而在編程和數(shù)學(xué)任務(wù)上會(huì)明顯變差。(論文地址:https://arxiv.org/abs/2603.18507)



一項(xiàng)研究:為什么“專家人設(shè)”會(huì)翻車?

所謂“人設(shè)提示”(Persona-based Prompting),本質(zhì)上就是一種“角色扮演式”的 Prompt 技術(shù)。它的核心邏輯很簡(jiǎn)單:通過(guò)一句身份設(shè)定,讓模型進(jìn)入某種“工作狀態(tài)”。

這種方法在 2023 年開(kāi)始被廣泛討論,并迅速在開(kāi)發(fā)者社區(qū)流行開(kāi)來(lái)。無(wú)論是教程、課程,還是各種 Prompt 模板,幾乎都會(huì)建議你這樣寫(xiě):

● “你是一位經(jīng)驗(yàn)豐富的機(jī)器學(xué)習(xí)工程師……”

● “你是一名精通系統(tǒng)設(shè)計(jì)的架構(gòu)師……”

● “請(qǐng)以安全專家的視角分析以下問(wèn)題……”

理論上來(lái)說(shuō),這種方法似乎很合理。畢竟模型是“語(yǔ)言驅(qū)動(dòng)”的,那多給一點(diǎn)上下文,不就能讓它“更像專家”嗎?但來(lái)自南加州大學(xué)(USC)的研究人員在一篇論文中指出:

“人設(shè)提示是否有效,很大程度上要看任務(wù)類型。”

也就是說(shuō),并不是“加了人設(shè)就一定能變強(qiáng)”,而是“用對(duì)了才行”。具體來(lái)說(shuō),該研究團(tuán)隊(duì)將任務(wù)大致分成兩類:

(1)一類是依賴“對(duì)齊能力”的任務(wù),比如寫(xiě)作、角色扮演、遵守規(guī)則、安全策略等。在這些場(chǎng)景中,模型需要的是“行為符合預(yù)期”,而不是絕對(duì)正確的答案。

(2)一類則是依賴“知識(shí)和推理能力”的任務(wù),比如數(shù)學(xué)計(jì)算、代碼生成、事實(shí)問(wèn)答。這些任務(wù)則更依賴模型在預(yù)訓(xùn)練階段學(xué)到的知識(shí)儲(chǔ)備。

基于這兩類任務(wù),研究團(tuán)隊(duì)得到的實(shí)驗(yàn)結(jié)果為:在“人設(shè)提示”的加持下,第一類任務(wù)表現(xiàn)有所提升;但在第二類任務(wù)中,模型表現(xiàn)卻出現(xiàn)了系統(tǒng)性下降。


真正的問(wèn)題:它在“演”,而不是在“算”

為了量化這種影響,研究人員使用了一個(gè)經(jīng)典評(píng)測(cè)基準(zhǔn):MMLU(大規(guī)模多任務(wù)語(yǔ)言理解測(cè)試)。這個(gè)測(cè)試覆蓋多個(gè)學(xué)科,常被用來(lái)衡量大模型的綜合能力。

評(píng)測(cè)之后,結(jié)果非常直接:

● 不加“人設(shè)”:準(zhǔn)確率 71.6%

● 加“專家人設(shè)”:準(zhǔn)確率 68.0%

更重要的是,這種下降幾乎出現(xiàn)在所有學(xué)科類別中,而不僅僅是個(gè)別任務(wù)。這說(shuō)明了一個(gè)問(wèn)題:“人設(shè)提示”確實(shí)改變了模型的行為方式,但這種改變,并不總是好的。

對(duì)于這個(gè)結(jié)果,研究團(tuán)隊(duì)給出的解釋非常耐人尋味:

“人設(shè)前綴可能激活了模型的‘指令執(zhí)行模式’,從而擠占了原本用于‘事實(shí)回憶’的能力。”

解釋一下,從模型機(jī)制來(lái)看,大語(yǔ)言模型本質(zhì)上是在做“概率生成”。當(dāng)你告訴它“你是一位專家”,它并不會(huì)獲得任何新的知識(shí),也不會(huì)解鎖新的推理能力,但會(huì)進(jìn)入一種更偏“指令執(zhí)行”和“角色模擬”的模式。而這,就帶來(lái)了一個(gè)微妙但關(guān)鍵的變化:原本用于“從預(yù)訓(xùn)練數(shù)據(jù)中檢索事實(shí)”的能力,被部分“擠占”了。

簡(jiǎn)單來(lái)說(shuō),就是模型開(kāi)始更關(guān)注“如何像專家說(shuō)話”,而不是“答案本身是否正確”。這也是為什么在編程和數(shù)學(xué)任務(wù)中,“人設(shè)”反而成為了模型的負(fù)擔(dān)。

不過(guò),雖然準(zhǔn)確性下降,但在人類更關(guān)心的“安全”和“規(guī)范”上,人設(shè)提示確實(shí)有明顯幫助。

例如,在安全性測(cè)試中引入一個(gè)類似“安全審查員(Safety Monitor)”的人設(shè)后,模型拒絕惡意請(qǐng)求的能力將明顯提升。其中在 JailbreakBench 測(cè)試中:原始模型拒絕率為53.2%,但加了“人設(shè)”后拒絕率提升 17.7 個(gè)百分點(diǎn),變?yōu)?0.9%。


對(duì)開(kāi)發(fā)者來(lái)說(shuō),有點(diǎn)反直覺(jué)的結(jié)論

基于以上發(fā)現(xiàn),研究人員在論文中明確表示:

讓 AI 扮演“專家程序員”,不會(huì)提升代碼質(zhì)量或?qū)嵱眯浴?/blockquote>

這對(duì)很多開(kāi)發(fā)者來(lái)說(shuō),可能是一個(gè)需要“糾正”的習(xí)慣。

因?yàn)樵趯?shí)際使用中,大量開(kāi)發(fā)者的 Prompt 都包含類似話術(shù): “你是 Google 級(jí)別的架構(gòu)專家” 、 “你擁有 20 年開(kāi)發(fā)經(jīng)驗(yàn)”……這些描述看似增強(qiáng)了“專業(yè)性”,實(shí)際上并沒(méi)有給模型帶來(lái)任何實(shí)質(zhì)性的能力提升。

不過(guò)研究也指出,雖然“泛化的人設(shè)”沒(méi)什么用,但具體、細(xì)粒度的約束卻是有效的。例如:

● 明確前端框架(React / Vue)

● 指定架構(gòu)模式(微服務(wù) / 單體)

● 限定工具鏈(Docker / Kubernetes)

● 描述代碼風(fēng)格、接口規(guī)范

因?yàn)楸举|(zhì)上來(lái)說(shuō),這些屬于“對(duì)齊信息”、“需求約束”,而不是“身份設(shè)定”,它們的作用是幫助模型更好地對(duì)齊你的目標(biāo),而不是讓它“扮演某個(gè)人”。


一個(gè)更工程化的解法:PRISM

既然人設(shè)提示“有利有弊”,那有沒(méi)有辦法兩者兼顧呢?

針對(duì)這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一種新的方法,叫做 PRISM(基于意圖的人設(shè)路由機(jī)制)。它的核心思想有點(diǎn)像“動(dòng)態(tài)開(kāi)關(guān)”:一般情況下保持原始模型,主要確保知識(shí)與準(zhǔn)確性,僅在需要時(shí)啟用“人設(shè)行為”。

在實(shí)現(xiàn)上,它借助了一種叫 LoRA(低秩適配)的技術(shù),通過(guò)一個(gè)“門控機(jī)制”來(lái)自動(dòng)判斷使用哪種模式。簡(jiǎn)單來(lái)說(shuō),這就讓模型具備一種能力:該認(rèn)真的時(shí)候就認(rèn)真算,該演的時(shí)候再去演。

在論文的最后,研究人員總結(jié)了一條非常實(shí)用的經(jīng)驗(yàn)法則:

● 當(dāng)你更關(guān)心“對(duì)齊”(安全、格式、規(guī)則)時(shí)→可以加人設(shè),并具體描述要求;

● 當(dāng)你更關(guān)心“準(zhǔn)確性和事實(shí)”時(shí)→ 不要加任何設(shè)定,直接提問(wèn)。

某種程度上來(lái)說(shuō),“你是一位專家”這句話,本質(zhì)上更像是寫(xiě)給人看的,而不是寫(xiě)給模型看的——它滿足的是人類對(duì)“專業(yè)感”的心理預(yù)期,卻未必真能提升結(jié)果質(zhì)量。

有時(shí)候,想讓模型輸出得更好,并不用讓它“更像人”,而是盡量別干擾它本就擅長(zhǎng)的事情。

參考鏈接:https://www.theregister.com/2026/03/24/ai_models_persona_prompting/

110 萬(wàn)美金懸賞!

AMD 2026 線上黑客松大賽來(lái)襲

從 MXFP4 MoE 算子爆改,到真實(shí)千倍并發(fā)下的吞吐量極限拉扯

不看資歷,只看絕對(duì)速度

挑戰(zhàn)DeepSeek?R1/KimiK2.5極致并發(fā)

入圍即能拿 1 萬(wàn)美金

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
馬斯克把員工逼到極限:每天燒10萬(wàn)美元,但十年后每天賺1000萬(wàn)美元

馬斯克把員工逼到極限:每天燒10萬(wàn)美元,但十年后每天賺1000萬(wàn)美元

頂級(jí)大佬思維
2026-03-27 16:03:06
張雪峰被罵8年,走后全網(wǎng)才發(fā)現(xiàn):他說(shuō)的5句話是給普通人的保命符

張雪峰被罵8年,走后全網(wǎng)才發(fā)現(xiàn):他說(shuō)的5句話是給普通人的保命符

奇思妙想草葉君
2026-03-25 13:22:05
有沒(méi)有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒(méi)有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛(ài)雜談
2026-02-18 20:55:58
張雪峰追悼會(huì)!花束像花海,送行隊(duì)伍凌晨出發(fā),人多到望不到尾

張雪峰追悼會(huì)!花束像花海,送行隊(duì)伍凌晨出發(fā),人多到望不到尾

潮鹿逐夢(mèng)
2026-03-28 08:58:46
蔣介石孫子召開(kāi)發(fā)布會(huì),提出“兩蔣”移靈大陸,2句話讓世人唏噓

蔣介石孫子召開(kāi)發(fā)布會(huì),提出“兩蔣”移靈大陸,2句話讓世人唏噓

老謝談史
2026-03-18 18:33:35
8天狂轟12億票房,沈騰吳京加起來(lái)都打不過(guò),2026年度大黑馬誕生

8天狂轟12億票房,沈騰吳京加起來(lái)都打不過(guò),2026年度大黑馬誕生

卷史
2026-03-27 14:07:26
iPhone 50周年紀(jì)念版上架,真好看!

iPhone 50周年紀(jì)念版上架,真好看!

劉奔跑
2026-03-27 23:58:41
湖北6旬女子請(qǐng)屠夫殺豬時(shí),因說(shuō)了句豬腸沒(méi)處理干凈遭屠夫兒子砍殺,兇手被鑒定為精神病!家屬:沒(méi)收到任何道歉

湖北6旬女子請(qǐng)屠夫殺豬時(shí),因說(shuō)了句豬腸沒(méi)處理干凈遭屠夫兒子砍殺,兇手被鑒定為精神病!家屬:沒(méi)收到任何道歉

大風(fēng)新聞
2026-03-27 22:04:08
張雪峰經(jīng)典語(yǔ)錄:句句都是人間清醒

張雪峰經(jīng)典語(yǔ)錄:句句都是人間清醒

山東教育
2026-03-26 08:07:56
重磅!濱江道又一大型商場(chǎng)開(kāi)業(yè)時(shí)間定了!

重磅!濱江道又一大型商場(chǎng)開(kāi)業(yè)時(shí)間定了!

天津人
2026-03-28 07:28:28
電力行業(yè),具備“唯一性”的10家稀缺龍頭公司

電力行業(yè),具備“唯一性”的10家稀缺龍頭公司

新浪財(cái)經(jīng)
2026-03-27 09:07:07
美媒:美國(guó)防部考慮向中東增派1萬(wàn)人地面部隊(duì)

美媒:美國(guó)防部考慮向中東增派1萬(wàn)人地面部隊(duì)

新京報(bào)
2026-03-27 08:48:11
“LV老板娘”來(lái)香港彈琴,何超瓊捧場(chǎng)!嫁首富35年,穩(wěn)坐豪門C位

“LV老板娘”來(lái)香港彈琴,何超瓊捧場(chǎng)!嫁首富35年,穩(wěn)坐豪門C位

商務(wù)范
2026-03-27 18:45:58
難以置信!一個(gè)身高一米八的山東大漢,竟會(huì)被妻子打得不敢回家?

難以置信!一個(gè)身高一米八的山東大漢,竟會(huì)被妻子打得不敢回家?

川渝視覺(jué)
2026-03-27 16:26:59
“2000萬(wàn)違約金!小胖抖音開(kāi)播被警告!一下就廢了!去了233后才算主播!”

“2000萬(wàn)違約金!小胖抖音開(kāi)播被警告!一下就廢了!去了233后才算主播!”

新浪財(cái)經(jīng)
2026-03-28 09:06:32
伊朗換上了一個(gè)“極端狠人”

伊朗換上了一個(gè)“極端狠人”

兩岸觀點(diǎn)
2026-03-27 08:41:07
保衛(wèi)處招聘要求“京內(nèi)生源、碩士及以上學(xué)歷”,北師大回應(yīng):事業(yè)編制,不是“部分網(wǎng)友認(rèn)為的保安”

保衛(wèi)處招聘要求“京內(nèi)生源、碩士及以上學(xué)歷”,北師大回應(yīng):事業(yè)編制,不是“部分網(wǎng)友認(rèn)為的保安”

大象新聞
2026-03-27 20:45:06
霸凌奇觀,美國(guó)兩黨聯(lián)手圍攻中國(guó)運(yùn)動(dòng)員

霸凌奇觀,美國(guó)兩黨聯(lián)手圍攻中國(guó)運(yùn)動(dòng)員

雪中風(fēng)車
2026-02-26 08:25:05
美國(guó)誓言對(duì)付中國(guó)?

美國(guó)誓言對(duì)付中國(guó)?

陸棄
2026-03-27 08:55:03
不服就干!比利時(shí)打響反華第一槍,通告全球,要27國(guó)統(tǒng)一對(duì)華陣線

不服就干!比利時(shí)打響反華第一槍,通告全球,要27國(guó)統(tǒng)一對(duì)華陣線

愛(ài)史紀(jì)
2026-03-28 06:51:08
2026-03-28 10:44:49
CSDN incentive-icons
CSDN
成就一億技術(shù)人
26413文章數(shù) 242250關(guān)注度
往期回顧 全部

科技要聞

遭中國(guó)學(xué)界"拉黑"后,這家AI頂會(huì)低頭道歉

頭條要聞

前大廠員工開(kāi)"網(wǎng)絡(luò)賭場(chǎng)" 三個(gè)月吸金1900萬(wàn)

頭條要聞

前大廠員工開(kāi)"網(wǎng)絡(luò)賭場(chǎng)" 三個(gè)月吸金1900萬(wàn)

體育要聞

“我是全家最差勁的運(yùn)動(dòng)員”

娛樂(lè)要聞

范瑋琪加盟,官宣《浪姐7》遭全網(wǎng)抵制

財(cái)經(jīng)要聞

我在小吃培訓(xùn)機(jī)構(gòu)學(xué)習(xí)“科技與狠活”

汽車要聞

置換補(bǔ)貼價(jià)4.28萬(wàn)起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

數(shù)碼
時(shí)尚
健康
本地
手機(jī)

數(shù)碼要聞

全球存儲(chǔ)芯片短缺,索尼宣布暫停CFexpress及SD卡訂單

推廣中獎(jiǎng)名單-更新至2026年3月11日推廣

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

本地新聞

在濰坊待了三天,沒(méi)遇到一個(gè)“濰坊人”

手機(jī)要聞

全球首臺(tái)闊比例大折疊手機(jī)!華為Pura X2要改名

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版