337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司

<nav id="oooo0"></nav>

<tr id="oooo0"></tr>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

識別過度自信大語言模型的更優方法

2026-03-19 20:34:08　來源: 至頂頭條

北京舉報

0

分享至

大語言模型能夠生成看似可信但實際不準確的回應，因此研究人員開發了不確定性量化方法來檢驗預測的可靠性。一種流行的方法是多次提交相同的提示，觀察模型是否生成相同答案。

但這種方法測量的是自信度，即使最先進的大語言模型也可能自信地犯錯。過度自信會誤導用戶對預測準確性的判斷，在醫療或金融等高風險領域可能導致嚴重后果。

為解決這一不足，麻省理工學院研究人員引入了一種新方法，用于測量不同類型的不確定性，能更可靠地識別自信但錯誤的大語言模型回應。

他們的方法涉及將目標模型的回應與一組相似大語言模型的回應進行比較。研究發現，測量跨模型分歧比傳統方法更準確地捕獲了這種類型的不確定性。

研究團隊將他們的方法與大語言模型自一致性測量相結合，創建了總不確定性指標，并在10項實際任務中進行評估，包括問答和數學推理。這一總不確定性指標持續優于其他測量方法，更擅長識別不可靠的預測。

麻省理工學院電氣工程與計算機科學研究生、論文第一作者Kimia Hamidieh表示："自一致性被廣泛應用于不確定性量化的不同方法中，但如果你的不確定性估計僅依賴單一模型的結果，就不一定可信。我們回到起點理解當前方法的局限性，并以此為出發點設計了一種補充方法，能夠在實證上改善結果。"

理解過度自信現象

許多流行的不確定性量化方法涉及要求模型提供置信度分數或測試其對相同提示回應的一致性。這些方法估計的是偶然不確定性，即模型對自身預測的內部信心程度。

然而，大語言模型在完全錯誤時也可能表現自信。研究表明，當模型過度自信時，認知不確定性（即是否使用正確模型的不確定性）可能是評估真實不確定性的更好方式。

麻省理工學院研究人員通過測量一組相似大語言模型間的分歧來估計認知不確定性。

Hamidieh解釋道："如果我多次向ChatGPT問同一個問題，它反復給出相同答案，這并不意味著答案必然正確。如果我轉向Claude或Gemini問同樣問題并得到不同答案，這會讓我感受到認知不確定性。"

認知不確定性試圖捕獲目標模型與該任務理想模型的偏離程度。但由于無法構建理想模型，研究人員使用的替代品或近似方法往往依賴有缺陷的假設。

為改進不確定性量化，麻省理工學院研究人員需要更準確的認知不確定性估計方法。

集成方法

他們開發的方法涉及測量目標模型與具有相似規模和架構的小型模型集成間的分歧。研究發現，比較語義相似性（即回應含義的匹配程度）能提供更好的認知不確定性估計。

為獲得最準確的估計，研究人員需要一組覆蓋多樣化回應、與目標模型不過于相似、且基于可信度加權的大語言模型。

Hamidieh說："我們發現滿足所有這些特性的最簡單方法是選擇不同公司訓練的模型。我們嘗試了許多更復雜的方法，但這種非常簡單的方法最終效果最好。"

開發出估計認知不確定性的方法后，他們將其與測量偶然不確定性的標準方法結合。這一總不確定性指標提供了對模型置信水平是否可信的最準確反映。

Hamidieh表示："不確定性既取決于給定提示的不確定性，也取決于我們的模型與最優模型的接近程度。這就是為什么將這兩種不確定性指標相加能給我們最佳估計的原因。"

總不確定性指標能更有效地識別大語言模型出現幻覺的情況，因為認知不確定性可以標記偶然不確定性可能遺漏的自信錯誤輸出。它還能讓研究人員在訓練期間強化大語言模型的自信正確答案，這可能提升性能。

研究團隊使用多個大語言模型在10項常見任務上測試了總不確定性指標，包括問答、摘要、翻譯和數學推理。他們的方法比單獨使用任一測量方法更有效地識別了不可靠預測。

測量總不確定性通常比計算偶然不確定性需要更少查詢，這能降低計算成本并節約能源。

實驗還揭示，認知不確定性在具有唯一正確答案的任務（如事實性問答）上最有效，但在更開放性任務上可能表現不佳。

未來，研究人員可以調整技術以改善在開放性查詢上的表現。他們也可能在此基礎上探索其他形式的偶然不確定性。

這項工作部分由麻省理工學院-IBM沃森人工智能實驗室資助。

Q&A

Q1：什么是大語言模型的過度自信問題？

A：大語言模型的過度自信是指模型在生成錯誤答案時仍表現出很高的置信度。即使是最先進的大語言模型也可能自信地犯錯，這會誤導用戶對預測準確性的判斷，在醫療或金融等高風險領域可能導致嚴重后果。

Q2：麻省理工學院的新方法如何識別不可靠的模型回應？

A：新方法通過測量跨模型分歧來估計認知不確定性，即將目標模型的回應與不同公司訓練的相似大語言模型進行比較。然后將這種方法與傳統的自一致性測量結合，形成總不確定性指標，能更準確地識別自信但錯誤的預測。

Q3：總不確定性指標在哪些任務上效果最好？

A：總不確定性指標在具有唯一正確答案的任務上最有效，如事實性問答、數學推理等。但在更開放性的任務上可能表現不佳。研究人員正在改進技術以提升在開放性查詢上的表現。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

“媽，門口要錢，我們就不進去看你了”，游客在壺口瀑布外拍視頻被投訴侵權，山西壺口瀑布景區：事發地是陜西壺口瀑布，我們也是受害者

觀威海 2026-03-18 14:47:02
38488 跟貼 38488
重慶市市長胡衡華，被查

新京報政事兒 2026-03-20 14:09:55
560 跟貼 560

漲瘋了有商家暫停接單上海人慌了：最近正是剛需

上觀新聞 2026-03-20 15:10:07
238 跟貼 238

上海市中心知名醫院要“沒了”？網友感嘆曾經“早上5點去排隊搶號”；醫生發文“世上再無”，最新情況→

新民晚報 2026-03-20 19:27:19
626 跟貼 626
油價將迎“史詩級漲幅”！加滿一箱95號汽油要花近500元

大象新聞 2026-03-20 14:44:06
326 跟貼 326

本世紀僅有三次！春分巧遇“龍抬頭”，這些事別忘了做

齊魯壹點 2026-03-20 06:49:31
994 跟貼 994

老撾多地鬧"油荒" 萬象華人:九成加油站無油可加

極目新聞 2026-03-20 19:05:14
658 跟貼 658
出場數歷史第一！詹姆斯：這真的很不容易我在背后付出了很多

北青網-北京青年報 2026-03-20 21:17:03
23 跟貼 23

漲價！浙江姑娘腸子悔青，去年沒下單今年貴5000元！老板：可能還要漲

浙江之聲 2026-03-20 13:26:35
322 跟貼 322
南京樓市新政：對年底前完成“賣舊買新”的購房人給予貸款總金額1%的貼息，貼息總資金1億元

澎湃新聞 2026-03-20 18:08:26
38 跟貼 38
殲-20、殲-16、殲-10C“三龍”聚首，云端亮劍！

環球網資訊 2026-03-20 10:56:00
144 跟貼 144
上海科技館一展板現多個錯別字？館方回應：屬實，已撤下重新制作

上游新聞 2026-03-20 14:04:10
223 跟貼 223
山姆爆款三文魚，讓全國網友“破防”！專家：是享受還是“引蟲入室”，看包裝這串代碼

都市快報橙柿互動 2026-03-20 20:15:26
58 跟貼 58
7只狗被偷走后掉在公路上，結伴而行跨越17公里走回家，志愿者回應：幾只狗狗是鄰居，一直在一起玩耍，已安全到家

揚子晚報 2026-03-20 07:44:08
1253 跟貼 1253
第二艘國產大型郵輪“愛達·花城號”出塢

央視新聞客戶端 2026-03-20 13:06:26
348 跟貼 348
女子機場豪邁喝酒微醺上飛機：扔了可惜，喝的時候旁邊的人都驚了

星視頻 2026-03-20 12:58:28
94 跟貼 94
道路運輸從業人員年齡上限今起放寬至63歲

央視新聞客戶端 2026-03-20 09:39:20
902 跟貼 902
美國或向中東增派數千名士兵

新華社 2026-03-20 22:31:09
581 跟貼 581
男子在店里吃飯遇粘人貍花貓反復靠腿

江西晨報 2026-03-20 11:16:58
121 跟貼 121
應縣木塔即將全部拆卸落地大修？官方回應（2026·03·20）

今日辟謠 2026-03-20 17:58:08
54 跟貼 54
踏青賞花享春光

環球網資訊 2026-03-18 07:45:54
1307 跟貼 1307
六國發表聯合聲明：準備采取措施保障霍爾木茲海峽安全

財聯社 2026-03-19 23:54:08
0 跟貼 0

1991年蘇聯解體，叛逃少將馬爾果夫申請回國，我國做出了什么決定

1991年蘇聯解體，叛逃少將馬爾果夫申請回國，我國做出了什么決定

嘮叨說歷史

2026-03-18 15:22:11

柯文哲點名新竹恐翻盤！陳見賢競辦：不脫黨參選、藍營團結就能勝

柯文哲點名新竹恐翻盤！陳見賢競辦：不脫黨參選、藍營團結就能勝

新時光點滴

2026-03-21 01:19:02

唐國強沒說謊！演藝圈變天，普通演員或無戲可拍，馮遠征全說中了

唐國強沒說謊！演藝圈變天，普通演員或無戲可拍，馮遠征全說中了

杰絲聊古今

2026-03-21 01:13:21

伊朗外長：未來幾天將慶祝勝利

鳳凰衛視

2026-03-17 11:29:03

眉眼含情，這才是頂級東方顏值

情感大頭說說

2026-03-20 19:19:13

背靠背三雙又刷6紀錄！41歲詹皇19+15+10蓋世里程碑復出5戰全勝

背靠背三雙又刷6紀錄！41歲詹皇19+15+10蓋世里程碑復出5戰全勝

顏小白的籃球夢

2026-03-20 10:48:51

原來它才是今天最慘的股，高開高走似反彈，結果尾盤20cm直線跌停

原來它才是今天最慘的股，高開高走似反彈，結果尾盤20cm直線跌停

有范又有料

2026-03-20 18:14:58

山姆回應調整退貨政策：新政策不涉及退貨期調整

山姆回應調整退貨政策：新政策不涉及退貨期調整

界面新聞

2026-03-20 15:17:21

暴跌40%，關店4000家！曾創神話的“零食界愛馬仕”，賣不動了

暴跌40%，關店4000家！曾創神話的“零食界愛馬仕”，賣不動了

好賢觀史記

2026-03-02 20:17:10

對學生敲骨吸髓的谷文萍，請站出來說幾句

對學生敲骨吸髓的谷文萍，請站出來說幾句

廖保平

2026-03-18 10:52:44

世界公開賽4強決出2席！吳宜澤5-1大勝艾倫，火箭5-0改寫22年歷史

世界公開賽4強決出2席！吳宜澤5-1大勝艾倫，火箭5-0改寫22年歷史

小火箭愛體育

2026-03-20 16:03:39

聯合國前主席揭示：中國風俗獨特，世界難以復制的文化信仰

聯合國前主席揭示：中國風俗獨特，世界難以復制的文化信仰

音樂時光的娛樂

2026-03-20 17:11:07

學醫后才知道，肺癌最危險信號，不是咳不停，而是頻繁的4個跡象

學醫后才知道，肺癌最危險信號，不是咳不停，而是頻繁的4個跡象

荊醫生科普

2026-03-20 16:01:23

社保繳滿15年在家坐等退休行不行？評論區網友徹底淪陷，炸鍋了

社保繳滿15年在家坐等退休行不行？評論區網友徹底淪陷，炸鍋了

深度報

2026-03-07 22:05:36

花生再次被關注！調查發現：常吃花生的人，不出半年，或有5改善

花生再次被關注！調查發現：常吃花生的人，不出半年，或有5改善

蜉蝣說

2026-03-20 17:29:34

伊朗高官遇襲數小時后，百枚導彈直撲特拉維夫！

伊朗高官遇襲數小時后，百枚導彈直撲特拉維夫！

舍子花

2026-03-19 21:55:02

賈國龍再翻車！

新動察

2026-03-19 17:02:37

王菲謝霆鋒日本回國!王菲用拳頭捶男友撒嬌,脖子上大疙瘩引猜測

王菲謝霆鋒日本回國!王菲用拳頭捶男友撒嬌,脖子上大疙瘩引猜測

八卦王者

2026-03-20 14:17:59

和塔帥還是好朋友嗎？瓜帥：我沒時間去倫敦，他也沒時間來這

和塔帥還是好朋友嗎？瓜帥：我沒時間去倫敦，他也沒時間來這

懂球帝

2026-03-20 22:23:06

黃循財和高市見面后，送給中國一句話，中日之間新加坡作出了選擇

黃循財和高市見面后，送給中國一句話，中日之間新加坡作出了選擇

王姐懶人家常菜

2026-03-21 00:18:21

記錄和推動數字化創新

17025文章數 49695關注度

往期回顧全部

科技要聞

宇樹招股書拆解，人形機器人出貨量第一！

頭條要聞

向特朗普提問日記者遭瘋狂網暴被罵幫中國讓高市難堪

頭條要聞

向特朗普提問日記者遭瘋狂網暴被罵幫中國讓高市難堪

體育要聞

6年前的一場悲劇，造就了“法國瓦爾迪”

娛樂要聞

總臺首屆電影盛典，“沈馬”CP再合體

財經要聞

金融法草案向社會公開征求意見

汽車要聞

何小鵬坦白局：每月3億的“慌”與通向L4的堅定

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

時尚

房產

教育

藝術

轉頭就暈的耳石癥，能開車上班嗎？

推廣中獎名單-更新至2026年3月4日推廣

房產要聞

全城狂送1000杯咖啡！網易房產【早C計劃】，即刻啟動！

教育要聞

爸爸身上的錢是媽媽的兩倍，還少八元，請問爸爸身上有多少錢

藝術要聞

一位畫家跟美少女保姆模特的那個事

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<tfoot id="oo0oo"><dd id="oo0oo"></dd></tfoot>

<tr id="oo0oo"></tr>

<sup id="oo0oo"></sup><small id="oo0oo"></small>

<noscript id="oo0oo"><dd id="oo0oo"></dd></noscript><sup id="oo0oo"></sup>

<nav id="oo0oo"><sup id="oo0oo"></sup></nav>

<tr id="oo0oo"></tr>