337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

無需訓練、即插即用,這個解碼方法讓模型學會謹慎思考

0
分享至

你有沒有發現這樣一種現象:面對同一個問題,大模型可能在每次回答時都給出不同答案。一個不容忽視的問題是,這種不確定性,是否意味著推理仍不穩定?

隨著技術的發展,大模型在自然語言處理和多模態任務中已經表現出越來越強的性能。傳統解碼策略主要包括隨機采樣(random sample)和貪婪解碼(greedy decoding)。例如,ChatGPT、Claude、Gemini 等大模型默認的是隨機采樣(random sample),即便是回答相同的問題,它們可能每次都會給出不同的答案。

而貪婪解碼(greedy decoding)在一般的基準測試(benchmark)上表現會有所提升,特別是在推理性任務上。但是,模型在不確定情況下的表現仍不理想。

為解決上述問題,美國東北大學與 Adobe、美國凱斯西儲大學聯合團隊提出了一種無需訓練的新型解碼策略,名為“謹慎下一步預測(CNTP,Cautious Next Token Prediction)”。

該策略旨在通過在模型不確定性高的步驟采樣多個候選路徑,并選擇困惑度最低的路徑。相較于隨機采樣和貪婪解碼等傳統策略,CNTP 顯著提升了大模型在多種任務上的推理準確度,可應用場景包括語音助手、視覺助手、聊天機器人等。


圖丨相關論文(來源:arXiv)

“我們的研究證明了 Transformer 模型下一個詞元預測(next token prediction)的范式,有可能實現真正的智能。”該論文第一作者王亦周對 DeepTech 表示。他目前正在東北大學攻讀博士學位,主要研究方向包括大模型、多模態模型和計算機視覺,即將加入 Adobe 擔任研究科學家/工程師。


圖丨王亦周(來源:王亦周)

Safe Superintelligence 公司創始人、前 OpenAI 首席科學家伊爾亞·蘇茨克維(Ilya Sutskever)曾公開表示,如果模型足夠強大,對下一個 token 的預測能力可能反映對世界的某種理解,這可能是實現更深層智能的關鍵路徑。

也就是說,next token prediction 是智能的核心。要實現這一點,需要在模型內部進行強推理,再通過一系列計算預測下一個 token。

受此啟發,研究團隊從人類認知行為中尋找靈感:人在思考時,往往越謹慎回答,結果的準確率越高,那么大模型會不會也和人腦有類似的機制?

王亦周解釋道:“這種過程類似于我們在參加考試時的解題過程,我們可能會先想下有哪些解法,然后從中挑選一種認為最有把握的方法,確認無誤后再進行下一步,直到得到完整的證明。”


圖丨 CNTP 方法概述(來源:arXiv)

這里的謹慎指的是,當面對不確定性的情況,需要多嘗試幾條不同的路徑,然后選擇一條最穩妥、最可信的路徑。

研究團隊用熵作為模型不確定性的衡量標準:熵越高越不可信。在自然語言處理(NLP)中,困惑度(perplexity)越低代表對答案越可信。因此在 CNTP 策略下,一旦熵值較高,模型會采樣多個候選路徑,并選擇其中困惑度最低的一條,再一步步迭代。

研究人員通過消融研究證明,由于思維鏈推理的回答往往較長,每條路徑長度也不同,如果算完整評估的困惑度無法很好地衡量答案的可靠性。基于此,他們采取了每到一句話的標點符號截止的方式來計算困惑度。相當于每句話、每個小的推理單元,即每個局部自洽能夠實現較理想的效果。

為控制采樣次數,研究團隊通過設置最小熵 Hmin 和最大熵 Hmax 兩個閾值和最大試驗次數 Nmax。該方法在提高解碼準確性的同時,還有效地限制了計算成本,避免了在每個步驟大量采樣而帶來的高計算開銷。


(來源:arXiv)

在實驗驗證方面,該團隊在數學推理(GSM8K、MATH)、常識推理(StrategyQA)和開放問答(TruthfulQA)等任務中證明,與包括貪婪解碼、隨機解碼和束搜索在內的傳統方法相比,CNTP 策略的結果更具優勢。

例如,在 TruthfulQA 任務中,Llama-2-7B 在使用 CNTP 方法后,真實性準確率提升到了 84.8%,相較于隨機解碼提升 6.8%。

值得關注的是,CNTP 策略無需訓練,僅解碼即可直接實現提升性能。王亦周解釋道:這種方法在某種程度上像“免費午餐”,盡管可能會帶來更多的 token 消耗,但在實際應用中有很多優化的方法可解決該問題。


(來源:arXiv)

此外,該方法搭配自一致性(self-consistency)后,可進一步提升性能(注:自一致性是取多個樣本,然后選一個出現頻率最高的答案),且計算成本遠低于后者。原因在于,利用多樣性和隨機性集思廣益后,選取多數投票。

研究團隊證明,每個樣本也是越謹慎越好。“我們的方法會在一定程度上限制它的多樣性,但通過調高溫度可以解決這一點,所以它能進一步提升。”王亦周說。

此外,CNTP 策略具有較好的普適性,可用于廣泛的對話任務。除了有固定答案的數學題或代碼題,它也可以用于開放式問題,研究團隊未來將嘗試將該策略用于圖像或視頻生成。

該研究為大模型的推理優化提供了一種新思路,有望成為下一代解碼策略的重要候選方案。

參考資料:

1.相關論文:https://arxiv.org/abs/2507.03038v2

2.code link:https://github.com/wyzjack/CNTP

排版:劉雅坤

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
香港金像獎發布最佳男女主候選人造型照,梁家輝跳舞、古天樂“頭痛”,馬麗大變樣、章子怡很美;本屆金像獎4月19日頒獎,章子怡有望第3次“封后”

香港金像獎發布最佳男女主候選人造型照,梁家輝跳舞、古天樂“頭痛”,馬麗大變樣、章子怡很美;本屆金像獎4月19日頒獎,章子怡有望第3次“封后”

極目新聞
2026-03-27 09:09:45
劉曉紅回應3大爭議,沒給姐姐劉曉慶留臉面,原來我們都被騙了?

劉曉紅回應3大爭議,沒給姐姐劉曉慶留臉面,原來我們都被騙了?

不似少年游
2026-03-27 19:39:39
暴跌95%,裁員5萬人,全球第二大車企爆大雷

暴跌95%,裁員5萬人,全球第二大車企爆大雷

蔣東文
2026-03-27 21:09:47
越南成品油價格大幅下調

越南成品油價格大幅下調

緬甸中文網
2026-03-27 13:37:49
催人淚下!張雪峰常把家鄉高校當避坑指南,當地送挽聯以最高敬意

催人淚下!張雪峰常把家鄉高校當避坑指南,當地送挽聯以最高敬意

火山詩話
2026-03-28 06:26:33
悲催!網傳一男子踩空摔倒死亡,或玩手機引發,原本打算6月結婚

悲催!網傳一男子踩空摔倒死亡,或玩手機引發,原本打算6月結婚

火山詩話
2026-03-27 13:59:41
2-0大冷門!真不像傳統印象的國足:時隔16年,再贏世界杯參賽隊

2-0大冷門!真不像傳統印象的國足:時隔16年,再贏世界杯參賽隊

侃球熊弟
2026-03-27 15:32:46
伊朗宣布:關閉霍爾木茲海峽,通過者將遭嚴厲打擊!特朗普:伊朗想讓我當最高領袖,但我拒絕了

伊朗宣布:關閉霍爾木茲海峽,通過者將遭嚴厲打擊!特朗普:伊朗想讓我當最高領袖,但我拒絕了

每日經濟新聞
2026-03-27 20:24:31
劉昊然郭麒麟沖上熱搜!組團唱商K畫面曝光,一個恐違規一個慣犯

劉昊然郭麒麟沖上熱搜!組團唱商K畫面曝光,一個恐違規一個慣犯

萌神木木
2026-03-27 11:03:59
關于伊朗的十大虛假敘事——你是如何被網軍欺騙的?

關于伊朗的十大虛假敘事——你是如何被網軍欺騙的?

楓嶺社
2026-03-27 10:49:09
趙櫻子自爆相親翻車!6億豪宅香港富商摘了眼鏡帽子后:下不去嘴

趙櫻子自爆相親翻車!6億豪宅香港富商摘了眼鏡帽子后:下不去嘴

觀魚聽雨
2026-03-27 17:30:53
550名間諜落網,海軍司令遭斬首:伊朗的篩子比我們想的要深

550名間諜落網,海軍司令遭斬首:伊朗的篩子比我們想的要深

映象觀察
2026-03-27 10:01:23
表白失敗怒砸食堂后續:咖啡機報廢,面臨巨額賠償,前程恐要盡毀

表白失敗怒砸食堂后續:咖啡機報廢,面臨巨額賠償,前程恐要盡毀

離離言幾許
2026-03-27 12:11:29
剛從伊朗回來,說點不中聽的:伊朗的真實面目,可能讓你很意外

剛從伊朗回來,說點不中聽的:伊朗的真實面目,可能讓你很意外

復轉這些年
2026-03-27 11:24:59
張雪峰靈堂內景曝光,四周擺滿了鮮花,遺照惹人淚目,女兒發聲

張雪峰靈堂內景曝光,四周擺滿了鮮花,遺照惹人淚目,女兒發聲

180視角
2026-03-27 10:39:05
以色列一市長直播中崩潰哭泣 痛斥內塔尼亞胡 連問3次“你在干什么”

以色列一市長直播中崩潰哭泣 痛斥內塔尼亞胡 連問3次“你在干什么”

閃電新聞
2026-03-27 15:30:15
蘋果新品突然上架,3月27日,全面開售

蘋果新品突然上架,3月27日,全面開售

科技堡壘
2026-03-27 13:34:57
官宣《浪姐7》遭全網抵制,49歲的范瑋琪,終于迎來了“報應”

官宣《浪姐7》遭全網抵制,49歲的范瑋琪,終于迎來了“報應”

曉肂愛八卦
2026-03-27 18:44:44
伊朗武裝部隊發言人:伊朗正在制定戰爭結束條件

伊朗武裝部隊發言人:伊朗正在制定戰爭結束條件

財聯社
2026-03-28 04:50:19
伊朗宣布:關閉霍爾木茲海峽,通過者將遭嚴厲打擊,敦促西亞各國民眾立即撤離美軍駐扎區域!特朗普:伊朗想讓我當最高領袖,但我拒絕了

伊朗宣布:關閉霍爾木茲海峽,通過者將遭嚴厲打擊,敦促西亞各國民眾立即撤離美軍駐扎區域!特朗普:伊朗想讓我當最高領袖,但我拒絕了

每日經濟新聞
2026-03-27 18:47:26
2026-03-28 08:24:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16497文章數 514802關注度
往期回顧 全部

科技要聞

楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

頭條要聞

特朗普稱暫停打擊伊能源設施不到1天 美以空襲伊核設施

頭條要聞

特朗普稱暫停打擊伊能源設施不到1天 美以空襲伊核設施

體育要聞

邵佳一:足球就像一場馬拉松

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網抵制

財經要聞

我在小吃培訓機構學習“科技與狠活”

汽車要聞

與眾08,金標大眾不能輸的一戰

態度原創

游戲
本地
親子
公開課
軍事航空

離譜!PS5全系暴漲 GTA6還沒出主機先買不起了

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

親子要聞

天氣暖和了,安排一套孩子自己能玩半天,激發孩子的動手能力,真的是帶娃省媽啊#太空沙解壓 #太空沙花樣...

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:已組織超100萬人為地面戰斗做準備

無障礙瀏覽 進入關懷版