網易首頁 > 網易號 > 正文申請入駐

無解之判：研究級數學的推論式評估

2026-02-12 00:42:18　來源: CreateAMind

上海舉報

分享至

無解之判：研究級數學的推論式評估

Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math

https://arxiv.org/pdf/2602.06291v1

摘要

推理模型的最新進展表明，生成研究級數學問題的合理嘗試已漸成可能，但驗證環節仍是瓶頸，耗費稀缺的專家時間。我們提出假設：一個有意義的解答應包含充分的方法層面信息，當將其作為范例應用于相關問題時，應能帶來優于錯誤解答的后續解題表現。基于此，我們提出“基于推論的效用評估”（Consequence-Based Utility）——一種無需標準答案的評估方法，通過檢驗候選解答在解決相關且可驗證問題時作為上下文示例的價值，為其打分。

我們在一組原創研究級數學問題上評估該方法，每個問題配有一份專家撰寫解答和九份大語言模型生成解答。結果表明，該方法在排序質量上持續優于獎勵模型、生成式獎勵模型及大語言模型裁判。具體而言，對 GPT-OSS-120B 模型，其首選準確率（Acc@1）從 67.2% 提升至 76.3%，AUC 從 71.4 提升至 79.6；在 GPT-OSS-20B 上亦取得類似提升（AUC 從 69.0 升至 79.2）。此外，相比大語言模型裁判，該方法展現出更大的求解器–評估器差距，即便面對求解器本身常失敗的問題，仍能保持更強的正誤區分能力。

引言

一個數學假設若要被接受為科學知識，必須經過廣泛的審查與驗證。然而，近期許多利用大語言模型推動科學進步的嘗試（Gottweis 等，2025）側重于假設生成（Zhou 等，2024；Radensky 等，2024）與實驗規劃（Goel 等，2025），對嚴格驗證環節的關注則相對較少。因此，該步驟目前主要依賴兩類途徑：一是人類專家（Georgiev 等，2025），但其成本高昂、難以規模化；二是大語言模型裁判（包括智能體系統）（Lu 等，2024；Zhu 等，2025；Panigrahi 等，2026），但其可靠性常受質疑（Son 等，2024b；2025a）且存在偏見（Ye 等，2024）。這些局限性促使我們亟需更優的假設驗證方法。

需指出的是，基于推論的效用評估專為研究級問題設計——即當前大語言模型尚無法解決的問題。因此，我們聚焦于真正超出當下模型能力范圍的研究級問題，并構建了 EXPERTMATH 數據集，包含 192 道專家編寫的問題及其作者解答，以及 425 道大語言模型生成的問題。其中半數專家編寫的問題對領先模型（如 GPT-5 與 Gemini-3-Pro）而言仍屬未解難題。在該數據集上，我們的方法優于各類無需標準答案的基線方法，包括獎勵模型、生成式獎勵模型及大語言模型裁判。例如，作為大語言模型裁判時，GPT-OSS-120B 的 Acc@1 為 67.21，AUC 為 71.42；而在基于推論的效用評估下，這兩項指標分別提升至 76.27 與 79.63。此外，相比大語言模型裁判，基于推論的效用評估展現出更大的求解器–評估器差距，即便面對模型本身常無法解答的問題，仍能更有效地區分正確與錯誤解答，這使其特別適用于研究級問題的評估。

最后，我們的誤差分析表明，性能提升源于基于推論的效用評估能更可靠地降低以下解答的排名：推理錯誤、未經證實的壓縮步驟或未經證實的解釋；同時，該方法對風格化線索與類權威陳述的敏感性更低——而這些因素已知會誤導大語言模型裁判（Ye 等，2024；Moon 等，2025）。

預備知識與相關工作
2.1 數學領域中對無神諭驗證的需求大語言模型能夠在真正開放或先前未解的研究問題上為專業數學家提供有意義的協助。2025年末，公開記錄的人機協作成果包括：(i) 建立了Nesterov加速梯度法的點收斂性（Jang & Ryu, 2025）；(ii) 針對含擦除的非交互式相關性提取中的“多數最優性”猜想，構造出有限反例（Ivanisvili & Xie, 2025）；(iii) 確定了在Wasserstein有界污染下魯棒密度估計的精確極小極大最優誤差率（Dobriban, 2025）。然而，盡管取得顯著進展，這些報告亦強調：當前模型仍是高方差的生成器，而非可靠的自主定理證明器。Jang & Ryu (2025) 指出，ChatGPT生成了“大量論證，其中約80%是錯誤的”；Dobriban (2025) 提到，GPT-5“略過了某些細節，而填補這些細節有時需要數日工作”；Schmitt (2025) 觀察到“某些模型聲稱了虛假的反例”。因此，進展仍依賴教授級別的分診工作：專家必須拒絕幻覺式的證明嘗試、修補缺失步驟，并將想法轉化為可檢驗的論證，之后任何結果才可安全地被信任或分享。這些經驗凸顯了無神諭驗證的需求：即能夠過濾與評分候選研究產出的可擴展驗證機制，且無需為每次嘗試都調用稀缺的領域專家神諭。

2.2 現有無神諭驗證器

參數 φ 通過最大似然法學習（即標準的邏輯偏好損失）。為在推理階段擴展獎勵模型的規模，研究者提出了過程獎勵模型（Process Reward Models, PRMs）（Zhang 等，2025b）與生成式獎勵模型（Generative Reward Models, GenRMs）。在我們的設定中，默認采用 GenRMs（Zhang 等，2024），原因在于近期研究表明，相較于結果層面的評分，PRMs 可能穩定性較差（Guo 等，2025；Son 等，2025b），且當前實踐日益傾向于采用生成式評估器（Blakeman 等，2025；Liu 等，2025b）。GenRM 會生成一個評估字符串（通常為包含顯式數值評分的簡短評語），

3 基于推論的效用評估

作為正確性信號的上下文可學習性。先前研究已利用上下文中的表現作為示例與演示價值的代理指標（Chang & Jia, 2023；Nguyen & Wong, 2023；Xie 等, 2024）。相關地，上下文條件化亦可作為訓練信號，例如通過從教師模型中蒸餾知識——該教師模型可觀察特權軌跡，而學生模型僅能觀察問題本身（Zhao 等, 2026）。盡管取得上述進展，上下文估值目前主要應用于數據清洗、檢索、歸因或訓練任務，在作為無神諭驗證機制方面的應用仍較為有限。本文工作與以往研究的區別在于：我們利用上下文可學習性，通過測量候選解答在鄰域問題上所產生的下游后果，來驗證其正確性。

實驗設置

4.1 研究級數學問題的收集
我們從70道由教員原創手工設計的問題出發，涵蓋三大廣泛領域，涉及關鍵詞包括但不限于：表示論與代數組合（如赫克代數、萬有考克斯特系統、卡日丹–盧斯蒂格多項式、波洛算法、布倫蒂猜想）、幾何學（代數與微分幾何）（如科爾阿爾–約翰遜三重簇、Q-法諾簇、里奇下界），以及同倫論與同倫方法（如同倫代數、p進同倫論、沙法列維奇擴張）。表1通過與其他成熟數學評測基準的對比，凸顯了我們數據集 EXPERTMATH 的挑戰性。其中，AIME 2025（MAA）是通往美國數學奧林匹克競賽（USAMO）的邀請賽；IMProofBench（Schmitt 等，2025）面向研究級數學證明寫作；FrontierMath（Glazer 等，2024）則明確設計為未發表的專家原創問題集合。在 EXPERTMATH 上的得分（7.14–47.14；均值25.5）表明其難度高于競賽類基準如 AIME 25（80.3–95.7；均值91.0），且模型表現低于 IMProofBench（37.6–71.8；均值50.7）。我們的基準絕對得分尺度最接近 FrontierMath（T1–3）（20.7–37.6；均值30.2）。最后，所收集問題中超過半數未被任何測試模型解決，對 GPT-5（Singh 等，2025）與 Gemini-3-Pro（Team 等，2025）等前沿模型而言仍屬開放問題。

4.2 鄰域問題、真實答案與候選解答

針對每個問題，我們額外收集一組鄰域問題。這些問題是作者創作的變體，在擾動原問題陳述的同時保留其核心數學思想。作者被要求設計這樣的變體：一旦理解原問題，這些變體應變得直接可解（例如，通過復用相同的關鍵引理或歸約方法），并在可行時使其略易於原問題。實踐中，變體數量過多易導致冗余，因此我們將每個原問題的變體收集上限設為兩個。作者每完成一個問題包（包括主問題、鄰域問題及參考解答）可獲得約600美元報酬。據我們所知，EXPERTMATH 是目前該難度級別下唯一提供專家撰寫解答的基準數據集。更多示例與細節見附錄 D。

每個原問題及其鄰域變體均配有作者撰寫的真實答案。專家撰寫的解答形式多樣，涵蓋詳盡的多頁闡述、簡潔的概要、基于直覺的論證，或足以重構完整證明的外部結果指引。為便于自動化驗證，我們要求最終答案以緊湊、可驗證的形式呈現，即便伴隨的書面推導較為非形式化。

最后，我們通過在多樣化模型集合（GPT-OSS-120B、GPT-5、GPT-5 Pro、Gemini-3-Pro 與 Gemini DeepThink）上采樣，為每個原問題構建大語言模型生成的候選解答池。我們為每個問題精選九個候選模型解答：四個正確，五個錯誤。每個候選解答均經過兩步人工復核：(i) 驗證其最終答案與真實答案的一致性；(ii) 閱讀推導過程以確認數學有效性。最終數據集包含 192 道原創研究級數學問題（70 道原問題及 122 道變體），每道問題均配有專家撰寫解答，以及經人工驗證的 630 個大語言模型生成解答。圖 2 展示了一個示例三元組。

4.3 基線方法
針對每個目標問題 Q Q 的固定候選解池，我們將基于推論的效用評估與三種標準無神諭選擇基線進行對比：(i) 大語言模型裁判（LLM-Judges），(ii) 獎勵模型（RMs），(iii) 生成式獎勵模型（GenRMs）。我們使用四種模型（GPT-OSS-20B/120B [Agarwal et al., 2025] 和 Qwen3-30B-A3B/235B-A22B [Yang et al., 2025]）嘗試解決以 ( Q , C ) 為條件的鄰域問題。這些模型同樣用于大語言模型裁判。對于獎勵模型基線，我們采用 AceMath-RM-72B [Liu et al., 2025a] 和 Qwen2.5-Math-RM-72B [Yang et al., 2024] 兩種數學專用獎勵模型。對于生成式獎勵模型基線，我們使用 Qwen3-Nemotron-235B-A22B-GenRM [Blakeman et al., 2025] 和 Llama-3.3-Nemotron-Super-49B-GenRM [Wang et al., 2025]。兩種模型的標準模板均要求輸出兩個響應并返回逐響應及成對信號。在我們的實驗中，我們提供候選解作為第一個響應，固定占位符字符串作為第二個響應，并僅解析逐響應的有用性評分。除確定性獎勵模型外（我們僅運行單次評分），生成式獎勵模型和大語言模型裁判均獨立重復64次。此舉旨在匹配其推理成本與基于推論的效用評估的一致性。在所有設置中，允許模型推理至多16k個token，并將溫度參數設為推薦值。由于已發布的獎勵模型通常具有較短的原生上下文窗口，我們應用RoPE縮放（Chen et al., 2023）以支持更長推理。評估中使用的提示詳見附錄E。

4.4 評估指標
每個基線方法為候選解輸出單一標量評分。由于我們的數據集提供二元標簽而非分級質量，我們不評估評分校準性。相反，我們測量評分對正確解與錯誤解的排序分離能力。我們報告五項更高-更優指標：Acc@1（排名首位是否為正確解）、Recall@5（前五名中恢復的正確解比例）、AUC（正確解與錯誤解之間的成對可分性，平局部分計分）、HumanWin（人類撰寫解評分高于平均錯誤解的概率）以及MeanWin（平均正確解評分高于平均錯誤解的概率）。當同一原問題存在多個變體時，我們對變體取平均值。正式定義見表6。

主要結果

基于推論的效用評估（CBU）優于所有基線方法。表2展示了所評估方法間的清晰層級關系。獎勵模型基線表現最差（例如，AceMath-72B-RM 僅達到 20.75 AUC），這在意料之中，因其計算預算顯著更低（僅為其他方法所用推理次數的 1/64）（Lee 等，2025a）。大語言模型裁判表現明顯更強，但當使用相同主干模型時，基于推論的效用評估持續優于大語言模型裁判評分。例如，采用 Qwen3-235B-A22B 時，CBU 達到 71.38 AUC，超過對應的大語言模型裁判（69.48）與 Qwen3-235B-GenRM（67.85）。對于 GPT-OSS-120B，從大語言模型裁判評分切換至 CBU 后，所有指標均獲提升，增益幅度從 Recall@5 的 +6.13（76.91 至 83.04）到 HumanWin 的 +34.29（48.57 至 82.86）不等。Qwen3-30B-A3B 與 GPT-OSS-20B 亦呈現類似提升。主要例外出現在 Qwen3-235B-A22B 的 Recall@5 指標上，此時大語言模型裁判以 5.87 個百分點領先（80.02 對 74.15）。與圖7一致，這似乎源于過度自信的評分：雖提升了前五命中率，卻削弱了細粒度排序能力。值得注意的是，即便在 MeanWin 已較高的情況下，CBU 在 HumanWin 上仍取得尤為顯著的提升，表明其與專家評估具有更好對齊性。我們認為這源于風格錯配：人類撰寫的解答通常簡潔且依賴直覺，而大語言模型裁判可能過度加權表層線索，如冗長度與規范格式（Saito 等，2023；Ye 等，2024）；CBU 對此類呈現特征的敏感性較低。

基于推論的效用評估在評估模型無法解決的問題的候選解時表現更佳。求解-評估差距（Solve-to-Judge gap）（Sun 等，2025）表示模型判斷解的能力與其解決底層問題能力之間的差異。圖3繪制了正確解與錯誤解之間的平均分差與問題難度的關系，難度由 1 - avg@64 衡量（0 = 完全可解；1 = 幾乎不可解）。即使在最難的區間（1 - avg@64 ≈ 1），LLM-Judge 和 CBU 均表現出非零區分度，這與近期發現一致：模型能夠在自身無法解決的實例上區分正確與錯誤的解（Nie 等，2025）。然而，隨著難度增加，評估器的表現出現分化。評估器的可區分性急劇下降，而 CBU 保持穩健，使其更適合研究級問題特有的高難度尾部。這種模式在一定程度上是預期的，因為 CBU 使用鄰域表現作為正確性的代理指標，而在容易的實例上（求解器無論是否條件化都能成功，例如無需幫助即可解決，或從錯誤候選解中修復錯誤），這一指標變得信息量較低。

更廣泛地說，這兩種方法反映了不同的評估模式。LLM-Judges 類似于代碼審查：它們檢查單個推理軌跡的合理性和一致性，當錯誤解表面上看起來連貫且錯誤微妙時，這種評估變得不可靠。相比之下，CBU 類似于單元測試：它根據候選解的下游結果進行評分，即條件化后是否能改善在鄰域問題上的表現，當直接檢查變得困難時，這種信號仍然具有信息量。

基于推論的效用評估評分對正確性更具預測力。表3通過為每個主干模型擬合邏輯回歸分類器并報告準確率，評估了各驗證器的標量評分對二元正確性的預測能力。在全部四個主干模型上，基于基于推論的效用評估評分（U）訓練的分類器均優于基于大語言模型裁判評分（J）訓練的分類器，增益幅度從6.02個百分點（Qwen3-235B-A22B）到18.25個百分點（Qwen3-30B-A3B）不等。這表明（U）提供了比（J）更具線性可分性的正確性信號。此外，同時使用兩種評分可進一步提升準確率（例如，GPT-OSS-20B：73.09 升至 73.90；Qwen3-235B-A22B：72.79 升至 79.65），說明基于推論的效用評估與大語言模型裁判捕獲了互補的信息。

附加分析

前文已證明基于推論的效用評估（Consequence-Based Utility）優于標準無神諭驗證方法。本節探究該優勢成因，并報告有助于解釋性能差距的實證觀察。

基于推論的效用評估降低對錯誤解答的過度自信，同時更好保留人類撰寫解答的正確性信號。圖5報告了針對每種解答類型，驗證器賦予高于平均分的評分概率 Pr[s(C) ? s? > 0]（其中 s(C) 為驗證器對候選解答的評分，s? 為同實例候選集的平均評分）。在所有模型中，大語言模型裁判比基于推論的效用評估更傾向于將人類撰寫正確解答評高于均值（例如 Qwen3-235B-A22B 顯示 0.90 vs. 0.52）。相反，對于人類撰寫正確解答，趨勢出現反轉：基于推論的效用評估比裁判更常賦予高于均值的評分（例如 GPT-OSS-120B：0.57 vs. 0.44；Qwen3-30B-A3B：0.57 vs. 0.46）。在錯誤解答上也存在另一差異：大語言模型裁判更易將錯誤答案評高于均值，且對 Qwen3-30B-A3B 和 Qwen3-235B-A22B 超過半數的錯誤解答均高于均值（均為 0.53）；而基于推論的效用評估基本避免此失效模式，僅 0.08–0.14 的錯誤解答評分高于均值。綜合來看，基于推論的效用評估與大語言模型裁判的性能差距可能源于兩點：基于推論的效用評估能更好識別人類撰寫正確解答，同時更可靠地懲罰錯誤解答。

基于推論的效用評估通過懲罰不可重構的推理來改進驗證。為理解 CBU 為何優于大語言模型裁判，我們進行了定性誤差分析：檢查了 112 個錯誤的問題-解答對，其中 GPT-OSS-120B 對這些解答賦予了低于均值的 CBU 評分，卻給出了高于均值的大語言模型裁判評分。我們利用 GPT-5-Pro 提供初始標簽，隨后由一名數學博士生進行確認。我們標注了四種可重疊的錯誤類型：(i) 錯誤推理（無效步驟、矛盾或錯誤計算），(ii) 未經證實的壓縮（缺失阻礙局部重構或遷移的中間步驟），(iii) 未經證實的解釋（對問題陳述的多種合理解讀中未聲明的選擇），(iv) 外部引用（關鍵主張主要通過引用命名結果而未提供推導或條件）。

這些案例集中于兩種失效模式。未經證實的壓縮出現在 80/112 例（71.4%），錯誤推理出現在 77/112 例（68.8%），表明許多錯誤解答對大語言模型裁判而言顯得有效，尤其是當它們呈現精煉的高層論證卻省略了驗證關鍵步驟時。外部引用亦較為常見（35/112；31.3%），這與證據一致：大語言模型裁判易受類權威線索的影響（Jeong 等，2025；Moon 等，2025）。CBU 可能對這些解答降權的一個合理解釋是：錯誤或未充分指定的候選解答為解決鄰域變體提供了極少可遷移的信息，從而導致效用評分較低。總體而言，我們推測 CBU 的性能提升主要源于對那些外表可信但缺乏可重構、可遷移推理的解答進行了有效降權。

基于推論的效用評估實踐指南

7.1 需要生成多少次推理
根據設計，基于推論的效用評估（Consequence-Based Utility）需要多次推理，因為它通過下游表現來估計候選解的正確性。相比之下，大語言模型裁判（LLM-Judge）可以在單次推理中給出評分。為確保性能提升并非源于更大的推理預算，我們在全文中對LLM-Judge和CBU均使用64次推理。兩種方法平均消耗的token數量相當（見表5），因此均無系統性預算優勢。由此引出一個自然問題：是否必須使用64次推理才能可靠估計CBU？

7.2 如何構建鄰域問題
在實驗中，我們使用教員撰寫的鄰域問題。然而在實踐中，獲取帶有已驗證答案的專家變體可能與收集真實答案本身同樣困難。因此，我們研究了獲取質量相近的的實用替代方案。我們從 RealMath（Zhang 等，2025a）出發，該方法通過轉換數學論文中的定理自動生成研究生級別的問題。為確保問題具有足夠挑戰性，我們使用 GPT-OSS-120B 進行 1024 次嘗試，僅保留具有中等可解性（0.05 < Avg@1024 < 0.5）的實例。隨后，我們采用兩種方法構建鄰域問題：其一，我們追蹤明確的“相關工作”指引至早期論文，并將 RealMath 轉換應用于被引文獻（例如，Ortega & Eballe (2022) 指向 Ortega & Eballe (2021)）；其二，我們提示 Gemini-3-Pro 生成一個密切相關的變體。接著，我們通過 Gemini-3-Pro、GPT-5-Pro 與 Grok-4 求解以獲得臨時答案，僅保留三者在最終答案上達成一致的實例。所有候選解答均由大語言模型生成，并由大語言模型裁判進行分類。由于這些標簽源于模型一致性而非專家驗證，該數據集不適合單獨用于確立 CBU 的有效性。相反，在專家撰寫子集上驗證 CBU 后，我們使用它來說明可行的替代方案。最后，我們還考慮了 DaftMath（Trang，2025）——一個競賽級問題集合，其經輕微變換的變體被設計為具有整數答案。兩個 RealMath 子集與 DaftMath 分別包含 127、298 與 77 個問題。

表4報告了GPT-OSS-20B在三個數據集上的表現。在兩個RealMath變體上，CBU顯著優于大語言模型裁判評分。相比之下，在DaftMath上，大語言模型裁判評分更強（例如，Acc@1 93.51 對 85.58）。這一對比與我們先前的觀察一致：CBU在難度更高的問題上表現更佳。盡管DaftMath的變體極為接近（核心幾乎相同），但它們屬于競賽級別，遠比RealMath的研究生級別問題簡單，因此求解器往往無論上下文示例如何都能成功求解，從而降低了效用評分的判別價值。總體而言，這些結果表明CBU并不依賴教員撰寫的鄰域問題。當目標問題對求解器具有足夠挑戰性時，大語言模型生成的鄰域問題已足以支撐CBU的有效性。

討論與未來工作

本文提出基于推論的效用評估（Consequence-Based Utility），一種在缺乏真實答案時通過下游表現估計解答正確性的無神諭方法。在研究級數學問題上，CBU 持續優于大語言模型裁判與獎勵模型，并在專家撰寫與大語言模型生成的鄰域問題上均保持有效性。一個關鍵局限在于適用性。與大語言模型裁判不同——后者雖存在系統性偏見但適用范圍廣泛（Salinas 等，2025；Son 等，2024a；He 等，2025）——CBU 需要額外投入以構建鄰域問題。盡管我們證明自動化生成是可行的（第7節），但其可靠性依賴于生成器在無人工監督下產出合理變體的能力。CBU 的信息量亦高度依賴于鄰域問題難度是否處于“最佳區間”：若 Q ? 過于簡單，求解器將無視條件化而直接成功；若過于困難，則無論條件化如何均會失敗，這使得鄰域構建部分依賴于模型能力。因此，CBU 最適用于高風險場景——即對固定且困難的問題要求高置信度驗證的場合。未來工作包括改進完全自動化的鄰域生成、將 CBU 推廣至數學以外的其他 STEM 領域，以及在真正開放的問題上評估其有效性；在這些場景中，鄰域構建與正確性評估本身都更為困難。

原文鏈接：https://arxiv.org/pdf/2602.06291v1

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.