網易首頁 > 網易號 > 正文申請入駐

上交大智能計算研究院論文：不只算對答案，大模型如何真正學會運籌建模丨ICLR 2026

2026-02-03 20:49:56　來源: AI科技評論

廣東舉報

分享至

上海交大智能計算研究院提出 StepORLM，通過生成式過程監督提升運籌建模的整體可靠性。

作者丨鄭佳美

編輯丨岑峰

在大語言模型逐步從通用推理工具走向專業領域應用的過程中，運籌優化（OR）成為一個極具吸引力、同時也極具挑戰性的方向。

一方面，運籌優化問題天然具備清晰的數學結構和可驗證的求解結果，看似非常適合由模型自動完成建模與求解；另一方面，真實運籌建模高度依賴變量定義、約束設計與目標函數之間的整體一致性，其推理過程往往呈現出強步驟依賴和強耦合特征，遠非算出一個正確答案所能覆蓋。

正是在這一張力之下，當前運籌建模大模型研究逐漸暴露出一個核心困境：模型在求解器層面得到正確結果，并不意味著其完成了正確的建模。在現有主流訓練范式中，無論是僅依據最終求解結果進行獎勵，還是對中間步驟進行局部、逐步的過程監督，都難以準確刻畫運籌建模這種長鏈條推理任務的真實質量。

這種監督信號與任務本質之間的錯位，使得建模錯誤可能被掩蓋，甚至被反復強化，逐漸成為大模型走向工業級運籌優化應用的關鍵瓶頸。在這樣的研究背景下，來自上海交通大學智能計算研究院葛冬冬、林江浩研究團隊提出了《StepORLM: A Self-Evolving Framework with Generative Process Supervision for Operations Research Language Models》。

這項研究并未僅從模型規模或數據量入手，而是從訓練范式本身出發，系統性反思了結果獎勵與傳統過程監督在運籌建模任務中的根本局限，并提出了一種由策略模型與生成式過程獎勵模型（GenPRM）協同進化的自進化訓練框架。通過將最終求解結果與對完整推理過程的回顧式、全局評估相結合，StepORLM 試圖引導模型真正學習如何構建一致、可靠的運籌優化模型，而不僅僅是生成一個可行解。

論文地址：https://arxiv.org/abs/2509.22558

01
小模型，贏在方法

在實驗評估方面，這項研究在6 個具有代表性的運籌優化基準數據集上對所提出的方法進行了系統測試，這些數據集涵蓋了從相對簡單的線性規劃問題到高復雜度、貼近真實應用場景的工業級混合整數規劃問題，具體包括 NL4Opt、MAMO（EasyLP 與 ComplexLP）、NLP4LP、ComplexOR、IndustryOR 以及 ReSocratic。

所有實驗統一采用 Pass@1 accuracy 作為評價指標，即模型僅生成一次完整的解題軌跡，并通過外部 OR 求解器進行驗證，只有當生成的代碼能夠成功執行、建模過程正確且最終結果被求解器判定為可行且最優時，才被視為一次成功。這一評價標準對模型提出了較高要求，不僅考察最終數值結果的正確性，也嚴格約束了建模邏輯和實現層面的可靠性。

再看實驗結果，在與不同類別方法的對比實驗中，StepORLM 展現出顯著優勢。首先，與零樣本通用大語言模型相比，僅有 8B 參數規模的 StepORLM 在平均準確率上明顯超過了 DeepSeek-V3（671B）和 Qwen2.5-72B 等超大模型，并全面優于 GPT-4o 的零樣本表現，尤其在 ComplexOR 和 IndustryOR 等高難度場景中優勢更加突出。

這一結果表明，在運籌優化建模任務中，模型參數規模本身已不再是決定性因素，訓練范式與監督信號設計才是性能提升的關鍵。

其次，與現有專門針對 OR 任務進行微調的模型相比，StepORLM 在所有基準數據集上均取得了更優結果，且在 NLP4LP、ComplexOR 和 ReSocratic 等高度依賴多步驟推理正確性的任務中提升尤為明顯，這進一步說明其性能增益并非來源于更多或更大規模的數據，而主要得益于訓練過程中引入了更高質量、更符合任務本質的監督信號。

進一步地，與多種 agentic method 推理方法（如 CoT、Chain-of-Experts、OptiMUS 和 CAFA）相比，StepORLM 僅通過單次生成就能取得更穩定的表現和更少的建模錯誤。其根本原因在于，agent 方法主要在推理階段嘗試對已生成的結果進行修正，而 StepORLM 則通過在訓練階段引入過程級監督，從根源上減少了錯誤推理路徑被模型學習和強化的可能性。

此外，研究還評估了將共同進化得到的生成式過程獎勵模型引入推理階段、作為驗證器的效果。實驗結果顯示，當 StepORLM 與 GenPRM 結合使用時，其平均 Pass@1 準確率可進一步提升至 85.6%，并在最具挑戰性的 ComplexOR 和 IndustryOR 數據集上分別取得了約 9.9% 和 9.5% 的顯著增益。

更為重要的是，GenPRM 并不只對 StepORLM 有效，當其與其他運籌優化模型（如 ORLM）結合使用時，同樣能夠帶來接近 10% 的性能提升，這表明 GenPRM 學到的是模型無關的運籌推理判據，而非僅針對某一特定模型的啟發式規則。

最后，通過一系列消融實驗，研究驗證了各個關鍵組件在整體框架中的必要性：移除 warm-up 階段的監督微調會導致性能大幅下降，取消自進化訓練會使模型性能迅速停滯，凍結 GenPRM 不再進化或用普通 DPO 替代加權 DPO 均會削弱學習效果。

同時，訓練過程分析結果也表明，模型性能的提升是隨著自進化迭代逐步累積的，而并非通過一次監督微調即可達到最終水平。

02
從偶然正確，到系統可靠

這項研究針對大語言模型在運籌優化建模任務中存在的可靠性問題展開，研究團隊指出，現有方法主要存在兩類根本性缺陷。

第一類是結果導向獎勵的信用分配問題（Credit Assignment Problem），即僅依據外部求解器是否成功對模型進行獎勵。在這種情況下，只要模型最終得到一個可行且正確的解，即便中間推理過程存在明顯錯誤，也會被強化。

這在運籌場景中尤為危險，例如漏掉某個較松的約束、變量定義不嚴謹等錯誤，可能在特定實例里不影響最優值，卻會讓模型誤以為“這類建模也行”，從而把不穩定甚至錯誤的建模邏輯固化下來。

第二類缺陷來自傳統判別式過程監督的短視性（Myopic Supervision），這類方法通常對推理過程中的每一步進行獨立評估，難以理解步驟之間的依賴關系，也無法判斷某些早期決策在整體建模語境下是否合理。

然而，運籌優化建模本質上是一種步驟之間高度依賴、強耦合的長鏈條推理任務，局部、割裂的監督信號難以準確反映整體推理質量。

針對上述問題，研究人員提出了 StepORLM 的整體訓練框架，這個框架采用“兩階段訓練 + 自進化閉環”的設計思路。在第一階段的 warm-up 過程中，研究團隊旨在構建一個高質量的初始策略模型，使其具備基本的運籌優化建模能力，能夠輸出結構化、多步驟的推理過程，并避免在建模和代碼生成階段出現大量隨意性錯誤。

為此，研究人員利用教師模型（GPT-4o）自動生成運籌優化問題，并通過改寫、單位轉換和參數縮放等方式增強問題多樣性。隨后，教師模型為每個問題生成完整的推理軌跡，覆蓋問題分析、變量定義、目標函數構建、約束設計、數學模型表述以及求解代碼實現等關鍵步驟。

所有生成軌跡均需經過嚴格驗證，包括代碼執行以及外部 OR 求解器對可行性、最優性和執行正確性的檢查。若驗證失敗，系統會自動將反饋返回給教師模型進行修正，直至通過驗證或達到重試上限。最終，這個階段構建了由問題及其對應的完整且正確推理軌跡組成的數據集，用于對策略模型進行監督微調。

在此基礎上，這項研究進入第二階段，即策略模型與生成式過程獎勵模型（GenPRM）協同進化的自進化訓練階段，這也是研究團隊提出的核心創新。

在這個階段，系統同時維護兩個模型：策略模型負責生成完整的 OR 解題軌跡，而 GenPRM 則從全局視角對整條推理過程進行回顧式評估，判斷各個步驟在整體建模邏輯中的合理性。與傳統過程獎勵模型不同，GenPRM 并非對單個步驟進行簡單打分，而是具備推理與綜合判斷能力，能夠捕捉步驟之間的依賴關系。

在每一輪訓練迭代中，策略模型針對同一問題生成多條候選解題軌跡，并引入雙源反饋機制進行評估。一方面，研究人員通過外部求解器為每條軌跡提供最終結果的正確性反饋；另一方面，GenPRM 對整條推理過程進行評價，衡量不同軌跡在過程層面的質量。

在此基礎上，不同軌跡被兩兩比較以構造偏好對，其中求解器驗證成功的軌跡優于失敗的軌跡，而在結果相同的情況下，則由過程質量更高的軌跡勝出。研究團隊進一步引入加權的 Direct Preference Optimization 方法，對不同偏好對賦予不同權重，從而區分嚴重建模錯誤與細微推理改進，并據此更新策略模型。

與此同時，GenPRM 也利用經求解器驗證的高質量推理軌跡進行持續監督微調，使其評估標準逐步變得更加準確和嚴格。

隨著訓練迭代的推進，策略模型生成的軌跡質量不斷提升，反過來為 GenPRM 提供更高質量的訓練樣本，而不斷進化的 GenPRM 又能夠為策略模型提供更精確的過程反饋，從而在二者之間形成穩定的正反饋閉環，推動整個系統在自進化過程中持續提升運籌優化建模能力。

03
一種可遷移的訓練范式

在實驗結果的基礎上，這項研究在方法論和應用層面均具有重要意義。首先，從方法論角度來看，研究團隊明確指出并通過實證驗證了一個關鍵認識：在運籌優化這類具有強步驟依賴特征的任務中，獎勵模型本身若缺乏推理能力，將難以為策略模型提供有效監督。

傳統方法往往假設最終結果正確即可反映推理質量，或認為通過對中間步驟進行逐步、局部打分便能彌補結果獎勵的不足，而這項研究表明，這兩種監督方式在運籌建模場景下均存在系統性偏差。

由于運籌建模中各步驟之間高度耦合，局部正確并不等價于全局一致，只有具備整體理解能力的過程監督，才能有效緩解歸因錯誤和短視問題。

其次，在運籌優化與大語言模型結合的研究領域中，這項研究顯著提升了模型在建模正確性、約束完整性以及實際應用可靠性等方面的表現。研究團隊通過引入過程級監督與自進化訓練機制，使模型不僅能夠生成形式正確的規劃表達式，還能夠構建邏輯一致、可被求解器穩定執行的完整運籌優化模型，從而推動大語言模型從“會寫線性規劃”向“會進行運籌建模”轉變。

進一步而言，這項研究提出的訓練范式對其他復雜推理任務同樣具有啟發意義。其強調的整體化、回顧式過程監督思想，可推廣至數學證明、代碼生成、科學建模以及其他長鏈條決策任務，為解決強依賴推理場景中監督信號失真的問題提供了一種具有普適性的思路。

04
構建 StepORLM 的人

這篇論文的第一作者為周宸宇，他目前是上海交通大學智能計算研究院博士生，導師為葉蔭宇教授和葛冬冬教授，研究方向聚焦于大語言模型與運籌優化、復雜推理任務及其訓練方法。

他的研究興趣還涵蓋強化學習與區塊鏈等方向，曾獲得 ACM-ICPC 亞洲區域賽金牌，并在 ICLR、WWW、CSCW 等國際會議上發表多篇學術論文。

除學術研究外，周宸宇具有較為豐富的產業與工程實踐背景，曾在杉數科技、騰訊、美團等公司從事與人工智能和優化相關的研究或技術工作，并在量化投資與金融科技領域積累了實踐經驗。

參考鏈接：https://0xzhouchenyu.github.io

論文的通訊錄作者為林江浩，2025 年博士畢業于上海交通大學計算機科學與技術專業，現任上海交通大學安泰經濟與管理學院助理教授，研究方向包括大語言模型和 AI 智能體，以及此類技術在推薦系統、運籌優化、智能商務等交叉領域的應用。

學術方面，他已累計發表國際學術論文 40 余篇，研究成果發表于 ICLR、NeurIPS、KDD、WWW、TOIS 等國際頂級會議與期刊，獲得兩項最佳論文獎，其中 1 篇論文入選 ESI 全球 Top 1% 高被引論文，在相關研究領域具有較高的學術影響力。

參考鏈接：https://linjianghao.com

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.