轉載自:
“模型想要邁向高價值應用,核心瓶頸就在于能否用好 Context。”
2月3日,騰訊混元官網技術博客(Tencent HY Research)正式上線并發表了一篇名為
《從 Context 學習,遠比我們想象的要難》的文章,系統的介紹了騰訊混元團隊聯合復旦大學的一項新研究。
這是姚順雨加入騰訊擔任首席AI科學家后帶領團隊首次發布研究成果,也是騰訊混元技術博客首次公開。這一博客的推出,旨在分享騰訊混元研究員在前沿技術研究和實踐中的探索與經驗,呈現創新思路與技術洞察。
詳情見:
項目主頁:
www.clbench.com
Blog:
https://hy.tencent.com/research
從 Context 學習,遠比我們想象的要難
我們需要 AI 成為 Context 學習者
過去幾年,大語言模型的進化速度快得令人驚嘆。如今的前沿模型,已經是頂級的“做題家”:它們能解開奧數級別的難題,能推演復雜的編程邏輯,甚至能通過那些人類需要苦讀數年才能拿下的專業資格考試。
然而,這些耀眼的成績單可能掩蓋了一個真相:能在考場拿滿分的學生,未必能勝任真實世界的工作。
回看我們人類的日常工作:開發者掃過從未見過的工具文檔,就能立刻開始調試代碼;玩家拿起新游戲的規則書,在實戰中邊玩邊學;科學家從復雜的實驗日志中篩選數據,推導出新的結論和定律。我們發現在這些場景中,人類并不只依賴多年前學到的“死知識”,而是在實時地從眼前的 Context 中學習。
![]()
圖:三個人類日常生活和工作場景的例子。這三個例子分別為:
面對 SkyNet 無人機 SDK 文檔 (~70K 字),將自然語言所表達的飛行請求轉成安全、合規的 SDK 偽代碼;
直接上手玩一款游戲:給定一款新游戲的完整規則 (~15K 字),分析隱藏房間場景并給出可能結果;
分析300 份原始實驗日志,驗證數據、推導關系式并估計共振常數。
然而,今天的語言模型并非如此。它們主要依賴“參數化知識”——即在預訓練階段被壓縮進模型權重里的靜態記憶。在推理時,模型更多是在調用這些封存的內部知識,而不是主動從當前輸入的新信息中汲取營養。
這揭示了當前模型的訓練范式和在真實場景中應用之間是不匹配的:我們優化出的模型擅長對自己“已知”的事物進行推理,但用戶需要的,卻是讓模型解決那些依賴于雜亂、動態變化的 Context 的任務。
簡而言之:我們造出了依賴“過去”的參數推理者,但世界需要的是能吸收“當下”環境的 Context 學習者。要彌合這一差距,我們必須從根本上改變模型的優化方向。
![]()
圖 :語言模型的范式轉變。
CL-bench: 衡量模型的Context學習能力
為了衡量現有模型距離真正的“Context Learner”還有多遠,我們構建了 CL-bench。這是一個專門評測語言模型能否從 Context 中學習新知識并正確應用的基準。
CL-bench 包含由資深領域專家精心制作的 500 個復雜Context、1,899 個任務和 31,607 個驗證標準。CL-bench只包含一個簡單但苛刻的要求:解決每個任務要求模型必須從 Context 中學習到模型預訓練中不存在的新知識,并正確應用。
模型需要學習的知識非常廣泛。它包括新的領域知識、不熟悉的規則系統、復雜的產品工作流,甚至是必須從實驗數據中推導歸納出的定律或結論。
所有這些知識要么是由領域專家完全新構建的,要么是取自那些不太可能出現在當前前沿模型訓練數據中的小眾、長尾來源。因此,模型無法通過回憶靜態的參數化知識來解決任務,都要求模型從提供的 Context 進行學習并應用。
具體來說,CL-bench 涵蓋了四種廣泛的現實世界 Context 學習場景:
![]()
圖:CL-bench 的
Context
分類體系。
領域知識推理:Context 提供特定的領域知識(例如,虛構的法律體系、創新的金融工具或小眾專業知識)。模型需要利用這些知識來推理并解決具體問題。
規則系統應用:Context 提供新定義的正式系統(例如,新的游戲機制、數學形式體系、編程語法或技術標準)。模型必須理解并應用這些規則來執行任務。
程序性任務執行:Context 提供復雜的過程系統(例如,工作流、產品手冊和操作指南)。模型必須理解并應用這些程序性信息來完成任務。
經驗發現與模擬:Context 提供復雜系統內的實驗數據、觀測記錄或模擬環境。與前幾類涉及演繹推理不同,這一類專注于歸納推理,也是最具挑戰性的。模型必須從數據中發現潛在的定律或結論,并應用它們來解決任務。
![]()
圖:CL-bench 示例。解決這些任務要求語言模型
從提供的
Context
中學習。圖中這四個案例分別是:
在一部長達 2.3 萬字、剛剛生效的新法律下判一起真
實糾紛;
基于一門新設計的教育編程語言規范,實現一個帶有時間條件終止的周期性程序;
在一套從未見過的編程框架中執行代碼;
在給定技術規格和長期環境政策情景的條件下,模擬關鍵技術金屬的可持續全球供應。
這些類別包含了大部分現實世界工作中常見的演繹推理和歸納推理任務,能充分衡量模型的 Context 學習能力。關于 CL-bench 的更多細節,請參閱我們的論文 [1]。
CL-bench 的設計原則和特性
CL-bench 圍繞一個簡單但嚴格的設計原則構建:每個任務都必須要求從 Context 中學習新知識。 CL-bench 中的每個 Context 都是完全自包含(Self-contained)的。解決任務所需的所有信息都顯式地提供在 Context 本身之中:不需要外部檢索,也不允許隱藏假設。
![]()
圖:
解決CL-bench 中的任務需要模型從相應的 context 中學習新知識。
為了確保性能真正反映 Context 學習,而不是記憶或數據泄露,CL-bench 采用了無污染(Contamination-free)設計:
虛構創作:專家創作完全虛構的內容,例如為虛構國家設計一套完整的法律體系(包括新穎的判例和法律原則),或創建具有獨特語法和語義的新編程語言。
現有內容的修改:專家修改現實世界的內容以創建變體,例如更改歷史事件、改變科學和數學定義,或修改技術文檔和標準。
整合小眾和新興內容:專家納入了在預訓練數據集中代表性極低的小眾或近期新興內容,如前沿研究發現、新發布的產品手冊或技術文檔,以及來自專門領域的特定知識。
在不提供任何 Context 的情況下,最先進的模型 GPT-5.1 (High) 僅能解決不到 1% 的任務。這有力地證明了數據是無污染的,模型若不從 Context 中學習,幾乎完全無法解決這些任務。
此外,CL-bench 的設計具有高復雜性和序列依賴性。51.1% 的任務需要序列依賴,意味著后續任務的解決方案取決于早期交互的結果。這種多輪次設計顯著增加了任務難度。平均而言,領域專家花費約 20 小時標注每個 Context ,以確保任務構建的質量和深度。
CL-bench 中的每個任務都是完全可驗證的。平均而言,每個 Context 關聯 63.2 個驗證標準,每個任務包含 16.6 個評估標準。每個任務的正確性都從多個角度進行評估,確保了評估的全面性。
部分實驗發現
我們在 CL-bench 上評估了十個最先進的語言模型。結果揭示了清晰且一致的差距。
![]()
表:十個前沿模型在 CL-bench 上的任務解決率。所有模型均在推理模式下進行評估,結果報告為三次運行的平均值 ± 標準差 (%)。
平均而言,模型僅解決了 17.2% 的任務。即便是表現最好的模型 GPT-5.1 (High),也僅達到了 23.7%。換句話說,盡管 Context 中擁有解決每個任務所需的全部信息,模型在絕大多數任務上都失敗了。這表明當前的 SOTA 模型幾乎不會從 Context 中學習。
還有幾個額外的現象值得注意:
1、忽略或誤用Context是導致失敗的主要原因。許多錯誤并非源于信息缺失,而是源于模型忽視了 Context 中的關鍵細節,或錯誤地應用了它們。在許多情況下,模型只會利用預訓練學習到的靜態知識來解決任務,即使 Context 明確定義了新的規則、概念或程序,模型也不會學習和利用。
![]()
表:各模型錯誤類型的分布(因為一個solutions可能有多種錯誤原因,所以每行錯誤率總和大于100%)。
2、長Context推理和指令遵循是必要的,但不是充分條件。案例分析表明,那些難以跨長 Context 追蹤依賴關系或難以精確遵循約束的模型,往往表現得更差。然而,即使是能夠處理長輸入并可靠遵循指令的模型,仍然在許多任務上失敗。Context 學習需要的能力,遠不止長 Context 理解和指令遵循能力。
3、從實驗數據和環境模擬中進行歸納推理比演繹應用更困難。演繹任務讓模型根據 context 中明確給出的規則和流程進行應用,而經驗發現和環境模擬類任務則要求 歸納推理——從數據中總結規律或在虛擬環境中探索。模型在這類任務上的表現明顯較差,任務解決率通常低于 10%,且結果波動大。這表明發現規律遠比應用規則更具挑戰性。
![]()
圖:GPT-5.1 在高/低推理強度設置下,各子類別表現對比。
4、更高的推理強度通常能提升 context 學習效果。對部分模型來說,增加推理強度可以改善表現,使模型更深入地理解復雜 context 。例如,GPT-5.1 在管理類和實驗數據類任務上的表現提升約 6%。但其他模型提升有限甚至可能下降,說明單靠更多推理并不足夠,模型還必須能夠正確吸收和組織 context 信息。
![]()
圖:不同輸入長度下模型上下文學習表現的變化趨勢。(不同 context 下模型的表現變化呈現相似趨勢。)
5、Context 學習的難度與 context 長度相關,但短 context 也可能很復雜。較長的 context 通常讓所有模型的任務更難,這驗證了長 context 處理仍是關鍵瓶頸。然而,即使是短 context ,如果包含信息密集、規則隱含、依賴復雜或約束嚴格的內容,也依然很具挑戰性,說明 context 學習的難度不僅僅來源于長度,也來自于其復雜度。
更多發現請參見我們的論文 [1]。綜上所述,CL-bench 揭示了一個不能被忽視的現象:當今的前沿語言模型還仍然不會利用 Context ,從 Context 中學習。
CL-bench充分解釋了語言模型在真實場景中為什么經常出錯:即使有了 Context 工程,給模型準備好了所需的 Context ,模型也會失敗。如果模型不能真正從中學習,僅僅提供 Context 是不夠的。 Context 學習作為一項模型基礎的學習能力,很大程度上被忽視了。
展望未來
在意識到模型與人類在 Context 學習上的差距后,一個自然的問題是:如何提升這種能力?但我們可以想得更遠一點:如果 Context 學習的問題已經被解決了,世界會變成怎樣?
如果模型的 Context 學習能力能像之前其他能力那樣被提升上去,人類在 AI 系統中的角色將發生轉變:我們不再是主要的數據提供者(training data provider),而變成了Context 提供者。競爭的焦點將從“誰能把模型訓練得更好”,轉向“誰能為任務提供最豐富、最相關的 Context ”。
但其實這里還有一個挑戰。即便 Context 學習足夠強大,它目前依然是臨時性的(Ephemeral):模型的 Context 窗口一旦清空,學到的知識隨之消失。因此,我們還要關注如何讓從 Context 中習得的知識持久化?這種知識不僅是事實,還包括能幫助模型跨任務遷移的技能、經驗和模式等。
![]()
圖 :記憶是鞏固語言模型通
Context
學習所獲經驗的關鍵。
因此,如何記憶很可能成為 2026 年的另一個核心主題。 要充分發揮語言模型的潛力,可能需要新的架構、新的優化方式來決定“該保留什么”。
一旦 Context 學習與記憶變得可靠,模型或許就能實現自主學習:它們將自主準備 Context ,從中學習并自我鞏固。
這聽上去多么令人興奮!但當下我們的目標很明確:讓“ Context 學習”真正走向現實!
[1] CL-bench: A Benchmark for Context Learning
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.