網易首頁 > 網易號 > 正文申請入駐

微軟研究院最新：AI"自我教學"為什么有時會把數學題越做越糟？

2026-04-02 20:43:18　來源: 科技行者

北京舉報

分享至

這項由微軟研究院聯合韓國科學技術院和首爾國立大學開展的研究發表于2026年3月，論文編號為arXiv:2603.24472v1，揭示了人工智能領域一個令人意外的現象。

在人工智能的訓練過程中，有一種被稱為"自我蒸餾"的技術，就像讓一個學生既當老師又當學生一樣。按理說，這種方法應該能讓AI變得更聰明，就像我們在鏡子前練習演講會越來越熟練一樣。確實，在很多任務上，這種方法都表現得相當出色，能讓AI的回答變得更簡潔高效。

然而研究團隊發現了一個奇怪的現象：當把這種訓練方法應用到數學推理任務上時，AI的表現竟然變差了，有時甚至下降了40%。這就好比一個原本能解出復雜數學題的學生，經過"特訓"后反而連簡單題目都做錯了。

這個發現引起了研究團隊的極大興趣。為什么在其他領域表現良好的訓練方法，到了數學推理這里就失靈了？為什么AI會在"自我教學"的過程中反而變笨？研究團隊決定深入探究這個看似矛盾的現象背后的原因。

經過詳細分析，研究人員發現問題的根源在于AI表達不確定性的方式發生了改變。在正常情況下，當AI遇到復雜問題時，它會在推理過程中表達一些不確定性，比如使用"等等"、"嗯"、"或許"這樣的詞匯，這就像我們在思考難題時會自言自語"讓我想想"或"這里可能有問題"一樣。

但是在"自我蒸餾"訓練中，AI的"老師"身份擁有標準答案，因此它的回答顯得非常自信和簡潔，幾乎不表達任何不確定性。當AI學生模仿這種過分自信的推理風格時，它就失去了在面對新問題時進行審慎思考的能力，結果是在遇到訓練中沒見過的問題時表現糟糕。

這項研究不僅揭示了AI訓練中的一個重要盲點，也提醒我們在開發AI系統時，不應該只關注答案的正確性，還要關注推理過程的健壯性。這對于構建更可靠的AI系統具有重要指導意義。

一、神秘的"自我蒸餾"：當AI成為自己的老師

要理解這個奇怪的現象，我們首先需要了解什么是"自我蒸餾"。這個概念聽起來很高深，但其實可以用一個非常簡單的比喻來解釋。

設想你在準備一場重要的演講。一般情況下，你可能會找一個經驗豐富的演講者來指導你，他會告訴你哪些地方需要改進，哪些表達更有效果。但現在，你沒有這樣的導師，只能靠自己。于是你想出了一個辦法：錄制自己的演講視頻，然后假裝自己是專家，來評價這個演講。

在AI領域，"自我蒸餾"就是這樣一個過程。研究人員讓同一個AI模型扮演兩個角色：老師和學生。作為老師的AI能夠看到問題的標準答案，因此它可以給出非常準確和自信的指導；而作為學生的AI只能看到問題本身，必須憑借自己的能力來解決問題。

這種方法的理論基礎很直觀：如果一個AI模型能夠在知道答案的情況下給出完美的推理過程，那么讓另一個相同的模型學習這個完美過程，應該能夠提升它在不知道答案時的表現。這就像讓一個學生反復觀摩標準答題步驟，理論上應該能提高解題水平。

令人驚訝的是，這種方法在很多任務上確實表現出色。在化學、物理、生物等科學問答中，使用自我蒸餾訓練的AI模型不僅準確率更高，而且回答更加簡潔明了。在編程任務中，這種方法同樣表現良好，能夠生成更高質量、更簡潔的代碼。

研究團隊最初也是抱著同樣的期望來測試數學推理任務的。他們選擇了幾個不同的AI模型，包括Qwen3-8B、DeepSeek-Distill-Qwen-7B和Olmo3-7B-Instruct，在一個包含17000個數學問題的數據集上進行訓練。

然而，結果卻出人意料。在訓練過程中，雖然AI的回答確實變得更加簡潔，但是它們在標準數學測試上的表現卻顯著下降。更讓人困惑的是，這些AI模型在訓練數據上的表現是提升的，但是在新的、從未見過的數學問題上，它們的表現卻大幅倒退。

這個現象就像一個學生通過反復練習某一套題目變得非常熟練，但是當面對稍微不同的題型時，反而比訓練前表現得更差。這種現象在教育心理學中被稱為"過度擬合"，但在AI的自我蒸餾訓練中觀察到如此明顯的負面效應，還是第一次。

研究團隊開始意識到，問題可能不在于自我蒸餾這種方法本身，而在于數學推理這個任務的特殊性。數學推理需要AI能夠處理各種不同類型的問題，而且往往需要在推理過程中保持一定的靈活性和審慎性。如果訓練過程讓AI變得過分自信和機械化，可能反而會損害這種靈活性。

二、揭開謎底：信息越多，AI反而越"自信"

為了找到問題的根源，研究團隊設計了一系列精巧的實驗。他們的核心思路是：既然自我蒸餾中的"老師"AI擁有更多信息（包括標準答案），那么我們就來看看信息量的增加如何影響AI的行為表現。

研究人員構建了四種不同的生成設置，就像給同一個學生提供不同程度的"作弊工具"一樣。第一種情況是完全無引導的生成，AI只能看到問題本身，就像閉卷考試一樣。第二種情況是給AI提供完整的解題過程，包括所有的思考步驟，這相當于給學生一份詳細的標準答案。第三種情況是提供解題過程但去除思考部分，只保留關鍵步驟。第四種情況是讓AI參考之前在有答案指導下生成的回答。

通過這種設計，研究團隊可以精確控制AI接收到的信息量，并觀察信息量變化對其行為的影響。他們使用了信息論中的條件互信息來量化這種影響，這個概念可以簡單理解為"額外信息減少了多少不確定性"。

實驗結果非常清晰：隨著提供給AI的信息越來越豐富，AI的回答變得越來越簡潔和自信。在沒有任何額外信息的情況下，AI生成的回答平均長度超過13000個字符，并且頻繁使用表達不確定性的詞匯，如"等等"、"讓我想想"、"或許"、"可能"等。這些詞匯的出現表明AI在推理過程中保持著審慎的態度，會在不確定的地方停下來重新思考。

但是當AI能夠看到完整答案時，情況發生了戲劇性的變化。它的回答長度縮短到不足2000個字符，而且幾乎完全不使用表達不確定性的詞匯。AI的推理過程變得高度線性化和機械化，就像按照既定程序執行任務一樣，缺乏了原本的靈活性和審慎性。

更有趣的是，當研究人員提供部分信息時，AI的表現介于這兩個極端之間。這說明AI的行為變化確實與它接收到的信息量直接相關，而不是由于其他隨機因素造成的。

研究團隊進一步分析了這些表達不確定性的詞匯在AI推理中的作用。他們發現，這些詞匯并不是無意義的廢話，而是AI進行自我監督和錯誤檢測的重要機制。當AI說"等等，這里好像有問題"時，它實際上是在激活內部的錯誤檢測機制，準備重新審視當前的推理路徑。

在人類的思維過程中，我們也經常有類似的表現。當面對復雜問題時，我們會自然地使用"讓我想想"、"這里需要小心"這樣的表達，這些話語幫助我們調節思維節奏，避免匆忙下結論。AI在自然推理過程中表現出的類似行為，實際上反映了它具備一定的"元認知"能力，即對自己思維過程的監控能力。

但在自我蒸餾訓練中，由于"老師"AI擁有標準答案，它不需要這種審慎的推理過程，因此生成的示例回答高度簡潔和自信。當"學生"AI模仿這種風格時，它就失去了原本具備的自我監督能力，在面對新問題時變得過分武斷，缺乏必要的靈活性。

三、實驗驗證：簡潔未必是美德

為了驗證這個假設，研究團隊進行了一項關鍵的對比實驗。他們準備了兩組訓練數據，每組都包含800個正確的數學題解答。第一組數據來自無引導生成，回答較長且包含大量表達不確定性的詞匯；第二組數據來自有答案指導的生成，回答簡潔且高度自信。

這兩組數據的一個重要特點是它們都包含正確的答案，唯一的區別在于推理過程的風格。如果簡潔性確實有助于提高AI的數學推理能力，那么用第二組數據訓練的模型應該表現更好。

然而，實驗結果完全相反。用簡潔、自信的回答進行訓練的AI模型在各種數學測試上的表現都顯著下降。在AIME24（美國數學競賽）測試中，基礎模型的準確率從54.79%下降到20.21%，降幅超過30個百分點。在AMC23（美國數學競賽）測試中，準確率從89.06%下降到57.03%。

相比之下，用較長、包含不確定性表達的回答進行訓練的模型，其性能基本保持穩定，甚至在某些測試上略有提升。這個結果強有力地證明了研究團隊的假設：AI在數學推理中表達的不確定性并非累贅，而是保持推理靈活性的關鍵要素。

這種現象可以用一個簡單的比喻來理解。假設有兩個學生在學習解數學題，第一個學生習慣于在每一步都思考"這一步對嗎？"、"還有其他方法嗎？"，雖然解題過程較慢，但思路清晰，遇到新題型時能靈活應對。第二個學生總是快速按照固定套路解題，雖然效率很高，但在遇到與練習題稍有不同的問題時就容易出錯。

AI的情況與此非常相似。當AI在推理過程中保持一定的"自我質疑"時，它實際上在維持多個可能的推理路徑，一旦發現當前路徑有問題，可以及時調整。但如果AI變得過分自信，它就會機械地按照某種固定模式進行推理，缺乏必要的靈活性。

研究團隊還發現，這種影響在不同難度的問題上表現不同。對于相對簡單的問題，簡潔的推理風格可能不會造成明顯的性能下降，因為這些問題的解法相對固定。但對于復雜問題，特別是需要創造性思維或多步驟推理的問題，保持推理過程中的不確定性表達就變得至關重要。

這個發現對AI訓練具有重要的指導意義。它提醒我們，在追求效率和簡潔性的同時，不能忽視AI推理過程的健壯性。有時候，看起來"啰嗦"的推理過程實際上包含了保持AI推理靈活性的重要信息。

四、動態訓練中的意外發現：固定老師vs移動目標

研究團隊進一步深入到在線訓練場景，這種訓練方式更接近實際應用中的情況。在在線訓練中，AI模型會根據當前策略生成回答，然后通過"老師"的評價來改進這些回答。

在這個設置中，研究人員面臨一個關鍵決策：是讓"老師"保持不變（固定老師），還是讓"老師"隨著訓練過程一起更新（移動目標）？直覺上，隨著訓練的進行，"老師"也應該變得更聰明，這樣可能會帶來更好的訓練效果。

然而，實驗結果再次出人意料。研究團隊比較了三種不同的AI模型：DeepSeek-R1-Distill-Qwen-7B（一個以生成詳細推理過程著稱的模型）、Qwen3-8B（在不同思考模式下）和OLMo-3-7B-Instruct，發現固定老師的訓練效果普遍優于移動目標的方式。

以DeepSeek-R1-Distill-Qwen-7B為例，這個模型原本就擅長生成包含大量思考過程的詳細回答，平均回答長度超過7000個字符，并且頻繁使用表達不確定性的詞匯。當使用固定老師進行訓練時，模型的性能緩慢但穩定地提升，同時回答長度也有所增加，這表明模型在學習過程中保持了原有的推理風格。

但當使用移動目標訓練時，情況就完全不同了。訓練初期，模型的回答長度和不確定性表達都急劇下降，性能也隨之顯著惡化。在AIME24測試中，準確率從基礎的54.79%下降到最低點的30%左右，下降幅度接近40%。在AMC23測試中，準確率也從89.06%下降到約75%。

這種現象背后的原理很有趣。在移動目標訓練中，形成了一種正反饋循環：AI被訓練得越來越自信，而更自信的AI又會產生更加簡潔的"教學"樣本，進一步強化這種自信的推理風格。這就像一個學生不斷地從自己日益自信的回答中學習，最終變得盲目自信，失去了必要的審慎性。

相反，固定老師保持了訓練過程的穩定性。由于老師的標準是固定的，學生AI不會被推向極端，而是在保持原有推理風格的基礎上逐步改進。

特別值得注意的是，這種差異在不同類型的AI模型上表現出了不同的模式。Qwen3-8B在開啟思考模式時，原本就會生成非常長的回答（平均超過10000個字符），包含大量的內部思考過程。在這種情況下，自我蒸餾訓練導致回答長度顯著縮短，但縮短的同時也損失了重要的推理信息。

當Qwen3-8B關閉思考模式時，情況又有所不同。這時模型的基礎回答就相對簡潔，自我蒸餾訓練雖然進一步縮短了回答長度，但對性能的負面影響相對較小。這說明原始推理風格對訓練效果有重要影響。

研究團隊還觀察到一個有趣的動態平衡現象。在某些情況下，當AI的回答變得過于簡潔后，它的性能開始下降，這時訓練算法會推動模型生成稍長的回答來補償性能損失。這種自我調節機制表明，在AI的推理過程中確實存在一個關于回答長度和表達風格的最優平衡點。

五、任務覆蓋度的關鍵作用：為什么有些領域成功，有些失敗？

研究團隊觀察到的最引人思考的現象是，自我蒸餾在不同領域的表現截然不同。在化學、物理、生物等科學問答任務中，這種方法能夠顯著提升AI的表現，同時大幅縮短回答長度。在編程任務中，效果同樣良好。但在數學推理任務中，效果卻相反。

為了解釋這種差異，研究團隊提出了"任務覆蓋度"的概念。簡單來說，就是訓練數據中包含的問題類型的多樣性程度。他們進行了詳細的數據分析，發現了一個重要規律。

在化學問答數據集中，雖然總共包含2400個問題，但這些問題主要分為六大類：化學反應平衡、分子描述計數、分子量計算、性質預測、前體選擇和產物預測。每一類問題的解決方法相對固定，變化主要體現在表面細節上，而不是解題的基本思路上。

在編程任務的LiveCodeBench數據集中，總共只有131個問題，而且訓練和評估使用的是相同的問題集，只是在訓練時只使用部分測試用例，評估時使用完整測試用例。這種設置意味著AI在訓練時就已經"見過"所有的問題類型。

相比之下，數學推理數據集DAPO-Math-17k包含了14000個不同的問題，涵蓋算術、代數、幾何、應用題、邏輯推理等眾多不同的數學領域。更重要的是，評估是在完全不同的數學競賽問題上進行的，這些問題AI在訓練過程中從未見過。

這種差異解釋了為什么自我蒸餾在不同領域表現迥異。當任務覆蓋度較低時，AI可以通過學習幾種固定的解題模式來應對大部分問題。在這種情況下，簡潔、自信的推理風格是有利的，因為它能夠讓AI更有效地執行這些已經學會的模式。

但當任務覆蓋度較高時，AI需要面對各種不同類型的問題，許多問題可能與訓練中見過的問題有顯著差異。在這種情況下，保持推理過程中的靈活性和不確定性表達就變得至關重要，因為AI需要根據具體問題調整推理策略。

為了驗證這個假設，研究團隊設計了一個巧妙的實驗。他們從DAPO-Math-17k數據集中選擇不同數量的訓練問題，分別使用1、8、64、128、512個問題進行訓練，然后比較不同訓練規模下的效果。

結果非常符合預期。當訓練問題數量較少時（1到8個問題），自我蒸餾表現出色，能夠快速提升AI在這些特定問題上的表現，同時顯著縮短回答長度。這就像讓一個學生反復練習幾道特定的題目，通過總結固定套路來提高效率。

但隨著訓練問題數量增加到64個、128個直至512個，自我蒸餾的優勢逐漸消失，甚至開始顯現負面效應。相比之下，傳統的強化學習方法（GRPO）隨著訓練問題數量的增加，表現越來越好，并且AI的回答長度也相應增加，這表明AI在學習處理更多樣化問題時自然地保持了推理的復雜性。

這個發現揭示了一個深刻的原理：AI的推理風格需要與任務的復雜性相匹配。對于相對簡單、模式化的任務，簡潔高效的推理風格是合適的。但對于復雜多樣的任務，保持一定的"推理冗余"反而是必要的，這些看似多余的思考過程實際上為AI提供了應對新情況的靈活性。

在實際評估中，這種差異表現得更加明顯。當使用少量問題訓練時，AI在訓練數據上表現很好，但在全新的數學競賽問題上表現糟糕。當使用大量問題訓練時，AI不僅在訓練數據上表現良好，在新問題上也能保持相對穩定的性能。

六、深入機制：不確定性表達的神經基礎

研究團隊進一步分析了AI內部的工作機制，試圖理解為什么不確定性表達對數學推理如此重要。他們重點關注了十個常見的不確定性標記詞：等等、嗯、或許、可能、實際上、另外、似乎、可能、很可能、檢查。

通過詳細的統計分析，研究人員發現這些詞匯在AI的推理過程中起著關鍵的"認知調節"作用。當AI使用"等等"這個詞時，往往預示著它將要重新審視當前的推理路徑。當AI說"或許"時，通常表明它正在考慮多個可能的解法。當AI說"檢查"時，它正在激活內部的錯誤檢測機制。

這些發現揭示了AI推理過程中的一個重要特征：真正的推理不是線性的信息處理，而是一個動態的、自我調節的過程。人類在解決復雜問題時也會表現出類似的行為模式，我們會在推理過程中停下來思考"這樣對嗎？"、"還有別的方法嗎？"、"我是不是遺漏了什么？"

在自我蒸餾訓練中，由于"老師"AI擁有標準答案，它的推理過程變得高度線性化，缺乏這種自我調節的元素。當"學生"AI模仿這種風格時，它就失去了重要的認知調節能力。

研究團隊還發現，不同的AI模型原本的不確定性表達模式有所不同。DeepSeek-R1-Distill-Qwen-7B更多使用"等等"和"或許"，而Qwen3-8B更偏向使用"可能"和"另外"。但無論原始模式如何，自我蒸餾訓練都會系統性地抑制這些表達，導致推理過程變得機械化。

特別值得注意的是，這種抑制效應在面對更困難的問題時表現得更加明顯。在相對簡單的AMC23測試中，經過自我蒸餾訓練的AI性能下降相對較小。但在更困難的AIME24測試中，性能下降幅度顯著增大。這說明不確定性表達對處理復雜問題尤為重要。

研究團隊還觀察到一個有趣的補償機制。當AI的推理變得過于簡潔導致性能下降時，某些訓練算法會試圖增加回答長度來補償。但這種人為增加的長度往往不是有意義的推理內容，而是重復或無關信息，因此對提升性能幫助有限。

這些發現對AI系統的設計具有重要啟示。它們表明，在設計AI推理系統時，我們不應該簡單地追求輸出的簡潔性，而應該考慮推理過程的健壯性。有效的AI推理系統需要能夠在確定性和不確定性之間找到適當的平衡，既要避免過度的"啰嗦"，又要保持必要的推理靈活性。

說到底，這項研究為我們打開了一個全新的視角來理解AI的學習過程。它揭示了AI訓練中一個容易被忽視但極其重要的現象：有時候，讓AI變得"更聰明"的方法，實際上可能損害它處理新問題的能力。

這個發現特別重要，因為它挑戰了我們對AI訓練效果的傳統認知。通常我們認為，如果一個訓練方法能讓AI在訓練數據上表現更好，同時生成更簡潔的輸出，那么它就是成功的。但這項研究告訴我們，這種判斷可能過于簡單化了。

研究結果表明，AI在數學推理中表達的那些看似"多余"的不確定性，實際上是它保持推理靈活性的關鍵機制。當我們通過訓練讓AI變得過分自信時，就像是給一個本來很有創造力的學生套上了固定的思維模式，雖然在熟悉的問題上表現更高效，但在面對新挑戰時反而變得笨拙。

這個現象在不同領域的不同表現也很有意思。在相對固定的任務中，比如某些科學問答，簡潔自信的回答風格確實有優勢。但在需要靈活思維的數學推理中，保持一定的"思維開放性"就變得至關重要。這提醒我們，AI訓練策略應該根據任務的特性來調整，而不是采用一刀切的方法。

對于普通人來說，這項研究的意義在于它讓我們重新思考什么是真正的"智能"。一個真正聰明的系統，不僅要能在熟悉的情況下高效工作，更要能在面對全新挑戰時保持適應能力。這種適應能力往往需要一定程度的"不確定性容忍"，即承認自己不知道答案，并愿意通過審慎的推理來尋找解決方案。

從更廣的角度來看，這項研究也為開發更可靠的AI系統提供了重要指導。它告訴我們，在追求AI性能提升的過程中，不能只關注表面的指標，還要深入理解AI內部的工作機制。只有這樣，我們才能構建出既高效又健壯的AI系統，真正服務于人類社會的需求。

有興趣深入了解這項研究的讀者，可以通過論文編號arXiv:2603.24472v1查詢完整的技術細節和實驗數據。

Q&A

Q1：什么是AI自我蒸餾技術？

A：AI自我蒸餾是讓同一個AI模型同時扮演老師和學生角色的訓練方法。作為老師的AI能看到標準答案，給出準確指導；作為學生的AI只能看問題，通過模仿老師的推理過程來提升能力。這就像一個人錄制自己的演講視頻，然后假裝是專家來評價和改進自己的表現。

Q2：為什么AI自我蒸餾在數學推理中表現不好？

A：因為這種訓練方法讓AI變得過分自信，失去了表達不確定性的能力。在數學推理中，AI需要在推理過程中使用"等等"、"讓我想想"等詞匯來進行自我監督和錯誤檢測。但自我蒸餾訓練讓AI模仿過于簡潔自信的回答風格，結果在面對新問題時缺乏必要的靈活性，表現反而變差。

Q3：這項研究對AI發展有什么實際意義？

A：這項研究提醒我們不能只追求AI輸出的簡潔性和表面性能，還要關注推理過程的健壯性。它揭示了AI訓練中的重要盲點：有時候讓AI看起來"更聰明"的方法，實際上可能損害它處理新問題的能力。這對開發更可靠的AI系統具有重要指導價值，特別是在需要復雜推理的應用場景中。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.