梯度下降:距離神經網絡模型中的隱式期望最大化
Gradient Descent as Implicit EM in Distance-Based Neural Models
https://arxiv.org/pdf/2512.24780
![]()
![]()
摘要
使用標準目標函數訓練的神經網絡展現出概率推理的特征行為:軟聚類、原型特化以及貝葉斯不確定性追蹤。這些現象普遍存在于各種架構中——包括注意力機制、分類頭以及基于能量的模型——然而現有的解釋依賴于與混合模型的松散類比或事后架構解讀。我們提供了一個直接的推導。對于任何具有基于距離或能量的對數求和指數(log-sum-exp)結構的目標函數,其關于每個距離的梯度恰好等于對應分量的負后驗責任:?L/?dj = -rj。這是一個代數恒等式,而非近似。直接的結果是,在此類目標函數上的梯度下降隱式地執行了期望最大化——責任不是需要計算的輔助變量,而是要應用的梯度。無需顯式的推理算法,因為推理已嵌入優化之中。這一結果將三種學習機制統一于單一框架之下:無監督混合建模(其中責任完全潛在)、注意力機制(其中責任以查詢為條件)以及交叉熵分類(其中監督將責任鉗制到目標)。最近在訓練過的Transformer中觀察到的貝葉斯結構并非涌現屬性,而是目標函數幾何結構的必然結果。優化與推理是同一過程。
1 引言
使用標準目標函數訓練的神經網絡反復展現出與概率推理相關的行為:軟聚類、原型特化、不確定性追蹤以及混合模型動力學。這些現象普遍存在于各種架構中——注意力機制、分類頭以及基于能量的模型——然而它們的起源至今仍不清楚。它們是規模擴大后的涌現屬性嗎?是架構上的偶然?還是某種更根本的東西?本文認為,這些行為都不是上述原因。它們是常見目標函數幾何結構的必然結果。
1.1 謎題
考慮那些在訓練后的神經網絡中自發出現的現象范圍。Transformer中的注意力頭學會專業化,各自為不同的語義角色路由信息。分類網絡將表征空間劃分為若干區域,這些區域的行為類似于混合成分。在含噪數據上訓練的深度網絡展現出類似貝葉斯推斷的穩健性模式:對離群點降權,并在不同輸入間追蹤不確定性。這些行為在沒有顯式概率建模、沒有混合模型架構、也沒有任何類似期望最大化(EM)算法的情況下涌現出來。
標準解釋令人難以滿意。一種觀點認為這些是規模的涌現屬性——足夠多的參數和數據以某種方式產生了統計結構。另一種觀點將其視為架構巧合,是特定設計選擇(如softmax歸一化或殘差連接)的產物。第三種觀點提供松散的類比:注意力“類似于”軟聚類;交叉熵“近似于”混合模型。這些解釋均未回答更深層的問題:為何是這些特定行為出現,而非其他行為?又為何它們在如此不同的架構和任務中如此可靠地出現?
1.2 近期證據
Aggarwal等人[2025a,b]的近期工作顯著深化了這一謎題。在受控實驗環境——“貝葉斯風洞”(其中真實后驗可解析獲知)中,小型Transformer以低于1比特的精度復現了貝葉斯后驗。這并非近似的貝葉斯行為,而是與解析解在逐位置上精確、可驗證的一致。在相同條件下訓練的容量匹配的MLP則完全失敗,表明該現象依賴于注意力的歸納偏置,而非僅靠優化。
更引人注目的是Aggarwal等人在梯度動態中發現的現象:注意力權重在訓練早期即趨于穩定,而值向量則持續精煉——這種雙時間尺度結構與經典期望最大化中的E步和M步相呼應。值向量接收的更新由注意力加權,恰如混合模型中原型接收由責任度加權的更新。作者提供了完整的一階分析,表明這一結構并非偶然,而是系統性的。
然而,Aggarwal等人明確將這種EM聯系刻畫為“結構性的而非變分的”——是一種類比,而非推導。他們觀察到注意力行為類似EM,但并未聲稱EM是目標函數的必然結果。在他們的框架下,為何交叉熵訓練會產生貝葉斯幾何這一問題仍未解決。
1.3 本文貢獻
本文填補了這一空白。我們證明,對于在距離或能量上具有log-sum-exp結構的目標函數,損失關于每個距離的梯度恰好等于對應成分的后驗責任度。這并非近似,非相似,亦非類比。它是一個代數恒等式:
![]()
直接的結果是,在此類目標函數上的梯度下降就是期望最大化(EM),不過是連續執行,而非采用離散的交替步驟。前向傳播計算非歸一化的似然;歸一化產生責任;反向傳播則將責任加權后的更新量傳遞給參數。無需引入輔助的潛在變量,也無需調用任何推理算法。架構并非在近似EM——它就在實現EM,因為梯度本身就是責任。
這重新定義了優化與推理之間的關系。推理并非疊加在學習之上的獨立算法層,也不是對學習到的表征進行的事后解釋。在我們所分析的目標函數下,推理和優化是同一計算過程在不同抽象層次上的體現。Aggarwal等人觀察到的貝葉斯結構并非偶然出現的涌現屬性,而是由損失函數的幾何結構所強制的。
1.4 貢獻
本文的貢獻刻意限定在較窄的范圍,可歸納為三個層次遞進的論點。
![]()
一種解釋。這一恒等式表明,在基于距離的對數和指數目標函數上進行梯度下降,執行的是隱式期望最大化。E步是前向傳播;M步是參數更新;責任從未被顯式計算,因為它們就是梯度。EM并非被神經訓練所近似——而是被神經訓練所實現。
一個統一框架。根據所施加約束條件的不同,同一種機制體現在三種學習模式中。在無監督模式下,責任完全潛在,原型之間自由競爭。在條件模式——即注意力機制——下,責任基于共享的原型族,針對每個查詢重新計算。在約束模式——即交叉熵分類——下,監督機制將其中一個責任鉗制到目標值,而替代項之間的競爭仍然存在。這三種并非不同的現象,而是同一現象在不同邊界條件下的表現。
2 幾何基礎
本文的主要結論——即責任作為梯度涌現——建立在一個特定的幾何基礎之上。本節將確立這一基礎。我們首先借鑒先前工作的成果,總結將神經網絡輸出解讀為距離或能量而非置信度的觀點。接著,我們定義適用于我們分析的那一類對數和指數目標函數。最后,我們簡要回顧經典期望最大化算法的結構,并非因為我們的方法需要它,而是為了建立一個參照點,以便與隱式EM進行對比。
2.1 基于距離的表示
神經網絡輸出的標準解釋將其視為置信度或分數,指示證據支持某一假設的強度。當一個邏輯值(logit)很高時,表示網絡"相信"某個類別;當一個注意力分數很高時,表示一個查詢(query)與一個鍵(key)很"匹配"。這種解釋雖然直觀,但卻模糊了神經網絡實際計算的幾何結構。
![]()
這種解釋并非為了方便而強加的一種建模選擇。它是仿射變換與分段線性激活函數組合而成的數學屬性。線性層的權重定義了一個基;偏置定義了沿該基的偏移量;激活函數則衡量偏差。變化的并非計算本身,而是我們賦予計算的語義。在本文中,我們采用基于距離的解釋,并將神經網絡的輸出互換地稱為能量或距離。后續的結果——特別是將梯度識別為責任(responsibilities)——依賴于這種幾何框架。
2.2 對數求和指數目標函數
給定為輸入 x 計算的一組距離或能量 {d1, d2, ..., dK},我們考慮如下形式的目標函數:
![]()
這就是對數求和指數(LSE)目標函數。它有一個自然的解釋:如果 exp(?dj) 表示組件 j 生成該輸入的未歸一化似然,那么 L 就是對數邊際似然——即某個組件生成該輸入的對數概率。最大化 L 會促使模型為每個輸入放置至少一個接近的原型。最小化 -L 則會鼓勵分離。
![]()
這些責任是非負的且總和為一。它們表示在組件間均勻先驗的假設下,組件 j j對該輸入負責的后驗概率。
![]()
2.3 經典 EM 算法
期望最大化算法是擬合帶有潛在分配的混合模型的經典算法。它通過兩個交替的步驟進行。
在 E 步中,計算責任。給定當前參數,每個數據點根據相對似然被軟分配至每個組件:
![]()
這些責任總和為一,并代表組件 j 生成該觀測值的后驗概率。
在 M 步中,參數被更新。每個組件的參數被調整,以更好地擬合分配給它的數據點,并由責任進行加權:
![]()
對于高斯混合模型而言,這簡化為計算責任加權的均值和協方差。
其關鍵特性在于,每一個數據點都會影響每一個組件,但這種影響受到該組件對該數據點所承擔責任大小的控制。
經典的 EM 算法是離散且交替進行的:先計算所有責任,然后更新所有參數,接著重復此過程。E 步和 M 步是具有不同計算作用的獨立步驟。這種分離是算法層面的,并非本質上的。
3 主要結果:責任即梯度
我們現在闡述并推導核心結果。推導過程是基礎的——僅需一次鏈式法則的應用——但其意義深遠。我們證明,對于基于距離的對數求和指數(log-sum-exp)目標函數,關于每個距離的梯度恰好就是對應組件的負責任。這一恒等式無需任何近似,并且對任何計算距離并通過梯度下降優化 LSE 目標的模型都成立。導數計算本身是教科書級別的;本文的貢獻在于認識到所得的量恰好就是后驗責任,并且這使得每一個梯度步驟都變成了一個責任加權的更新。
3.1 推導
![]()
3.2 這意味著什么
該定理有一個直接的解釋:責任并非必須被計算和存儲的量。它們是梯度。任何計算距離、應用對數求和指數目標函數并通過梯度下降更新參數的系統,都已經在計算責任——不是作為一個中間步驟,而是作為學習信號本身。
注意,這個恒等式本身是純粹的代數結果——它對于任何對數求和指數目標函數都成立,無論我們如何解釋所涉及的各個量。然而,EM(期望最大化)的解釋依賴于將 理解為距離,并將理解為后驗責任。數學結構強制了梯度的形式;語義則賦予了它意義。
![]()
其結果是,在 LSE 目標函數上的梯度下降恰恰就是 EM 算法。它不是 EM 的近似。經典 EM 中離散的交替過程——計算責任,然后更新參數,再重復——坍縮為連續的、并行的優化。每一個梯度步驟都是責任加權的更新。每一個訓練過的網絡一直都在執行 EM 算法。
在本文中,"隱式 EM"指的是在對數求和指數目標函數上進行梯度下降時,責任加權的參數更新的出現——而非指坐標上升式 EM 或關于收斂性的保證。
3.3 條件
該結果依賴于三個結構條件。當所有三個條件都滿足時,隱式EM動態是必然發生的——它們由數學原理強制決定。
![]()
當這些條件成立時,不存在額外的設計選擇來啟用或禁用類似 EM 的行為。這是目標函數幾何結構的必然結果。任何計算距離、通過指數函數進行歸一化并使用梯度進行訓練的網絡架構,都會展現出隱式 EM。
4 隱式推理的三種機制
同樣的機制在不同的約束條件下有不同的表現形式:
4.1 無監督機制:混合學習
在最純粹的情況下,對數求和指數目標函數在沒有監督的情況下運行。模型計算從輸入到 K 個組件中每一個的距離 dj(x),并通過訓練來最小化:
![]()
這就是負對數邊際似然——經典混合模型擬合中使用的目標函數。所有組件競爭每一個輸入。沒有標簽約束哪個組件應該獲勝。
![]()
結果是自發的特化。即使采用隨機初始化,組件也會在訓練過程中分化。每個原型都會漂移到輸入空間中它持續承擔高責任的區域,同時將其它區域讓給競爭對手。聚類的出現并非因為指定了該目標,而是因為目標函數的幾何結構強制進行了責任加權的更新。
這種機制與混合模型上的經典EM算法完全對應。其固定點——以及通向固定點的路徑——都受相同的責任所支配。
4.2 條件機制:注意力機制
![]()
![]()
注意力權重恰好滿足了責任的定義。它們是非負的,在所有鍵上總和為一,并代表了每個鍵在多大程度上“解釋”了該查詢。輸出是值的責任加權組合:
![]()
![]()
4.3 約束機制:交叉熵分類
交叉熵分類引入了監督信息,但這并未使其脫離隱式 EM 的框架。它只是對其施加了約束。
![]()
![]()
![]()
錯誤類別之間的競爭保持不變。當模型分類錯誤時,責任質量分布在錯誤的答案中,每個錯誤答案都會接收到與其份額成正比的梯度信號。"錯得最離譜"的類別——即那些具有最高的類別——受到的懲罰最強烈。這不是均勻的排斥;而是責任加權的修正。
![]()
交叉熵并不會消除 EM 動態;它只是引導這些動態。M 步仍然根據各組件所承擔的責任比例對其進行更新,但監督信息會將該過程偏向一個預設的分配。這解釋了為什么交叉熵盡管形式簡單卻如此有效:它繼承了混合模型的軟競爭和自動加權特性,同時將這些動態導向一個有監督的目標。這個損失函數所起的作用,比其熟悉的形式所暗示的要更多。
4.4 分類體系
這三種機制——無監督機制、條件機制和約束機制——在觀測對象和潛在變量上有所不同。但它們共享一個共同的結構:對距離進行指數化,然后在候選項之間進行歸一化。正是這個結構產生了責任,而責任又產生了隱式 EM。
關鍵因素是歸一化。當輸出被歸一化時——無論是通過 softmax、通過對數求和指數配分函數,還是通過任何強制總和為一的約束操作——組件之間就會產生競爭。一個組件似然的增加,必然會降低其他組件的相對似然。這種競爭是分配產生的根源:每個輸入被概率性地分配給各個組件,而梯度也相應地分布。
去除歸一化,這個結構就會崩潰。考慮基于沒有配分函數的核(如高斯核)的目標函數,例如最大相關熵:
![]()
在這里,每個組件獨立運作。一個遠離所有原型的點,會對所有原型產生微弱的梯度——不是因為責任被分配到了別處,而是因為沒有競爭存在來進行分配。這里沒有隱式的 E 步,因為不存在責任。這種目標函數增強了對異常值的魯棒性(遠離所有原型的點被有效忽略),但完全失去了分配結構。
這厘清了設計空間。指數化將距離轉化為似然;歸一化將似然轉化為責任。兩者兼備時,隱式 EM 就不可避免。僅有指數化,模型獲得了魯棒性,但放棄了推理。目標函數的選擇,本質上是在決定模型應該進行分配還是應該忽略——而這種選擇是在損失函數層面做出的,而非網絡架構層面。
5 與先前工作的關系
本文推導出的結果并非孤立存在。它依賴于先前的工作來奠定其幾何基礎,并且通過它所能解釋的近期實證發現而獲得重要性。本節將闡述本文的貢獻與三個方面工作的關聯:基于距離的神經表示解釋、近期關于 Transformer 中貝葉斯結構的證據,以及基于能量的學習和期望最大化方面的經典成果。
5.1 關于基于距離表示的先前工作
在先前的工作 [Oursland, 2024] 中,我們奠定了本文所依賴的幾何解釋。該工作表明,標準的神經網絡層——仿射變換后接 ReLU 或絕對值激活函數——計算出的量表現為與學習到的原型之間的距離。輸出是偏差,而非置信度;它們衡量的是輸入距離由權重定義的參考結構有多遠。這種解釋并非強加的,而是從所涉及操作的數學原理中推導出來的。
本文以此幾何基礎為前提,提出了一個不同的問題:當基于距離的表示在標準目標函數下被優化時,會發生什么?我們先前的工作并未涉及學習動態。它描述了神經網絡表示什么,而非它們如何學習。本文的貢獻在于表明,對距離采用對數求和指數目標函數會產生責任加權的梯度,而這會引發出隱式 EM。
這兩個結果是互補的,共同構成了一幅完整的圖景。第一個結果指出:神經網絡計算距離。第二個結果指出:用 LSE 目標函數優化距離就是在執行推理。兩者互不包含。如果沒有距離的解釋,將梯度等同于責任只是一個形式上的趣聞。如果沒有梯度恒等式,距離的解釋描述的只是靜態的表示,無法說明它們是如何產生的。幾何基礎支撐了學習動態;學習動態則證明關注幾何基礎是合理的。
Aggarwal 等人 [2025b] 從靜態分析轉向動態分析,研究了交叉熵訓練下注意力機制的梯度。他們推導出值向量接收的是責任加權的更新,并且注意力分數會根據一種類似優勢函數的規則進行調整。他們觀察到一種雙時間尺度的結構:注意力模式早期就穩定下來,而值向量則持續細化——這鏡像了經典 EM 算法中的 E 步和 M 步。該分析十分透徹,并且與 EM 的平行關系是明確的。
然而,作者們謹慎地將這種聯系描述為"結構性的,而非變分性的"。他們觀察到注意力的行為類似于 EM,但并未斷言 EM 是目標函數的必然結果。他們記錄了這種相似性,但未嘗試進行推導。
本文提供了這一推導。在基于距離的神經輸出解釋下,梯度恒等式 ?L/?dj = ?rj 并非結構上的類比,而是一個代數事實。Aggarwal 等人觀察到的類 EM 動態并非恰好出現在Transformer 中的涌現屬性——它們是由損失函數的幾何結構強制決定的。任何計算距離并優化對數求和指數目標函數的模型,無論其是否類似于 Transformer,都會展現出相同的動態。
這兩項貢獻之間的關系是觀察與解釋的關系。Aggarwal 等人以精確和嚴謹的方式發現并記錄了該現象的實證證據。我們則提供了使該現象成為必然的理論機制。
5.3 其他聯系
LeCun 等人 [2006] 的基于能量的學習框架提供了重要的概念性支撐。該工作將學習重新定義為最小化能量函數,其中概率通過指數化和歸一化推導得出。本文分析的對數求和指數目標函數是基于能量的模型中"自由能"公式的一個特例。我們的貢獻在于表明,這個自由能關于組件能量的梯度恰好就是后驗責任——這個聯系在該框架中隱含存在,但據我們所知,此前未被作為一個形式恒等式明確提出。
Dempster 等人 [1977] 提出了期望最大化算法,用于含隱變量的極大似然估計。他們將 E 步和 M 步定義為離散的、交替進行的操作。本文表明,對于基于距離的目標函數,這些步驟坍縮為梯度下降:前向傳播隱式計算責任,反向傳播則應用這些責任。這并非與經典公式相矛盾,而是揭示出它是更普遍現象的一個特例。EM 不僅僅是一個可以選擇應用的算法;它是某些目標函數幾何結構在基于梯度的優化下的一個屬性。
Vaswani 等人 [2017] 引入了以注意力為核心機制的 Transformer 架構。最初的闡述強調注意力是一種軟檢索操作——查詢關注鍵以聚合值。隱式 EM 的視角將注意力重新定義為條件混合推理,其中注意力權重作為責任,值投影作為原型參數。這種解釋與最初的公式一致,但提供了架構描述所缺乏的概率語義。
混合專家模型 [Jacobs 等人, 1991] 使用顯式的門控網絡將輸入路由到專門的子網絡。門控權重換個名字就是責任。區別在于架構:在混合專家模型中,門控是一個單獨的學習函數;而在標準注意力和分類中,責任是作為目標函數的梯度出現的,無需專門的門控機制。隱式 EM 揭示了混合專家模型中的顯式門控并非必需——任何對數求和指數目標函數都會自動產生責任加權的路由。
6 局限性與失效模式
隱式 EM 框架并非普遍適用。它在特定條件下成立,而當這些條件不滿足時,該分析也隨之失效。本節將界定其邊界:隱式 EM 在何種情況下不會出現,即使出現時可能發生哪些病理現象,以及哪些現象完全超出其范圍。清晰地闡述局限性非但不會削弱,反而會加強本文的貢獻——它區分了精確的主張與過度的延伸。
6.1 隱式EM不出現的情況
![]()
在這種設置下,責任不存在。沒有一個量能在所有類別上總和為一;也沒有軟分配將輸入在不同候選項之間進行分配。每個輸出通道孤立地運作。一個點可能離所有原型同樣近,或者離所有原型同樣遠,而梯度不會重新分配——它們僅僅反映獨立的誤差。
這不是架構的失敗,而是缺少所需的目標函數結構。隱式 EM 源于競爭,而競爭源于歸一化。具有獨立輸出的系統可以學習到有用的表示,但它們不執行混合推理,也不會展現出責任加權的動態。該框架的解釋范圍止于歸一化失效之處。
6.2 尺度與坍縮
完整的高斯混合模型在似然函數中包含一個對數行列式項——這是對每個組件協方差體積的懲罰。這一項防止了坍縮:沒有它,組件可以將其協方差收縮為零,在單個點上放置無限密度,從而獲得無界似然。當協方差坍縮時,對數行列式會發散,從而平衡密度的增長。
大多數神經網絡目標函數省略了這一項。交叉熵和注意力 softmax 在距離或分數上操作,沒有顯式的體積懲罰。隱式 EM 動態仍然成立——梯度仍然是責任加權的——但沒有什么能阻止學習到的度量發生退化。網絡可以學會將所有輸入映射到鄰近的點,從而坍縮距離結構并使責任變得無意義。
在實踐中,坍縮通常通過隱式機制來避免:權重衰減正則化投影的尺度;層歸一化約束激活值的幅度;像殘差連接這樣的架構選擇則保留了信號的多樣性。這些干預措施是有效的,但它們并非源自目標函數——它們只是恰好穩定了幾何結構的啟發式方法。
隱式 EM 框架闡明了為什么坍縮是一種風險。當組件根據其責任比例進行更新時,一個捕獲了稍多概率質量的組件會接收到更強的梯度,進而捕獲更多質量,并可能完全主導。這種正反饋是 EM 動態固有的,在經典模型中由體積項控制。神經網絡移除了這種控制,并依賴其他機制來填補這一空白。該框架并未解決這個問題;它解釋了問題為何存在。
6.3 監督約束
在無監督機制下,責任完全是潛在的——僅由數據決定哪些組件擁有哪些輸入。監督學習改變了這一點。標簽聲明了哪個組件應該承擔責任,覆蓋了幾何結構原本可能決定的結果。
這種約束強大但僵化。交叉熵訓練強制正確類別的責任趨近于 1,無論輸入是靠近該類別原型還是遠離所有原型。一個與所有類別邊界等距的輸入仍然會得到一個硬標簽;模型必須將其分配到某處。在錯誤類別之間,責任的軟性、分級結構依然存在,但正確類別是被"夾住"的。
其后果之一是封閉世界的假設。Softmax 歸一化保證了責任之和為 1——某個類別必須為每個輸入承擔全部責任。沒有"以上皆非"的選項,模型無法將輸入視為所有已知類別之外的異類而予以拒絕。一個分布外的輸入,無論多么異常,都會被分配到距離最小的那個類別,并且模型的置信度可能任意高。
6.4 該框架無法解釋的內容
隱式 EM 框架解釋了一種現象:基于距離的目標函數中責任加權學習動態的出現。它并不能解釋神經網絡所做的所有事情。
泛化能力——即網絡為何能在未見數據上表現良好——并未涉及。該框架描述了訓練的動態過程,而非那些能夠實現訓練分布之外泛化的歸納偏置。規模法則——即模型大小、數據和性能之間可預測的關系——完全不在該分析的范圍內。梯度恒等式本身并未說明性能應如何隨參數或計算量擴展。
長程推理、規劃以及序列決策涉及該框架未能捕獲的時間結構。隱式EM描述了單個輸入如何被軟分配到各個組件,以及這些組件如何更新。它并未描述表征如何隨時間組合、目標如何通過動作序列反向傳播,或者模型如何學習搜索。
涌現能力——即隨著規模擴大而突然出現的性質上的新行為——仍未得到解釋。該框架沒有說明為何某些能力會不連續地出現,或者為何它們需要特定的模型規模閾值。如果涌現能力源自隱式EM動態,其聯系并不明顯;如果它們源自其他機制,該框架則對此保持沉默。
這些并非分析的失敗,而是其范圍的邊界。本文的貢獻在于精確地識別并推導出一種機制,而非解釋整個深度學習。明確主張的范圍可以防止過度解讀——并為解釋隱式EM無法觸及的現象留下補充說明的空間。
7 討論
本節反思隱式EM框架統一了哪些內容,它對我們理解神經網絡的方式有何啟示,以及它為未來的工作留下了哪些待解決的問題。
7.1 統一性
該框架揭示出,高斯混合模型、注意力機制和交叉熵分類并非三種具有表面相似性的不同方法。它們是在不同約束條件下運作的同一種機制。在GMM中,責任完全是潛在的。在注意力機制中,責任以查詢為條件,并為每個輸入重新計算。在交叉熵中,責任受到監督信息的部分約束。其底層動態——指數化、歸一化、責任加權更新——是相同的。
這暗示了我們在解讀神經網絡訓練方式上的轉變。概率常被視為原始量:我們定義分布,推導似然,然后進行優化。隱式EM的視角則反轉了這一關系。距離是首要的。網絡計算幾何量——與所學結構的偏差——而概率僅在指數化和歸一化之后才出現。幾何先于概率;推理是在幾何目標上進行優化的結果。
在這種觀點下,損失函數并非為追求性能而任意選擇的。它們是幾何先驗。交叉熵編碼了一種假設,即輸入應被完全地分配給離散類別。距離的對數和指數假設輸入源于潛在原因的混合。相關熵假設異常值應被忽略。每個目標函數都會引發不同的分配幾何結構和不同的梯度流模式。選擇一個損失函數,就是選擇一種關于數據如何與結構相關聯的理論——無論這種選擇是有意還是無意的。
7.2 意義
對于可解釋性而言,該框架提供了一條從訓練動態到語義結構的直接路徑。如果責任就是梯度,那么網絡所做的分配就不再是需要探測或事后分析的隱藏量。它們存在于反向傳播中,在每個訓練步驟都被計算。"哪個組件對這個輸入負責?"這個問題在梯度本身中就有一個答案。這并不能解決可解釋性的全部問題——理解一個組件為何承擔責任需要進一步分析——但它將分配結構定位在一個已被計算出的量中,而非一個必須被提取出來的量。
對于目標函數設計而言,該分析將對數和指數函數重新定義為一種結構性要求,而非僅僅是數值上的便利。引入Softmax通常是為了避免溢出或產生性質良好的梯度。隱式EM的視角揭示了一個更深層的作用:對數和指數函數引發了競爭,競爭產生了責任,而責任則使學習表現得像推理。如果需要類似推理的行為,LSE結構就是必不可少的。如果不需要這種行為——如果更傾向于獨立的預測或魯棒的異常值處理——那么就應該有意識地避免使用LSE。這個選擇無關數值穩定性;它關乎目標函數將產生何種類型的學習動態。
對于理論而言,該框架消解了一個長期存在的分野。優化和推理傳統上是不同的:一個關注尋找最小化損失的參數,另一個關注計算潛在變量的后驗。隱式EM的結果表明,在正確的目標函數下,這兩者是同一過程在不同層次上的觀察。當梯度就是責任時,梯度下降就是推理。這并不是聲稱所有優化都是推理,而是指對于一類明確界定的目標函數,其間的區別消失了。前向傳播計算后驗;反向傳播應用后驗。訓練就是推理,在整個數據集上持續進行。
7.3 開放方向
仍有幾個方向待探索。神經目標函數中缺乏體積控制——缺失的對數行列式——導致了目前由啟發式方法管理的坍縮風險。一個原則性的方法要么從架構選擇中推導出隱含的體積項,要么設計顯式包含這些項的目標函數。理解歸一化層何時能夠替代體積控制,何時不能,這將把隱式EM框架與實際訓練中的穩定性問題聯系起來。
現實環境中的監督很少是干凈的。標簽可能帶有噪聲、是部分的或不確定的。約束機制的分析假設硬標簽能精確地固定責任;更全面的處理應將軟性或概率性監督建模為對責任結構的部分約束。這可能將半監督學習、標簽平滑以及從眾包標注中學習統一到隱式EM框架下。
開放集推理需要擺脫封閉世界的假設。當前的目標函數強制每個輸入都被分配;現實的部署需要提供拒絕的選項。支持非分配的目標函數——一個顯式的"以上皆非"組件,或者一個低于其則沒有組件承擔責任的門檻——將把隱式EM擴展到并非所有輸入都屬于已知類別的環境中。
最后,需要診斷工具。如果訓練好的網絡執行了隱式EM,那么這應該是可以測量的:從梯度中提取責任,追蹤訓練過程中的特化,檢測機制何時失效或退化。這樣的工具將把該框架從解釋性理論轉變為實用工具,使研究人員能夠驗證給定模型是否展現出理論預測的動態。
8 結論
![]()
其意義是直接的。在基于距離的對數求和指數目標函數上進行梯度下降,隱式地執行了期望最大化算法。責任并非作為輔助量計算得到;它們就是梯度本身。前向傳播是 E 步;反向傳播是 M 步。不需要顯式的推理算法,因為推理已經嵌入在優化之中。
這種機制統一了以往被視為不同的現象。無監督混合學習、Transformer 中的注意力機制以及交叉熵分類,是同一底層過程的三種表現形式——它們在觀測內容和潛在變量上有所不同,但受相同的動態所支配。最近在訓練好的 Transformer 中觀察到的貝葉斯結構并非一個涌現的謎團;它是用于訓練它們的目標函數的必然結果。
優化和推理是同一過程在不同尺度上的觀察。
原文鏈接:https://arxiv.org/pdf/2512.24780
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.