網易首頁 > 網易號 > 正文申請入駐

移動網絡具身智能的主動貝葉斯推理

2026-02-28 14:54:47　來源: CreateAMind

上海舉報

分享至

BRAIN: Bayesian Reasoning via Active Inference for Agentic and

Embodied Intelligence in Mobile Networks

BRAIN：移動網絡具身智能的主動貝葉斯推理

https://arxiv.org/pdf/2602.14033v1

摘要——

未來第六代（6G）移動網絡將需要人工智能（AI）智能體，它們不僅自主且高效，而且能夠在動態環境中實時適應，并在決策中保持透明。然而，當前網絡中主流的代理式 AI 方法在此方面表現出顯著的不足。傳統的基于深度強化學習（DRL）的智能體缺乏可解釋性，且常受困于適應性脆弱問題，包括在非平穩條件下對過往知識的災難性遺忘。在本文中，我們針對這些挑戰提出了一種替代解決方案：基于主動推理的貝葉斯推理（BRAIN）智能體。BRAIN 利用網絡環境的深度生成模型，并最小化變分自由能，從而在單一閉環范式中統一感知與行動。我們將 BRAIN 作為 O-RAN 擴展應用（xApp）實現于 GPU 加速測試床上，并展示了其相較于標準 DRL 基線的優勢。在我們的實驗中，BRAIN 展現出：(i) 針對動態無線電資源分配的穩健因果推理，在不同流量負載下維持切片特定的服務質量（QoS）目標（吞吐量、延遲、可靠性）；(ii) 卓越的適應性，與基準相比對突發流量變化的穩健性高出高達 28.3%（無需任何重新訓練即可實現）；以及 (iii) 通過人類可理解的信念狀態診斷對其決策進行實時解釋。

索引術語——主動推理，具身智能，移動網絡，可信性，6G。

I. 引言

人工智能（AI）近年來取得了顯著進展，從利用強化學習（RL）掌握復雜游戲與控制任務，到借助大語言模型（LLM）與生成式 AI 產出類人內容。然而，這些成就在很大程度上仍是"去具身化"的：模型運行于仿真或數據驅動的環境中，缺乏直接的物理 grounding（現實錨定）。例如，大語言模型擅長從靜態數據集中進行模式識別與生成，但無法與動態變化的環境進行交互。同樣，深度強化學習（DRL）智能體通常在精心設計的仿真環境中訓練，其獎勵函數固定，一旦面對訓練分布之外的真實世界動態，往往難以應對。本質上，當今的 AI 系統尚不具備具身智能體所特有的整體性、自適應智能——即能夠在真實世界中持續感知、行動并學習的能力 [1]。

這一差距在新興的第六代（6G）及未來移動網絡背景下尤為關鍵 [2]。未來的這些網絡預計將連接數百億臺設備，并支持具有嚴苛性能需求的前所未有的服務，因此亟需采用“AI原生”的設計原則，將學習與控制智能深度融入基礎設施之中 [2, 3]。無線環境本質上是復雜且非平穩的：信道條件、用戶移動性和流量模式持續波動 [4]。此外，6G 必須滿足各類應用場景下多樣化的服務質量（QoS）/體驗質量（QoE）要求 [5]。然而，迄今為止大多數所謂的“AI賦能”網絡解決方案，僅僅是將現成的深度學習模型（例如卷積神經網絡 [6] 或深度自編碼器 [7]）應用于特定任務，而未從根本上重新思考網絡的認知架構 [8]。盡管這些模型能夠從歷史數據中學習輸入-輸出映射關系，但當網絡條件偏離訓練集時，往往難以有效泛化。

強化學習（RL）通過使 AI 能夠直接與環境交互進行學習，引入了一定程度的自主性 [9]。事實上，基于深度強化學習（DRL）的方法已在無線領域展現出潛力，用于解決從動態頻譜分配、功率控制到切換優化和端到端網絡切片等一系列問題 [10–12]。然而，傳統 DRL 方案存在兩大主要缺陷，限制了其作為自主 6G 網絡“大腦”的適用性。首先，DRL 策略通常由深度神經網絡實現，表現為不透明的“黑箱”[13]；其次，標準 DRL 對變化條件的適應能力極為有限 [14]。一旦 DRL 智能體針對某一特定環境或流量場景完成訓練，便容易對該條件過擬合。神經策略易發生“災難性遺忘”：在學習或微調新數據時，會覆蓋先前習得的行為 [4]。圖 1 在網絡切片場景中展示了這一挑戰：一個基準 DRL 智能體在適應超可靠低延遲通信（URLLC）切片后，很快“遺忘”了如何為增強型移動寬帶（eMBB）切片提供服務，反之亦然，導致每次先前條件重現時都需耗費高昂成本重新學習。

這些局限性表明，有必要對網絡 AI 進行根本性的重構。學界日益達成共識：下一代網絡應集成更高層次的認知能力——融合記憶、感知與推理等要素，而非僅依賴低層次的模式識別 [8, 15]。本質上，此類系統中的 AI 智能體不再只是離線模型，而是物理網絡環境中的主動參與者。這種具身智能體（agentic）愿景自然導向“主動推理”（Active Inference），將其視為網絡智能發展的有前景的下一步方向。主動推理被描述為實現此類具身 AI 的理想框架，因其仿效了自然智能系統如何通過以自由能原理為基礎的“行動–感知”閉環來學習與適應 [16]。該理論最初源于認知神經科學 [17]，提供了一種基于貝葉斯推理的統一理論，用以解釋感知、學習與行動。與傳統 RL 不同，主動推理智能體不依賴人工設計的獎勵信號；相反，它維護一個關于環境及其期望結果的內部生成模型。該智能體持續更新其對世界隱狀態的信念（感知步驟），并通過最小化變分自由能來選擇行動以實現目標——變分自由能衡量的是智能體預期與其觀測之間的預測誤差或“意外度”（surprise）。本質上，智能體會先預測“應該發生什么”（基于其模型和目標），然后采取行動使現實與這些預期一致，從而降低意外度。

本文提出一種面向移動網絡資源管理的可解釋深度主動推理智能體，并在 AI-RAN 測試平臺上實現。本工作是對一篇目前正在審稿中的研討會論文的詳細擴展版本。除原始核心概念外，我們：(i) 通過引入更多先進智能體基線和詳盡的消融實驗，拓展了實驗深度；(ii) 增加了對所有智能體的受控非平穩性壓力測試，以量化其魯棒性與恢復能力；(iii) 引入策略熵分析，使 DRL 與主動推理在探索–利用動態方面的表現具有可比性，并擴充了相關章節與討論。我們將該框架命名為 BRAIN（Bayesian Reasoning via Active INference，即“基于主動推理的貝葉斯推理”），并將其構想為 AI 原生無線接入網（RAN）控制器的“電信大腦”。圖 2 對比了傳統 DRL 智能體與我們所提出的 BRAIN 智能體的范式差異。BRAIN 架構采用深度生成式主動推理模型，建模潛在網絡狀態（如擁塞水平、信道條件、用戶移動性）與可觀測性能指標之間的關系，同時將期望結果（如切片特定的 QoS 目標）編碼為先驗信念。在每個控制周期，智能體通過最小化變分自由能執行主動推理：首先推斷當前最可能的網絡狀態（感知步驟），然后計算最優的資源分配動作（行動步驟），以驅動網絡預測性能更接近目標（即修正期望結果與實際觀測之間的偏差）。這一推理與行動的循環使 BRAIN 能夠同時實現在線學習與控制。不同于 DRL 智能體在環境變化時需重新訓練，BRAIN 能在新觀測到達時實時持續更新其信念，賦予其一種終身學習能力，可優雅地應對分布偏移。此外，由于智能體的內部計算圍繞概率信念與自由能貢獻展開，我們可以利用這些中間結果來理解并解釋其行為。

本研究的核心成果總結如下，分為新貢獻（“C”）與新發現（“F”）：

C1. 我們提出了 BRAIN——首個用于 O-RAN 中 AI-RAN 閉環 RAN 切片的深度主動推理智能體。
C2. 我們設計的 BRAIN 智能體具備內在可解釋性，通過暴露對潛在切片狀態的后驗信念，以及對期望自由能（EFE）的分解，從目標一致性（外在價值）和不確定性降低（認知價值）兩個維度對每個動作進行解釋。

F1. 在動態切片實驗中，BRAIN 展現出對非平穩條件的持續適應能力，在動態負載下更可靠地維持異構切片的服務意圖。
F2. 與黑箱式 DRL 不同，BRAIN 暴露可解釋的內部變量，使得資源分配決策具備因果性和可審計的解釋能力。

II. 相關工作

本節將 BRAIN 定位在支撐移動網絡中智能體智能的三個互補研究脈絡中。首先，我們回顧 RL/DRL 如何在網絡控制和編排中落地實施，特別是在開放無線接入網（O-RAN）和切片中，作為實踐中主導的智能體范式。其次，我們總結無線 AI 中的可解釋性努力，包括可解釋人工智能（XAI）和新興的可解釋強化學習（XRL）方法，強調可解釋性通常在多大程度上是事后引入的，而非決策過程固有的。第三，我們討論主動推理作為一種具身智能框架，它通過概率生成建模和變分推斷統一感知與行動，并指出目前在通信系統中部署帶有面向網絡運維人員解釋的深度主動推理的證據有限。綜上所述，這些研究工作闡明了我們的方法所解決的方法論差距：一種用于實時移動網絡控制的、內在可解釋且持續適應的智能體。

移動網絡上的 RL。 RL 以及 DRL 模型已被越來越多地采用于無線網絡中的動態資源管理和控制任務。Liu 等人 [11] 提出了 OnSlicing，這是一個用于跨 RAN、傳輸、核心和邊緣域端到端網絡切片的在線 DRL 框架。ORANSlice [12] 是一個專為 O-RAN 生態系統量身定制的用于 5G 網絡切片的開源模塊化平臺。它在靈活框架內集成了切片生命周期管理、資源編排、監控和分析。雖然 RL 策略可以產生顯著的效率增益，但其不透明的性質（通常表現為“黑箱”神經網絡）阻礙了理解和調試，限制了實際部署。因此，最近的研究已開始探索 XRL 方法，通過明確闡明策略決策和學習到的行為來提高透明度。

移動網絡上的 XAI。 為了克服透明度問題，研究人員轉向了移動網絡領域中的 XAI 技術 [18, 19] [20]。近年來，幾項工作探索了使用流行的 XAI 方法（例如 SHAP [21] 和 LIME [22]）來解釋無線網絡任務的復雜模型 [23–25]。雖然有用，但此類通用 XAI 方法已被證明不足以滿足移動網絡的需求。它們僅提供表面見解，且往往難以應對網絡數據的時間性和高維特性。認識到這些差距，一些研究已開始追求針對特定領域的 XAI 和無線通信的內在可解釋模型。研究人員為網絡流量模型引入了自定義時間序列解釋器，跟蹤特征重要性如何隨時間演變，并識別導致錯誤的異常模式 [26, 27]。總體而言，這些努力強調無線 AI 中的可解釋性可能需要專家驅動的設計，以滿足網絡操作的可靠性和見解需求。值得注意的是，XRL 在其他領域（如機器人和自主系統）也日益受到關注，旨在從 RL 智能體中提取人類可理解的策略。然而，在無線網絡文獻中，可解釋 RL 或 DRL 迄今為止看到的探索非常有限。一個值得注意的方法是 SYMBXRL [28]，它在黑箱 DRL 模型之上引入了一個符號解釋層。在該框架中，符號表示生成器將數值狀態和動作變量轉換為離散的一階邏輯謂詞。相比之下，我們提出的框架采用了一種根本不同的范式，通過將可解釋性直接嵌入智能體的生成和推理過程中。因此，仍然迫切需要能夠解釋和證明不同學習智能體行為的新方法。

主動推理。 近年來，它已應用于工程領域，顯示出在不確定性下進行狀態估計、規劃和控制的潛力 [29]。這些早期研究表明，主動推理可以作為一種靈活的、受生物啟發的序列決策方法，區別于強化學習 [30]。需要注意的是，用于未知環境中自適應決策的 RL 形式體系被主動推理所涵蓋。研究人員已將主動推理應用于機器人控制任務，其中智能體的生成模型使其能夠處理模糊的感官輸入，但仍追求目標導向的行為 [31, 32]。主動推理的一個有趣方面是其內置可解釋性的潛力，盡管這一方面尚未得到具體驗證 [16, 33]。

III. 智能體AI設計的問題建模 A. 強化學習

我們將閉環RAN切片控制問題建模為不確定性下的序貫決策任務，可形式化為馬爾可夫決策過程（MDP）。在我們的場景中，智能體是近實時RIC控制擴展應用（xApp），環境由gNB及其切片（增強移動寬帶eMBB、超可靠低時延通信URLLC、大規模機器類通信mMTC）以及它們的流量和無線條件組成。

B. 主動推理

主動推理是一種源于認知神經科學的全新決策范式，為不確定性下的行動與感知提供了統一的方法[34]。與純粹從外部獎勵反饋中學習策略不同，主動推理智能體利用其對環境的內部生成模型，并采取行動以最小化其觀測的"驚訝度"（預測誤差）。在我們的場景中，這意味著智能體（我們的BRAIN xApp）被設計為對RAN切片系統具有先驗期望；例如，URLLC切片的緩沖區應保持較低（以表示低延遲），eMBB切片的吞吐量應較高。然后，智能體持續調整其動作，使觀測到的切片性能與這些內部期望保持一致，從而減少與期望行為的意外偏差。

從數學上講，主動推理將閉環控制問題轉化為變分推斷過程。智能體擁有RAN環境的概率生成模型，并將真實網絡狀態視為待推斷的潛在（隱藏）變量。我們可以通過以下聯合分布將時間范圍 T 上的生成模型形式化：

總之，我們基于主動推理的控制器持續更新其對RAN切片的內部模型，并選擇最小化期望自由能的資源控制動作。這導致一種閉環行為，其中智能體通過確保切片性能達到目標目標，使其觀測 unsurprising（不出人意料）。值得注意的是，該框架自然處理部分可觀測性（將真實網絡條件視為待推斷的潛在變量），并通過內置偏好編碼容納多個切片目標（每個切片的QoS目標在智能體模型中反映為偏好結果）。其結果是形成一種有原則的控制策略，與標準強化學習不同，它不需要為每個場景外部定義獎勵函數，而是源于智能體最小化預測誤差并維護其建模服務目標的內在驅動。

IV. 可解釋深度主動推理設計 A. 生成模型設計

V. 實驗設計 A. GPU加速的AI-RAN測試平臺

我們部署了一個私有5G測試平臺（見圖3），采用基于NVIDIA Aerial Research Cloud (ARC) 平臺[36, 37]和Aerial SDK[38]構建的GPU加速O-RAN架構。在我們的設置中，gNB的協議棧被分為兩部分：運行在NVIDIA GPU上的O-DU Low（層1 PHY），以及運行在x86 CPU上的O-DU High/CU（高層協議），使用OpenAirInterface (OAI)[39]。兩部分通過Small Cell Forum的FAPI接口通信，實現GPU上PHY層DSP任務的在線加速，同時保持標準的OAI軟件棧用于MAC/RLC/PDCP/RRC層。

富士康O-RU[40]在n78 TDD頻段（中頻段FR1）運行，提供射頻前端，通過標準O-RAN 7.2前傳接口連接。該O-RU支持100 MHz信道帶寬（30 kHz子載波間隔下273個PRB），采用TDD模式，TDD時隙配置遵循3GPP Release 15規范（如DDDSU時隙）。測試平臺配備了商用和軟件化UE以生成多切片流量。具體而言，我們使用COTS 5G UE（Sierra Wireless EM9191調制解調器模塊）和基于OAI的軟件UE（nrUE）作為兩個終端設備。

Sierra Wireless EM9191提供真實的5G NR用戶設備，通過空口連接到gNB。OAI nrUE是一個軟件UE協議棧（也運行在帶有SDR前端的服務器上），模擬第二個5G UE，允許對其流量和切片配置進行細粒度控制。兩個UE都支持同時建立多個PDU會話，我們將其映射到不同的網絡切片（如下所述）。

B. 用例：智能編排

我們考慮一個多切片RAN場景，其中智能xApp作為自主智能體部署用于閉環切片資源編排。O-RAN近實時RIC托管我們的BRAIN xApp，它觀測網絡狀態并動態控制服務多個切片的gNB。在我們的設置中，單個100 MHz小區（一個O-RU/gNB）服務兩個UE，包含三種切片類型：eMBB、URLLC和大規模mMTC，每種具有不同的QoS要求（eMBB要求高吞吐量，URLLC要求低延遲，mMTC要求高可靠性）。gNB的MAC是切片感知的，為每個切片維護獨立的緩沖區和調度隊列，UE為其各自的切片生成流量（例如，一個UE通過獨立的PDU會話在eMBB上承載視頻流、在URLLC上承載實時控制流，另一個UE在mMTC上承載間歇性IoT遙測數據）。這為xApp智能體形成了一個豐富的編排環境。

BRAIN xApp通過O-RAN E2接口持續監控切片性能。一個輕量級KPM監控xApp流式傳輸實時遙測數據[41]；如切片特定的下行吞吐量、緩沖區占用率（隊列長度）和下行傳輸塊計數，進入RIC的數據層（使用標準O-RAN KPM服務模型）。這些指標在先前工作[42]中被證明能有效捕獲切片流量需求和QoS條件，構成我們智能體觀測的狀態 s。

在每個控制間隔（數十毫秒量級），BRAIN計算動作 a 以調整RAN切片策略。動作空間包括調整每個切片的PRB分配比例（在eMBB/URLLC/mMTC之間劃分小區帶寬）以及為每個切片選擇調度算法（如比例公平、輪詢或加權公平隊列）。這些命令通過O-RAN E2控制消息分派給gNB（使用與O-RAN規范一致的自定義控制服務模型），從而閉合控制環路。在這種智能體部署中，xApp自主實時調整網絡參數以滿足切片服務級目標。

切片特定的QoS優先級被編碼到智能體的獎勵（或效用）函數中以驅動其行為。在我們的設計中：

eMBB切片以吞吐量為導向（智能體獎勵高eMBB數據速率）
URLLC切片對延遲敏感（智能體懲罰大URLLC緩沖區占用以最小化排隊延遲）
mMTC切片以可靠性為重點（智能體獎勵mMTC傳輸塊的成功傳輸，這與間歇性IoT流量的可靠覆蓋相關）

在這些目標的指導下，BRAIN xApp可以例如在擁塞期間為URLLC分配額外PRB以迅速清空其隊列，或在間歇性上行數據包到達時將mMTC切片的調度器切換到更具機會性的模式。來自監控xApp的不斷更新的KPM狀態使BRAIN能夠驗證切片性能指標是否得到滿足，并在未滿足時快速反應。

C. 基線智能體與訓練方法

調優基線智能體。為評估我們的BRAIN智能體，我們將其與更廣泛的基線智能體套件進行比較，包括學習策略和啟發式調度器。具體而言，我們實現了：

? 調優啟發式（Tuned Heuristic）：在切片間靜態劃分PRB（根據固定優先級權重），使用加權輪詢調度器（非學習基線）

? 深度Q網絡（DQN）智能體，用于切片控制[43]

? 優勢演員-評論家（A2C）智能體[44]

? ** vanilla策略梯度智能體（REINFORCE）**[45]

? 近端策略優化（PPO）智能體[46]

? 軟演員-評論家（SAC）智能體[47]

所有自定義智能體均用PyTorch實現，并部署為容器化xApp，使其與O-RAN近實時RIC平臺兼容。我們通過在線學習方式讓每個智能體與我們的RAN測試平臺直接交互進行訓練（智能體xApp在接收新觀測和獎勵時持續更新其策略）。為確保公平評估，每個學習智能體訓練相同數量的時間步（約次環境交互，在20 ms控制間隔下相當于數小時的網絡時間）。我們在多個隨機種子上重復每個訓練實驗（例如，每個智能體5次獨立運行），并報告具有95%置信區間的平均性能，以考慮隨機變異性。我們比較訓練迭代次數和實際掛鐘時間的收斂速度，因為像PPO這樣的同策略方法需要更多交互但每步計算較少，而像SAC這樣的異策略方法可以以更密集的更新為代價從較少交互中學習。

訓練。為用一個共同標量表征所有控制器的探索-利用行為，我們報告訓練時間上的策略熵。對于每個回合，我們計算用于在每個時間步生成決策的動作選擇分布的香農熵，并在回合內取平均：

除整體性能外，我們設計實驗以探測每個控制器的適應性和魯棒性。我們在訓練/部署期間引入受控的非平穩性。例如，在實驗中途突然改變流量強度或切換信道條件，以評估每個智能體重新調整到新網絡動態的速度。這測試了對變化條件的恢復力和強化學習基線中潛在的災難性遺忘（即，在一種流量分布下訓練的策略在分布變化時是否失敗）。

我們還對BRAIN智能體的關鍵參數進行敏感性分析，包括切片偏好模型和獎勵加權（外在QoS目標與認識探索獎勵）、決策中使用的規劃范圍長度，以及狀態輸入中的觀測噪聲水平。通過改變這些因素，我們評估智能體性能對錯誤指定偏好或不確定性的魯棒性。

VI. 評估

分析智能體性能。圖4總結了BRAIN智能體與調優啟發式基線及各種DRL智能體（A2C、PPO、DQN、SAC、REINFORCE）在AI-RAN測試平臺中的訓練性能。

在圖4a中，BRAIN智能體的獎勵曲線陡峭上升，在遠 fewer 的回合內收斂，并達到比所有基線（包括調優啟發式）更高的漸近獎勵。這表明BRAIN以顯著更高的樣本效率學習有效策略；從有限交互中提取更多累積獎勵。相比之下，DRL智能體表現出較慢的獎勵增長和較低的平臺期，反映了無模型強化學習典型的繁重試錯搜索。更快的獎勵收斂意味著BRAIN可以用比DRL基準少得多的訓練數據達到近最優控制決策——這在現實網絡中是關鍵優勢，其中每個訓練回合（例如，次優決策的時隙）都有實際成本。

圖4b繪制了平均訓練損失，BRAIN再次以明顯更低且更穩定的損失軌跡脫穎而出。BRAIN智能體的損失始終比深度RL智能體的損失低近一個數量級，并顯示出最小振蕩。這種穩定性表明BRAIN的學習更新表現良好，防止了經常困擾DRL訓練的大梯度擺動或發散問題。相比之下，RL基線（尤其是像DQN或REINFORCE這樣更不穩定的）表現出更高的損失值和明顯波動，信號學習不太穩定。RL中的這種不穩定性可能源于算法難以適應RAN的非平穩動態：當環境的"規則"（如用戶負載、信道條件）持續變化時，傳統RL智能體難以重用先前知識，可能需要反復重新學習。

圖4c說明了隨時間的策略熵，揭示了每個智能體的探索-利用平衡。BRAIN的熵開始時較高（鼓勵探索），然后隨著訓練進行逐漸下降。重要的是，它從未收斂到零；相反，BRAIN的熵逐漸降至中等水平，表明受控的探索策略。這種穩定的熵降低表明BRAIN在早期系統性地探索動作空間，然后在收斂時自信地利用其學習策略，所有這些都未過早失去決策多樣性。

可解釋性分析。我們將每個切片的需求建模為隱藏狀態（低/中/高），并在圖5中將智能體的后驗信念隨時間可視化為熱圖。

在圖6a的eMBB切片中，我們觀察到認識價值在早期階段占主導，綠色區域最為突出。這表明智能體最初探索eMBB流量需求的不確定方面，可能執行觀測驅動或探測動作以細化其關于帶寬需求的內部信念。隨著時間推移，認識項穩步下降，而外在成本增加。這種轉變反映智能體已獲得足夠信念信心，開始轉向利用行為，專注于將切片資源分配與性能偏好對齊。

在圖6b的URLLC切片中，出現略微不同的模式。認識分量和外在分量在早期階段更加平衡，意味著智能體同時探索和調節URLLC的延遲關鍵需求。這種行為反映了URLLC的嚴格QoS約束，這要求即使早期決策也考慮外在風險。

在圖6c的mMTC切片中，我們看到最強且最持久的認識參與。綠色區域主導圖的前半部分，表明智能體最初投入大量探索努力以理解mMTC的需求動態，這可能是突發和稀疏的。在之后，外在價值急劇增加，因為智能體開始強制執行目標導向行為。

切片性能。圖7報告了三個異構切片的每切片經驗KPM累積分布函數（CDF），在AI-RAN測試平臺上對所有智能體使用相同的狀態/動作接口測量。使用CDF（而非僅均值）很重要，因為它暴露了尾部行為和可靠性：CDF右移表示智能體更頻繁地實現更大的KPM值（"更好→"），而更陡峭的CDF表示變異性降低（更可預測的操作）。

圖7a顯示，BRAIN產生了最有利的吞吐量分布；相對于所有DRL基線和調優啟發式，表明在整個操作范圍內基本上實現更高吞吐量。定性而言，BRAIN不僅提高了中位吞吐量，還提高了上分位數，表明智能體學習了一種切片策略，即使在滿足更嚴格的URLLC/mMTC需求時也能保持eMBB容量。相比之下，基線表現出i）較低的中位數或ii）較大的離散度，意味著在相同流量組合和控制預算下eMBB服務不太一致。

圖7b報告了URLLC PRB比率（即切片和調度決策有效分配/提供給URLLC的物理資源比例）的分布。更高的URLLC PRB比率CDF反映對URLLC更強的資源保護，這與在擁塞下滿足延遲敏感目標一致。BRAIN表現出最右移的曲線，表明它在需要時更可靠地分配/維持更高的URLLC資源份額。這種行為與具身主動推理設計一致：智能體的動作后驗（通過EFE形成）當信念表明隊列壓力上升時，自然地增加對URLLC保護動作的精度，而非依賴脆弱的獎勵塑造或回合重新訓練。幾個DRL基線（特別是REINFORCE和調優啟發式）在較低PRB比率處顯示出 substantially 更多的質量，這通常對應于URLLC配置不足、因此更容易受到隊列累積和延遲違規影響的時期。

圖7c比較了mMTC切片的交付下行PHY TB分布，我們在設置中將其用作可靠性導向的代理（成功的TB交付反映對間歇性IoT/遙測流量的持續服務）。與DRL基線相比，BRAIN對TB分布提供了適度但一致的改善，表明在不犧牲eMBB吞吐量或URLLC保護的情況下提高了可靠性。重要的是，低性能尾部減少：BRAIN產生更少的"近饑餓"間隔（非常低的TB速率），這對mMTC至關重要，因為突發流量仍必須可預測地交付。

除平均獎勵外，我們評估控制器在分布變化下是否維持切片特定的服務保證。具體而言，我們測量每個智能體在受控非平穩事件前后將所有切片保持在QoS目標內的可靠性。在圖8中，在非平穩事件之前（），BRAIN實現了最高的全切片QoS滿意度，表明它在標稱狀態下最一致地將所有切片約束保持在目標內。在處，所有基于學習的智能體由于流量激增表現出QoS Sat(t)的急劇下降；然而，BRAIN顯示出最小的退化，并最快恢復到其轉移前水平。相比之下，DRL基線遭受更大的轉移后下降，恢復更慢，穩定在較低的QoS滿意度水平；與分布變化下適應性降低和部分遺忘一致。調優啟發式在整個過程中基本保持平坦且遠低于學習智能體，證實靜態切片策略無法對突然的狀態變化做出反應。

VII. 結論

這項工作證明，深度主動推理不僅是移動網絡中智能體和具身智能的概念契合，也是真實開放AI-RAN協議棧上的實用控制范式。我們引入了BRAIN作為xApp，通過兩個緊密耦合的操作閉合網絡動作-感知環路：(i) 從流式KPM對潛在切片條件進行貝葉斯信念更新，以及(ii) 期望自由能最小化以選擇聯合滿足切片意圖和減少不確定性的資源分配動作。

在具有異構切片的GPU加速AI-RAN測試平臺上，BRAIN產生了三個具體成果。首先，它實現了比調優啟發式和廣泛DRL基線更強的切片性能。其次，它在非平穩性下提供了魯棒適應：當流量分布突然變化時，BRAIN表現出最小的QoS滿意度退化和最快的恢復，無需重新訓練。第三，它在運行時提供了面向運營商的可解釋性。除經驗優勢外，更廣泛的見解是，主動推理通過將決策基于有原則的貝葉斯信念更新而非獎勵工程，實現了真正的智能體、具身控制。

對于未來工作，有前景的方向包括將框架擴展到O-RAN中的分層、多時間尺度主動推理，其中近實時xApp在非實時意圖下運行，并使用結構化生成模型進行策略協調。另一個重要的研究方向可以是擴展到多小區和多智能體部署，實現xApp在干擾和移動性耦合下的協調，并研究在真實遙測和前傳約束下的分布式信念共享。

原文鏈接：https://arxiv.org/pdf/2602.14033v1

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.