網易首頁 > 網易號 > 正文申請入駐

回看2025，AI的系統工程時刻：重構智能的底座與邊界

2026-03-30 19:55:09　來源: 鈦媒體APP

北京舉報

分享至

本文摘自《云棲戰略參考》，這本刊物由阿里云與鈦媒體聯合策劃。目的是為了把各個行業先行者的技術探索、業務實踐呈現出來，與思考同樣問題的“數智先行者”共同探討、碰撞，希望這些內容能讓你有所啟發。

文/阿里云研究院

站在2026年的節點回望，2025年無疑是人工智能發展史上的關鍵轉折之年，在算力狂歡和參數規模的軍備競賽之后，人工智能技術開始全面扎根，經歷了一場從單點突破向系統重構的深刻質變。

這一年，多模態技術走向成熟，超長上下文成為標配，智能體（Agent）開始嘗試解決復雜的現實任務。但與此同時，效率瓶頸、路徑分歧、成本壓力與場景落地等深層次挑戰也接踵而至。面對這些挑戰，單純依賴模型參數的堆疊已面臨邊際效益遞減。我們清晰地看到，破解難題的鑰匙，在于“系統工程”——即從底層基礎設施到上層應用范式的全鏈路協同創新。不僅要追求更聰明的模型，更要構建更高效的算力、更嚴謹的邏輯、更安全的防線以及更自主的執行力。

正是在這種系統工程思維的指引下，阿里云對AI技術棧進行了全方位的重構與升級。在模型架構的底層革新、基礎設施與訓推體系的工業化升級、內生安全與指令遵循的可信構建、多模態感官的全面打通，以及智能體自主認知的范式躍遷等五大維度取得了系統性突破。本文將深度復盤這些關鍵技術進展，勾勒中國科技企業如何以系統工程思維，推動AI從技術驗證邁向規模化產業應用的深水區。

架構重塑：打破認知的物理瓶頸

模型架構是AI的大腦結構，它定義了信息處理的效率上限。隨著大模型進入長序列、多任務并行的深水區，傳統架構在處理海量信息時面臨著計算復雜度呈平方級增長、有效信息被淹沒等本質難題。阿里云在2025年的一系列架構創新，旨在從根源上釋放模型的認知潛力。

告別“注意力沉沒”，重構信息篩選邏輯

注意力機制是Transformer的核心，但在處理長序列時，傳統模型普遍存在“注意力沉沒”現象——即模型傾向于過度關注序列開頭的幾個詞，導致后續關鍵信息被忽略。這不僅浪費了寶貴的算力，更限制了模型對長文檔的理解深度。

阿里云在NeurIPS 2025發表的研究中提出了門控注意力機制。它如同給模型的“眼睛”裝上了一個智能且動態的“瞳孔”，能在計算注意力時實時過濾噪聲。數據顯示，該機制將平均每層對初始Token的無效關注比例從46.7%壓縮至4.8%。這不僅大幅提升了計算的有效性，更讓模型在長文檔分析、代碼庫級編程等場景下的性能提升超過27%。

與此同時，為了解決超長序列帶來的計算負擔，阿里云在Qwen3-Next等模型中引入了線性注意力機制。通過數學分解將計算復雜度從二次方降低到線性，使得模型在處理數萬乃至數十萬Token時，內存占用和時延顯著下降，使處理整本書級別的長文本變得既快又省。

釋放MoE的專精潛力

混合專家模型（MoE）是提升模型容量的關鍵路徑，但如何讓成百上千個專家高效分工一直是行業難題。傳統的負載平衡策略往往為了追求計算均勻，導致專家泛而不精。

阿里云創新性地提出了全局批次負載平衡策略。不再苛求每一個微小批次的數據都平均分配，而是著眼于全局數據的均衡。這種策略賦予了路由器更大的自由度，使得模型內部自發涌現出了清晰的專業化分工。結果顯示，這種內生性的專業化，讓模型在同等規模下獲得了顯著更強的知識深度與任務處理能力。

工業化閉環：基礎設施、后訓練與推理服務的協同進階

如果說架構是設計圖，那么基礎設施、后訓練與推理服務則構成了AI的流水線。只有這三個環節實現工業化級別的協同，AI才能打破“高成本、低效率”的詛咒，真正實現普惠。

基礎設施：從盲測到精益制造與極致調度

在大模型研發與服務的全生命周期中，基礎設施的效率直接決定了創新的成本。

在研發側，試錯成本是最大的攔路虎。阿里云研發的SimAI高精度訓練模擬器，通過無縫接入主流框架，能以98.1%的對齊度在單機環境下模擬分布式訓練的真實負載。這意味著，在動用昂貴的GPU集群前，架構師就能精準預測性能瓶頸，將硬件選型從經驗驅動升級為數據驅動。而DataMan數據管理器，則實現了從數據源頭到訓練終點的智能化治理，僅用60%的高質量篩選數據即可達到全量訓練效果。

在服務側，資源調度的顆粒度決定了成本的下限。阿里云推出的Aegaeon多模型服務系統，是一次對云上資源利用率的極致挖掘。傳統系統按請求調度，容易阻塞；Aegaeon則實現了“Token粒度”的自動擴縮容，允許GPU在生成一個Token的微小間隙即刻切換服務對象。結合高效的組件復用與內存管理，該系統將GPU資源池的利用率從不足34%提升至48%，在內部部署中顯著減少了GPU需求，使得同時部署千百個模型成為經濟可行的現實。

后訓練：賦予模型邏輯與理性

預訓練讓模型獲得了知識，但后訓練才是決定其邏輯嚴密性的關鍵。阿里云在2025年推動了一場從結果導向到過程監督的范式革命。

針對復雜數學與邏輯任務，阿里云引入了過程級價值評估（PRM）。不同于只看最終答案，該機制能對推理鏈條的每一步進行審核。在Qwen數學模型的訓練中，這種技術使其能精準定位微小的邏輯偏差，從而在極具挑戰的AIME 2024大賽中成功解出21道難題，證明了AI從依靠概率猜測進化為具備嚴密推導能力的“理科生”。此外，針對MoE模型在強化學習中易發散的難題，GSPO（組序列策略優化）與CHORD動態協同機制提供了理論完備的解決方案。這些創新平衡了模仿專家與自我探索的關系，確保模型在不斷進化的同時，不會遺忘已有的知識，實現了工業級可靠性的能力躍遷。

推理服務：測試時擴展與智能壓縮技術的躍升

在模型落地環節，除了成本，性能與準確率的平衡同樣關鍵。阿里云通過一系列算法創新，不僅讓模型跑得快，更讓模型在推理階段能多想一步。

針對高精度需求，阿里云引入了測試時擴展（Test-Time Scaling）技術。這就好比讓考生在考試時多花時間檢查。而通過自截斷N選優（ST-BoN）算法，模型在生成早期就能通過內部狀態預判路徑優劣，快速鎖定最優解并截斷其他路徑。這種“早預判、早放棄”的策略，在相同計算成本下可將準確率提升3-4個百分點，且無需依賴額外的獎勵模型。此外，TeaCache技術通過緩存視頻生成中的冗余計算，實現了4.41倍的提速；而AsymKV非對稱量化技術，則精準區分Key與Value的敏感度，大幅降低了長文本推理的顯存占用。這些技術組合拳，構建了一個高性能、低成本的推理服務體系。

可信基石：內生安全與指令遵循的深度對齊

隨著AI深入金融、醫療等關鍵領域，安全與聽話變得比聰明更重要。阿里云不再滿足于外掛式的過濾，而是深入模型機理，構建內生的免疫系統與精準的執行能力。

內生安全：解密“安全注意力頭”與神經元級調控

安全不能是黑盒。阿里云研究團隊在深入探究模型內部機理時發現，模型中存在特定的“安全注意力頭（Safety Attention Heads）”。這些特殊的結構單元就像電路中的保險絲，在處理潛在風險內容時起著決定性的阻斷作用。實驗數據表明，僅移除模型中極小比例的關鍵安全頭，就會導致模型的防御成功率大幅下降。基于這一發現，阿里云實現了神經元級的安全調控。在應用層，Qwen3Guard安全護欄系統引入了創新的三分類機制（安全、不安全、有爭議），打破了非黑即白的僵化審核，讓業務方能根據場景靈活定義邊界。同時，STAIR框架賦予了模型三思而后行的內省能力，在回復高危問題前先進行思維鏈推理，分析用戶意圖與合規邊界，顯著提升了面對隱晦攻擊時的防御力。

指令遵循：自我博弈下的極致執行

為了讓模型更精準地執行復雜指令，阿里云推出了AutoIF自我博弈機制。針對代碼生成與復雜任務規劃中“靜態數據不足以覆蓋動態錯誤”的痛點，該機制引入了由模型主導的“生成-執行-驗證”閉環。模型化身出題人與判卷人，通過生成代碼并執行單元測試獲取反饋，在沒有人工標注的情況下自主進化。這種機制讓Qwen模型在代碼生成與復雜任務規劃上的表現大幅提升。針對“寫一首詩，不包含字母E，且每行字數相同”這類包含多重限制的苛刻指令，IOPO（輸入-輸出聯合偏好優化）技術將優化的視野擴展到了輸入-輸出的聯合空間。它迫使模型細致研讀輸入中的每一個約束條件，解決了長指令中的遺忘與顧此失彼問題。而SymDPO則通過符號化演示，解決了多模態少樣本學習中的邏輯斷層，讓模型真正看懂演示中的規律。

全感融合：多模態理解與生成的雙向奔赴

2025年，AI正在打通感知的任督二脈。阿里云在多模態領域的突破，不僅在于讓AI看得見、聽得清，更在于賦予其專業級的創造力，實現了從感知世界到創造世界的完整閉環。

理解：全雙工交互與長時程細粒度感知

在交互體驗上，Qwen3-Omni模型搭載了“Thinker-Talker”架構，通過MoE分工確保理解深度，并利用Talker模塊實現了毫秒級的實時語音交互。這種全雙工能力讓AI能像人類一樣插話、打斷、共情，徹底改變了人機對話的節奏。

在深度感知上，針對多圖推理和小時級長視頻分析的痛點，mPLUG-Owl3引入了Hyper Attention（超注意力）模塊。它在模型內部增加“圖文交叉注意力”，與文字注意力并行工作，既不占用文字上下文空間，又能精準匹配問題需要的圖像信息。這使得模型能輕松看懂2小時的電影，并精準回答關于細節的提問。而LLMDet則打破了目標檢測的類別限制，利用大模型能力實現了對開放世界物體的精準識別，為具身智能提供了敏銳的眼睛。

生成：生產力工具的范式升級

生成不僅僅是娛樂，更是生產力。Wan視頻大模型的升級發布，是視頻生成工業化的里程碑。它創新性地采用了“4×8×8倍時空壓縮”技術，統一了文生視頻、圖生視頻與視頻編輯任務，且1.3B輕量版讓消費級顯卡也能進行專業創作。針對視頻中角色互動的難題，MIMO空間解耦技術將視頻解構為角色、場景、遮擋物等獨立層進行編碼，終于解決了角色動作僵硬、互動失真的頑疾。在圖像與3D領域，Qwen-Image攻克了中文復雜排版（如豎排、雙語混排）的難題，ACE++框架則實現了基于自然語言的全能修圖。AniGS與HybridGS技術的出現，讓從單張照片生成可實時驅動的3D數字人、從充滿動態干擾的視頻中重建純凈3D場景成為現實。這些技術正在將內容產業從手工作坊推向智能制造，大幅降低了元宇宙與數字孿生的構建門檻。

自主進化：RAG與智能體的認知躍遷

如果說前述技術是AI的器官，那么RAG（檢索增強生成）與智能體（Agent）則是其手腳。2025年，AI正在從被動問答走向主動探索，展現出更強的自主規劃與社會適應力。

RAG：主動探索、邏輯內化與零成本訓練

傳統的搜索智能體訓練依賴昂貴的商業API。阿里云提出的ZeroSearch打破了這一僵局，構建了一個虛擬檢索環境，讓模型通過自我博弈學會如何搜索、搜什么，將Search Agent的訓練成本降低了數個數量級。

不僅如此，阿里云還致力于解決模型懂知識但不會用的問題。KG-SFT（知識圖譜微調）技術將外部知識的嚴謹結構內化為模型的思維直覺，顯著增強了模型在處理復雜知識時的邏輯操縱能力。同時，StructRAG與AirRAG賦予了模型在推理過程中動態重組信息結構、

利用蒙特卡洛樹搜索（MCTS）進行戰略規劃的能力，讓AI在面對海量碎片信息時不再迷失，而是能進行“三思而后行”的深度決策。

智能體：從工具到具備社會屬性的數字勞動力

為了解決長周期調研任務，WebResearcher提出了一種迭代式研究范式。它將深度調研重構為馬爾可夫決策過程，讓Agent能像人類研究員一樣，周期性整理中間報告，清理冗余上下文。這種機制賦予了Agent理論上無邊界的信息吞吐能力，能連續進行數十輪深度搜索，產出邏輯連貫的萬字深度研報。

在移動端，Mobile-Agent-v3引入了“反思者（Reflector）”模塊，實時監控屏幕狀態，具備了操作失敗后的自我糾錯能力。更有前瞻性的是GenSim社會模擬平臺，它通過標準化的“檔案-記憶-行動”架構，支持十萬級智能體并發運行。我們在平臺上成功復現了信息繭房、群體情緒傳播等社會現象。這不僅證明了智能體群體的演化規律，更為政策推演、輿情分析及社會治理提供了一個可控、可復現的數字平行世界。

結語

2025年，是AI技術去偽存真、深蹲起跳的一年。回顧過去這一年的技術演進，我們看到的不僅是單點算法的突破，更是一幅波瀾壯闊的系統工程畫卷。從底層的注意力機制到上層的社會模擬，從極致的推理優化到內生的安全機理，阿里云正在用全棧技術的系統性整合，回答一個終極命題：如何將簡單、經濟、可靠的智能能力，真正賦予千行百業。

這其中，開源與普惠始終是貫穿其中的主線。截至目前，千問（Qwen）系列大模型全球累計下載量已突破10億次，衍生模型數量超過20萬個。這組龐大的數字背后，是一個由全球開發者共同參與、蓬勃生長的創新生態。這證明了真正偉大的技術突破，不僅閃耀于論文，更生長于開放創新、共塑產業升級的廣闊實踐之中。

本文核心觀點與技術細節均提煉自最新發布的《阿里云年度AI技術進展》報告（點擊獲取）。

本文摘自《云棲戰略參考》總第21期

掃碼查看最新雜志

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.