![]()
本文摘自《云棲戰略參考》,這本刊物由阿里云與鈦媒體聯合策劃。目的是為了把各個行業先行者的技術探索、業務實踐呈現出來,與思考同樣問題的“數智先行者”共同探討、碰撞,希望這些內容能讓你有所啟發。
文/阿里云研究院
站在2026年的節點回望,2025年無疑是人工智能發展史上的關鍵轉折之年,在算力狂歡和參數規模的軍備競賽之后,人工智能技術開始全面扎根,經歷了一場從單點突破向系統重構的深刻質變。
這一年,多模態技術走向成熟,超長上下文成為標配,智能體(Agent)開始嘗試解決復雜的現實任務。但與此同時,效率瓶頸、路徑分歧、成本壓力與場景落地等深層次挑戰也接踵而至。面對這些挑戰,單純依賴模型參數的堆疊已面臨邊際效益遞減。我們清晰地看到,破解難題的鑰匙,在于“系統工程”——即從底層基礎設施到上層應用范式的全鏈路協同創新。不僅要追求更聰明的模型,更要構建更高效的算力、更嚴謹的邏輯、更安全的防線以及更自主的執行力。
正是在這種系統工程思維的指引下,阿里云對AI技術棧進行了全方位的重構與升級。在模型架構的底層革新、基礎設施與訓推體系的工業化升級、內生安全與指令遵循的可信構建、多模態感官的全面打通,以及智能體自主認知的范式躍遷等五大維度取得了系統性突破。本文將深度復盤這些關鍵技術進展,勾勒中國科技企業如何以系統工程思維,推動AI從技術驗證邁向規模化產業應用的深水區。
架構重塑:打破認知的物理瓶頸
模型架構是AI的大腦結構,它定義了信息處理的效率上限。隨著大模型進入長序列、多任務并行的深水區,傳統架構在處理海量信息時面臨著計算復雜度呈平方級增長、有效信息被淹沒等本質難題。阿里云在2025年的一系列架構創新,旨在從根源上釋放模型的認知潛力。
告別“注意力沉沒”,重構信息篩選邏輯
注意力機制是Transformer的核心,但在處理長序列時,傳統模型普遍存在“注意力沉沒”現象——即模型傾向于過度關注序列開頭的幾個詞,導致后續關鍵信息被忽略。這不僅浪費了寶貴的算力,更限制了模型對長文檔的理解深度。
阿里云在NeurIPS 2025發表的研究中提出了門控注意力機制。它如同給模型的“眼睛”裝上了一個智能且動態的“瞳孔”,能在計算注意力時實時過濾噪聲。數據顯示,該機制將平均每層對初始Token的無效關注比例從46.7%壓縮至4.8%。這不僅大幅提升了計算的有效性,更讓模型在長文檔分析、代碼庫級編程等場景下的性能提升超過27%。
與此同時,為了解決超長序列帶來的計算負擔,阿里云在Qwen3-Next等模型中引入了線性注意力機制。通過數學分解將計算復雜度從二次方降低到線性,使得模型在處理數萬乃至數十萬Token時,內存占用和時延顯著下降,使處理整本書級別的長文本變得既快又省。
釋放MoE的專精潛力
混合專家模型(MoE)是提升模型容量的關鍵路徑,但如何讓成百上千個專家高效分工一直是行業難題。傳統的負載平衡策略往往為了追求計算均勻,導致專家泛而不精。
阿里云創新性地提出了全局批次負載平衡策略。不再苛求每一個微小批次的數據都平均分配,而是著眼于全局數據的均衡。這種策略賦予了路由器更大的自由度,使得模型內部自發涌現出了清晰的專業化分工。結果顯示,這種內生性的專業化,讓模型在同等規模下獲得了顯著更強的知識深度與任務處理能力。
工業化閉環:基礎設施、后訓練與推理服務的協同進階
如果說架構是設計圖,那么基礎設施、后訓練與推理服務則構成了AI的流水線。只有這三個環節實現工業化級別的協同,AI才能打破“高成本、低效率”的詛咒,真正實現普惠。
基礎設施:從盲測到精益制造與極致調度
在大模型研發與服務的全生命周期中,基礎設施的效率直接決定了創新的成本。
在研發側,試錯成本是最大的攔路虎。阿里云研發的SimAI高精度訓練模擬器,通過無縫接入主流框架,能以98.1%的對齊度在單機環境下模擬分布式訓練的真實負載。這意味著,在動用昂貴的GPU集群前,架構師就能精準預測性能瓶頸,將硬件選型從經驗驅動升級為數據驅動。而DataMan數據管理器,則實現了從數據源頭到訓練終點的智能化治理,僅用60%的高質量篩選數據即可達到全量訓練效果。
在服務側,資源調度的顆粒度決定了成本的下限。阿里云推出的Aegaeon多模型服務系統,是一次對云上資源利用率的極致挖掘。傳統系統按請求調度,容易阻塞;Aegaeon則實現了“Token粒度”的自動擴縮容,允許GPU在生成一個Token的微小間隙即刻切換服務對象。結合高效的組件復用與內存管理,該系統將GPU資源池的利用率從不足34%提升至48%,在內部部署中顯著減少了GPU需求,使得同時部署千百個模型成為經濟可行的現實。
后訓練:賦予模型邏輯與理性
預訓練讓模型獲得了知識,但后訓練才是決定其邏輯嚴密性的關鍵。阿里云在2025年推動了一場從結果導向到過程監督的范式革命。
針對復雜數學與邏輯任務,阿里云引入了過程級價值評估(PRM)。不同于只看最終答案,該機制能對推理鏈條的每一步進行審核。在Qwen數學模型的訓練中,這種技術使其能精準定位微小的邏輯偏差,從而在極具挑戰的AIME 2024大賽中成功解出21道難題,證明了AI從依靠概率猜測進化為具備嚴密推導能力的“理科生”。此外,針對MoE模型在強化學習中易發散的難題,GSPO(組序列策略優化)與CHORD動態協同機制提供了理論完備的解決方案。這些創新平衡了模仿專家與自我探索的關系,確保模型在不斷進化的同時,不會遺忘已有的知識,實現了工業級可靠性的能力躍遷。
推理服務:測試時擴展與智能壓縮技術的躍升
在模型落地環節,除了成本,性能與準確率的平衡同樣關鍵。阿里云通過一系列算法創新,不僅讓模型跑得快,更讓模型在推理階段能多想一步。
針對高精度需求,阿里云引入了測試時擴展(Test-Time Scaling)技術。這就好比讓考生在考試時多花時間檢查。而通過自截斷N選優(ST-BoN)算法,模型在生成早期就能通過內部狀態預判路徑優劣,快速鎖定最優解并截斷其他路徑。這種“早預判、早放棄”的策略,在相同計算成本下可將準確率提升3-4個百分點,且無需依賴額外的獎勵模型。此外,TeaCache技術通過緩存視頻生成中的冗余計算,實現了4.41倍的提速;而AsymKV非對稱量化技術,則精準區分Key與Value的敏感度,大幅降低了長文本推理的顯存占用。這些技術組合拳,構建了一個高性能、低成本的推理服務體系。
可信基石:內生安全與指令遵循的深度對齊
隨著AI深入金融、醫療等關鍵領域,安全與聽話變得比聰明更重要。阿里云不再滿足于外掛式的過濾,而是深入模型機理,構建內生的免疫系統與精準的執行能力。
內生安全:解密“安全注意力頭”與神經元級調控
安全不能是黑盒。阿里云研究團隊在深入探究模型內部機理時發現,模型中存在特定的“安全注意力頭(Safety Attention Heads)”。這些特殊的結構單元就像電路中的保險絲,在處理潛在風險內容時起著決定性的阻斷作用。實驗數據表明,僅移除模型中極小比例的關鍵安全頭,就會導致模型的防御成功率大幅下降。基于這一發現,阿里云實現了神經元級的安全調控。在應用層,Qwen3Guard安全護欄系統引入了創新的三分類機制(安全、不安全、有爭議),打破了非黑即白的僵化審核,讓業務方能根據場景靈活定義邊界。同時,STAIR框架賦予了模型三思而后行的內省能力,在回復高危問題前先進行思維鏈推理,分析用戶意圖與合規邊界,顯著提升了面對隱晦攻擊時的防御力。
指令遵循:自我博弈下的極致執行
為了讓模型更精準地執行復雜指令,阿里云推出了AutoIF自我博弈機制。針對代碼生成與復雜任務規劃中“靜態數據不足以覆蓋動態錯誤”的痛點,該機制引入了由模型主導的“生成-執行-驗證”閉環。模型化身出題人與判卷人,通過生成代碼并執行單元測試獲取反饋,在沒有人工標注的情況下自主進化。這種機制讓Qwen模型在代碼生成與復雜任務規劃上的表現大幅提升。針對“寫一首詩,不包含字母E,且每行字數相同”這類包含多重限制的苛刻指令,IOPO(輸入-輸出聯合偏好優化)技術將優化的視野擴展到了輸入-輸出的聯合空間。它迫使模型細致研讀輸入中的每一個約束條件,解決了長指令中的遺忘與顧此失彼問題。而SymDPO則通過符號化演示,解決了多模態少樣本學習中的邏輯斷層,讓模型真正看懂演示中的規律。
全感融合:多模態理解與生成的雙向奔赴
2025年,AI正在打通感知的任督二脈。阿里云在多模態領域的突破,不僅在于讓AI看得見、聽得清,更在于賦予其專業級的創造力,實現了從感知世界到創造世界的完整閉環。
理解:全雙工交互與長時程細粒度感知
在交互體驗上,Qwen3-Omni模型搭載了“Thinker-Talker”架構,通過MoE分工確保理解深度,并利用Talker模塊實現了毫秒級的實時語音交互。這種全雙工能力讓AI能像人類一樣插話、打斷、共情,徹底改變了人機對話的節奏。
在深度感知上,針對多圖推理和小時級長視頻分析的痛點,mPLUG-Owl3引入了Hyper Attention(超注意力)模塊。它在模型內部增加“圖文交叉注意力”,與文字注意力并行工作,既不占用文字上下文空間,又能精準匹配問題需要的圖像信息。這使得模型能輕松看懂2小時的電影,并精準回答關于細節的提問。而LLMDet則打破了目標檢測的類別限制,利用大模型能力實現了對開放世界物體的精準識別,為具身智能提供了敏銳的眼睛。
生成:生產力工具的范式升級
生成不僅僅是娛樂,更是生產力。Wan視頻大模型的升級發布,是視頻生成工業化的里程碑。它創新性地采用了“4×8×8倍時空壓縮”技術,統一了文生視頻、圖生視頻與視頻編輯任務,且1.3B輕量版讓消費級顯卡也能進行專業創作。針對視頻中角色互動的難題,MIMO空間解耦技術將視頻解構為角色、場景、遮擋物等獨立層進行編碼,終于解決了角色動作僵硬、互動失真的頑疾。在圖像與3D領域,Qwen-Image攻克了中文復雜排版(如豎排、雙語混排)的難題,ACE++框架則實現了基于自然語言的全能修圖。AniGS與HybridGS技術的出現,讓從單張照片生成可實時驅動的3D數字人、從充滿動態干擾的視頻中重建純凈3D場景成為現實。這些技術正在將內容產業從手工作坊推向智能制造,大幅降低了元宇宙與數字孿生的構建門檻。
自主進化:RAG與智能體的認知躍遷
如果說前述技術是AI的器官,那么RAG(檢索增強生成)與智能體(Agent)則是其手腳。2025年,AI正在從被動問答走向主動探索,展現出更強的自主規劃與社會適應力。
RAG:主動探索、邏輯內化與零成本訓練
傳統的搜索智能體訓練依賴昂貴的商業API。阿里云提出的ZeroSearch打破了這一僵局,構建了一個虛擬檢索環境,讓模型通過自我博弈學會如何搜索、搜什么,將Search Agent的訓練成本降低了數個數量級。
不僅如此,阿里云還致力于解決模型懂知識但不會用的問題。KG-SFT(知識圖譜微調)技術將外部知識的嚴謹結構內化為模型的思維直覺,顯著增強了模型在處理復雜知識時的邏輯操縱能力。同時,StructRAG與AirRAG賦予了模型在推理過程中動態重組信息結構、
利用蒙特卡洛樹搜索(MCTS)進行戰略規劃的能力,讓AI在面對海量碎片信息時不再迷失,而是能進行“三思而后行”的深度決策。
智能體:從工具到具備社會屬性的數字勞動力
為了解決長周期調研任務,WebResearcher提出了一種迭代式研究范式。它將深度調研重構為馬爾可夫決策過程,讓Agent能像人類研究員一樣,周期性整理中間報告,清理冗余上下文。這種機制賦予了Agent理論上無邊界的信息吞吐能力,能連續進行數十輪深度搜索,產出邏輯連貫的萬字深度研報。
在移動端,Mobile-Agent-v3引入了“反思者(Reflector)”模塊,實時監控屏幕狀態,具備了操作失敗后的自我糾錯能力。更有前瞻性的是GenSim社會模擬平臺,它通過標準化的“檔案-記憶-行動”架構,支持十萬級智能體并發運行。我們在平臺上成功復現了信息繭房、群體情緒傳播等社會現象。這不僅證明了智能體群體的演化規律,更為政策推演、輿情分析及社會治理提供了一個可控、可復現的數字平行世界。
結語
2025年,是AI技術去偽存真、深蹲起跳的一年。回顧過去這一年的技術演進,我們看到的不僅是單點算法的突破,更是一幅波瀾壯闊的系統工程畫卷。從底層的注意力機制到上層的社會模擬,從極致的推理優化到內生的安全機理,阿里云正在用全棧技術的系統性整合,回答一個終極命題:如何將簡單、經濟、可靠的智能能力,真正賦予千行百業。
這其中,開源與普惠始終是貫穿其中的主線。截至目前,千問(Qwen)系列大模型全球累計下載量已突破10億次,衍生模型數量超過20萬個。這組龐大的數字背后,是一個由全球開發者共同參與、蓬勃生長的創新生態。這證明了真正偉大的技術突破,不僅閃耀于論文,更生長于開放創新、共塑產業升級的廣闊實踐之中。
本文核心觀點與技術細節均提煉自最新發布的《阿里云年度AI技術進展》報告(點擊獲取)。
本文摘自《云棲戰略參考》總第21期
掃碼查看最新雜志
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.