![]()
隨著 OpenClaw 在 2 月份的持續霸榜:
AI 行業,似乎已經提前進入了以個人 Agent 為代表的「后 ChatGPT 時代」。
這印證了獨立 AI 基準測試機構「Artificial Analysis」的預測結論:2026,Agent 正在全面爆發。
近期,他們發布了對 AI 領域發展的全面總結:《2025 年終 AI 發展報告》。
報告總結了過去一年,AI 行業在文本、語音、視頻、芯片等各項領域的進展。
過去一年到底都發生了什么呢?一起看下吧。
01 行業概況
2025 年的五大 AI 行業趨勢如下:
1、推理模型已成行業常態。
2025 年初,OpenAI 的 o1 模型還是唯一的推理模型,但這一年里,各大實驗室紛紛推出自家的推理模型,如今這些模型已躋身最智能模型之列。
2、AI 行業的競爭正愈演愈烈。
2025 年,AI 格局發生了顯著變化:越來越多的公司加入戰局,推出自己的模型。展望 2026 年,這場競賽只會愈演愈烈,不會降溫。
3、AI 智能體起飛。
2025 年,AI 應用迎來關鍵轉折點:從單查詢工作負載轉向多輪智能體任務。代碼智能體是這場變革的先行者,而 2026 年,智能體的應用范圍有望擴展到更廣泛的企業級工作場景。
4、自然語言轉語音模型,正在催生語音智能體。
2025 年,原生音頻推理模型的發展讓語音轉語音質量迎來了質的飛躍,為語音 Agent 的興起奠定了基礎。
5、圖像編輯與視頻生成走向主流。
如今,這兩項技術已具備主流應用的條件。以 NanoBanana 為代表的模型,讓畫質實現了跨越式提升。
![]()
一些關鍵的洞察:
1、Google 依然是 AI 領域垂直一體化布局最深入的玩家:從 TPU 加速器到 Gemini 應用,覆蓋了整個 AI 價值鏈。
![]()
2、AI 領域的競爭正變得越來越激烈。2025 年,一批新的國際實驗室將加入賽道,不過,美國和中國依然牢牢占據領先地位。
![]()
3、OpenAI 在 2025 年全年都擁有最強大的語言模型,但它的領先優勢已前所未有的縮小。
![]()
02 語言模型
2025 年,推理范式主導了 AI 行業的發展方向。
它不僅推動智能水平大幅提升、成本持續下降,還催生出智能體 AI 的興起。與此同時,開源權重的普及和全球實驗室的努力,正在縮小與美國前沿機構的技術差距。
2025 年的五大 AI 模型趨勢如下:
1、2025 年,模型智能迎來大幅提升。
背后的核心驅動是范式轉變:行業開始轉向那些在回答前會「思考」的推理模型。
到 2025 年底,OpenAI、Anthropic 和 Google 已憑借「推理優先模型」領跑智能前沿,這類模型會先「思考」再給出答案。這與 2025 年初的格局截然不同:當時占據最智能模型榜首的,還是那些不會「思考」的非推理模型。
與此同時,推理范式顯著擴大了平均工作負載規模:模型在「思考」階段會生成更多輸出 token。不僅如此,它還在通用推理、科學推理、長周期智能體任務以及編碼領域推動了性能提升。
2、2025 年見證了智能體 AI 的崛起。
各類模型開始越來越多地端到端完成長周期任務。
智能體的應用場景正在不斷拓展:從最初針對特定領域(如深度研究)的定向工具,到如今已演變為通用型解決方案。前沿模型現在能夠穩定協調跨領域的多步驟工作流。
工具調用訓練如今已全面普及:
2025 年推出的大多數模型,都經過了預訓練和強化學習優化,專門用于智能體任務執行。
長周期編碼任務是智能代理工作流改進的最大受益者。2025 年,無論是初創企業還是行業巨頭都紛紛推出編碼代理,這類工具的數量明顯增多。
3、2025 年,基礎模型迎來了普及化浪潮,不過美國和中國仍保持顯著領先地位。
全球各地的 AI 實驗室(包括歐洲、中東、亞洲)仍在持續推出具備競爭力的基礎模型。
不過,前沿能力仍集中在美中兩國的頭部公司手中:美國有 OpenAI、Anthropic、Google,中國則是 Moonshot AI、Z.ai、DeepSeek、Minimax。
雖然美國實驗室在專有前沿模型的開發領域仍處于領先地位,但中國實驗室持續推出前沿開源權重模型。
4、2025 年,新的開源權重模型在智能水平上繼續與閉源模型并駕齊驅,但前沿領域仍由閉源模型主導。
2025 年,開源權重生態系統持續擴張;到年底時,最具能力的開源權重模型已越來越多地出自中國實驗室。
另一方面,2025 年全年,開源權重模型大體上跟上了專有模型的發展節奏,但專有模型在整體智能水平上仍處于領先地位。
5、o1 級智能的成本出現了顯著下降。
2025 年初,o1 級智能的每 token 價格較之前下降了 128 倍。
編者注:最近,Sam Altman 宣布 AI 智能成本下降 1000 倍。
背后的驅動因素主要有兩個:一是小模型實現了更高的智能水平,二是軟硬件層面的優化。
對于「語言模型」,一些關鍵的洞察:
1、截至 2025 年底,OpenAI、xAI 與 Anthropic 三家公司憑借最新推理模型,在前沿智能領域占據領先地位,與其他 AI 實驗室拉開了明顯差距。
![]()
2、2025 年推出的 AI 模型刷新了智能與成本的平衡邊界:企業現在要么能用相同預算獲得更強大的智能,要么能以顯著更低的成本獲取同等水平的智能。
![]()
3、模型規模越大,其全知指數評測分數(AA-Omniscience)就越穩定地處于高位。
編者注:AA-Omniscience 可以理解成「模型知道自己知道,也知道自己不知道什么」的能力得分。
![]()
4、但幻覺生成率與模型規模的關聯度并不高,這說明其他訓練決策的影響其實更大。
![]()
5、2025 年是代碼智能體正式落地的一年;2026 年,則將迎來全能智能體的全面啟用。
![]()
6、當我們轉向智能體工作流時,輸出 token 的數量多并不意味著智能更高;真正的智能更依賴于對各類工具的有效運用。
![]()
7、北京正崛起為前沿 AI 初創企業的活力中心,而成熟的科技巨頭則地理分布更分散,不存在單一的技術創新樞紐。
![]()
8、韓國政府支持的“國家 AI 計劃”已經激活了本土 AI 生態系統,催生出多家接近前沿水平的 AI 實驗室。
![]()
9、OpenAI 推出了自 GPT-2 以來首個開源權重語言模型,雖推動了開源模型的技術邊界,但開源與閉源之間的差距仍未縮小。
![]()
10、更高效的模型架構,加上軟硬件效率的協同提升,推動模型成本顯著下降:o1 級別智能模型的每 token 定價降低了 128 倍。
![]()
03 圖像與視頻
2025 年,圖像與視頻技術迎來重大升級:
新增了多模態輸入(圖像轉視頻、圖像編輯)以及輸出(帶音頻的視頻)功能。
2025 年的 AI 圖像與視頻領域的趨勢如下:
1、文生圖:畫質再上新臺階。
文本生成圖像模型的質量已顯著提升,2025 年末的標桿模型 GPT Image 1.5,比 2024 年末的第一名 FLUX1.1 [pro] Ultra 高出約 150 個 ELO 評分。
隨著 OpenAI、Google 等頭部實驗室入局,開源權重圖像模型的進展已經放緩。截至年底,表現最好的開源權重模型是 Qwen Image 2512,在文本轉圖像排行榜上位列第 12 名。
2、圖像編輯模型正式發布。
指令驅動的圖像編輯模型近期開始流行。OpenAI 推出 GPT-4o 圖像功能、谷歌發布 Nano Banana(即 Gemini 2.5 Flash),這兩款產品的上線大幅提升了這類工具的使用率和用戶心智份額。
圖像編輯中的多圖輸入功能已逐漸普及,像 Nano Banana Pro 和 Qwen Image Edit 這類模型,能讓用戶對輸出圖像實現更精準的控制。
圖像生成模型正變得越來越通用,既能支持文本生成圖像,也能進行圖像編輯。例如 FLUX.2 系列和 Seedream 4.5 就同時具備這兩種模態的能力。
3、視頻模型已成功躋身主流。
視頻模型的質量迎來突破性進展。2025 年末的領先產品 Runway Gen-4.5,在 ELO 評分(一種常用的模型性能評級指標)上比 2024 年末的行業標桿 OpenAI Sora 高出約 200 分。
聚焦圖像轉視頻功能推動了廣泛使用:用戶不僅能更精細地控制視頻生成,還能在不同鏡頭間保持角色的一致性。
開源權重視頻模型目前仍落后于閉源同類產品。其中,LTX-2 Pro 作為開源視頻生成領域的 SOTA,在文本轉視頻總榜中排名第 29 位,在圖像轉視頻總榜中則位列第 28 位。
4、Veo 3 起開始支持帶音頻的視頻功能。
2025 年 5 月推出的 Veo 3,是首個原生支持音頻生成的高質量主流視頻模型,而這一特性讓它迅速走紅。
各大視頻實驗室紛紛跟進,推出了自家帶音頻的視頻模型,比如 OpenAI 的 Sora 2、Lightricks 的 LTX-2、阿里巴巴的 Wan 2.6 和字節跳動的 Seedance 1.5 pro。
5、中國在媒體生成模型領域與美國旗鼓相當。
中美實驗室在圖像生成模型領域依然旗鼓相當:字節跳動的 Seedream 4.5 能與谷歌的 Nano Banana Pro、OpenAI 的 GPT Image 1.5 一較高下。
中美實驗室在視頻生成模型領域依然勢均力敵:中國的 Kling 2.5 Turbo 與美國的 Veo 3.1、Runway Gen-4.5 不相上下。
編者注:到了 26 年 2 月份,中國的 Seedance2.0 讓世界望塵莫及。
6、與語言模型領域不同,專注于媒體生成的小型 AI 實驗室,仍能與那些擁有更廣泛模態覆蓋范圍的大型實驗室展開競爭。
![]()
![]()
04 語音與音樂
語音與音樂模型在第四季度持續進步:
其中語音到語音推理,和開源權重語音轉文字的準確率提升尤為顯著。
2025 年的 AI 語音與音樂領域的趨勢如下:
1、語音轉文字的詞錯誤率持續降低。
多模態模型正將轉錄作為次要功能進行拓展,像 AWS 的 Nova 2 Omni,即便沒有專門優化語音轉文本,也能達到有競爭力的準確率,還能實現語音、視覺與文本的統一處理。
面向語音助手應用的超低延遲實時版本已陸續出現,例如 ElevenLabs 的 Scribe v2 Realtime 和 NVIDIA 的 Parakeet Realtime。
2、文本轉語音模型,現在能更精細地控制韻律和音頻效果。
文本轉語音的質量已取得顯著提升,新模型持續迭代推出,不斷突破技術前沿。
韻律控制在主流 AI 模型中越來越普及,它能通過文本內標記和語音合成標記語言(SSML)標記等方式,實現對情感基調、語速、重音以及副語言元素(如笑聲、嘆氣、呼吸聲)的精準控制。
語音克隆技術(包括名人語音合成)正日益普及,這促使人們通過水印技術和來源驗證系統,更加重視音頻內容的真實性。
3、原生音頻推理技術持續進步,STS 模型也迎來快速成熟。
xAI 在 Big Bench Audio 基準測試中一舉奪魁:不僅推理速度更快,還把此前的領頭羊 Google Gemini 2.5 Native Audio Thinking 拉下了王座;與此同時,Nova 2.0 Sonic 憑借高性價比脫穎而出,成為新的性價比之王。
目前,語音處理流水線仍是語音智能代理的主流架構。但原生音頻推理能力的提升,正驗證著端到端音頻處理的價值:它能省去大語言模型的中間層,讓模型直接利用聲學信息進行推理,既增強了上下文理解能力,又降低了延遲。
4、語音 Agent。
在結構化交互場景下的表現已接近人類水平,但在模糊場景、復雜多輪推理以及音質受損的環境中仍存在明顯不足,這些方面有待持續改進。
5、音樂模型。
2025 年雖有不少重磅模型發布,但第四季度的頭部產品上新相對平靜。不過,Suno V4.5、ElevenLabs Music 及 Producer.ai 的 Fuzz 系列等頭部模型的營銷力度和用戶采用率仍在增長。
6、雖然通用 AI 實驗室(比如 OpenAI、谷歌)的產品覆蓋了所有語音模態,但純語音 AI 實驗室的專注度更高,尤其是在文本轉語音領域。
![]()
05 芯片加速器
2025 年,AI 基礎設施迎來顯著成熟:Blackwell 系統開始批量出貨,推理軟件愈發完善,行業內的挑戰者也在持續迭代升級。
2025 年的芯片相關趨勢如下:
1、Blackwell 系統正式投產,性能較 Hopper 系統有大幅提升。
2025 年,B200 芯片開始大規模支撐生產級工作負載,GB200 NVL72 機架級系統也實現全面量產。IBM 的 Granite 4 系列模型是首批公開宣布基于 GB200 NVL72 集群訓練的模型之一,而 OpenAI 的 GPT-5.3 Codex 則是首個明確披露使用 GB200 訓練的前沿大模型。
英偉達計劃在 2025 年第三季度發布 B300 和 GB300 兩款新品,具體發貨時間將在后續公布。其中 B300 的配置升級顯著:配備 288GB HBM3e 內存(較上一代 B200 提升 50%),FP4 精度運算能力達 14 PFLOPs(而 B200 僅為 9 PFLOPs)。
軟件支持日趨成熟(尤其是 TensorRT-LLM 框架),Blackwell 系列芯片現在在推理性能的整個帕累托前沿(即性能與效率的最優權衡邊界)上,全面領先 Hopper 芯片及其他 AI 加速器。
2、推理軟件已向三大開源框架集中。
2025 年,推理軟件成熟度大幅提升,最終收斂到三個主流框架:vLLM、SGLang 和 NVIDIA TensorRT-LLM。
3、NVIDIA 依舊牢牢占據著市場主導地位,但它的挑戰者們已在戰略層面取得了顯著進展。
2025 年 12 月,英偉達以約 200 億美元收購了 Groq 公司。交易采用 IP 授權加人才收購的模式,核心目標是將 Groq 的 LPU 技術整合到英偉達的產品線中。
Google 的 TPU v6(Trillium,張量處理單元)已于 2024 年底正式發布;正是這些 TPU 為 Gemini 2.5 Pro 和 Gemini 3 Pro 的模型訓練提供了算力支持。
Anthropic 在 2025 年與谷歌、亞馬遜達成合作協議,獲取張量處理單元(TPU)和 Trainium 芯片的使用權,用于模型訓練和推理任務;與此同時,賽睿思(Cerebras)聯合英偉達、超威半導體(AMD)和博通,與 OpenAI 簽署了一份多年期合同,將為其提供快速推理服務。
![]()
4、推理需求持續增長,工作負載模式不斷演變。這兩大趨勢正推動分布式和解耦架構在 2026 年前加速落地。
過去只有前沿實驗室才能用到的分布式推理優化技術,如今正變得人人可用。這背后離不開 NVIDIA Dynamo 的成熟,以及各類開源項目的推動。
其中的核心技術包括:預填充/解碼解耦、跨數十到數百個 GPU 的專家并行,以及通過規模化專家副本實現的新型負載均衡。
來源 | 特工宇宙(ID:AgentVerse)
作者 | 宇宙編輯部 ; 編輯 | 呼呼大睡
內容僅代表作者獨立觀點,不代表早讀課立場
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.