337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

DeepSeek硬核突破!DualPath破解Agent推理瓶頸,V4升級方向清晰了

0
分享至

大模型的進化正迎來關鍵拐點。

從單輪對話的聊天機器人,快速迭代為能自主規劃、調用工具、完成百輪交互的Agent智能體,而這一轉變也讓底層推理架構的核心瓶頸徹底暴露——GPU算力不再是制約性能的關鍵,KV-Cache存儲I/O帶寬成為了Agent大模型落地的最大攔路虎。


就在DeepSeek V4發布前夕,DeepSeek-AI聯合北大、清華團隊發布了重磅研究DualPath。

DualPath通過創新的雙路徑架構,讓Agentic大模型離線推理吞吐量最高提升1.87倍,在線服務吞吐量平均提升1.96倍,還在1152張GPU的千卡集群完成驗證,為下一代模型的升級打下了堅實的技術基礎。


之所以會出現如此嚴重的I/O瓶頸,核心源于Agent大模型的工作特性。


與傳統短對話不同,Agent需要在數十甚至上百輪的環境交互中累積上下文,長度可達百萬tokens,而每輪新增的有效信息僅有數百tokens,這讓KV-Cache命中率普遍超過95%。

此時,GPU的大量時間并非用于計算,而是在等待從外部SSD存儲中讀取海量的歷史KV-Cache數據。

再加上現代大模型推理普遍采用的Prefill-Decode(預填充-解碼)分離架構,進一步加劇了這一矛盾,即所有KV-Cache都只能從外部存儲加載到預填充節點,這導致預填充節點的存儲網卡帶寬被完全占滿,成為系統性能的絕對瓶頸,而解碼節點的存儲網卡卻長期處于閑置狀態,算力資源被嚴重浪費。


同時,硬件發展的失衡也讓問題雪上加霜,GPU計算力的增長速度遠超網絡帶寬和顯存容量,計算與I/O的比例嚴重失調,讓這一瓶頸愈發突出。


DualPath的核心創新,正是抓住了解碼節點帶寬閑置的關鍵痛點,重構了KV-Cache的加載架構。

在傳統的“存儲→預填充節點”加載路徑之外,它創新性地開辟了第二條“存儲→解碼節點→預填充節點”的加載通道,通過動態分配兩條路徑的數據流,把原本單一節點的I/O壓力,轉化為全局資源池化的負載分擔,充分聚合所有節點的存儲帶寬,從根源上打破了帶寬天花板。


在第一條預填充讀取路徑中,KV-Cache從持久化存儲讀入預填充節點的內存緩沖,再傳輸到GPU顯存完成計算,最后將完整的KV-Cache傳給解碼節點。

而新增的解碼讀取路徑,則讓KV-Cache先讀入解碼節點的內存緩沖,在預填充階段通過高速RDMA計算網絡,以層級流式傳輸的方式傳給預填充節點參與計算,整個過程中數據加載還能與模型計算無縫重疊,進一步提升效率。

當然,把這個看似直觀的想法,落地到亞毫秒級延遲敏感的大模型推理系統中,需要攻克兩大核心工程難題。

第一個難題是網絡流量的干擾,額外的KV-Cache傳輸極易與模型推理中的關鍵集合通信沖突,拖慢推理速度。

對此DualPath設計了以計算網卡為中心的流量管理機制,讓所有進出GPU的流量都強制通過計算網卡,再利用底層網絡的QoS控制能力,將模型推理通信分配到占99%帶寬的高優先級通道,KV-Cache傳輸則分配到低優先級通道,僅在計算網絡的空閑間隙傳輸,實現了兩者的完美隔離,既保證了推理延遲,又充分利用了閑置帶寬。

第二個難題是動態負載均衡,面對復雜多變的請求,系統需要實時決定每條請求的讀取路徑,同時兼顧網卡隊列長度和GPU負載。


DualPath為此打造了自適應請求調度器,將Token數量作為核心負載指標,把節點劃分為過載、低讀取隊列、高讀取隊列三類,優先將任務分配給未過載且讀取隊列較短的節點。

同時在節點內部,還會基于時間預估機制,將執行時間相近的請求打包成批,最大程度減少GPU同步時的計算氣泡,讓硬件利用率達到最優。


實測數據足以印證DualPath的強悍性能。

研究團隊在NVIDIA Hopper GPU集群上,基于DeepSeek-V3.2 660B、DS 27B、Qwen2.5-32B三大模型,結合真實的Agent強化學習軌跡數據集完成了全面測試。

在離線批量推理場景(如RL訓練的Rollout階段),DualPath對基線系統實現了碾壓式超越,處理DeepSeek 660B模型時吞吐量最高提升1.87倍,且無論每輪追加Token長度、生成長度如何變化,都能保持穩定的性能提升,證明其徹底消除了存儲網絡瓶頸。


在在線服務場景中,在首字延遲≤4秒的嚴格SLO約束下,DualPath能支撐的請求到達率相比基線最高提升2.25倍,還能保持極低的端到端生成延遲。


而消融實驗也證實,雙路徑加載機制和自適應調度算法,是推動性能大幅提升的核心關鍵。

更值得一提的是,DualPath還具備極強的大規模擴展性,在1152張GPU的千卡集群中,系統實現了近乎線性的性能擴展,調度器CPU占用還不到10個核心,完全滿足生產級的部署需求。


從DualPath的技術突破中,我們也能清晰看到DeepSeek V4的核心升級方向。

首先,模型與推理系統的協同優化將進一步深化,V4大概率會內置對雙路徑加載的原生支持,讓模型層的KV-Cache結構優化與系統層的路徑調度深度融合,實現更高的帶寬利用率。

其次,自適應資源配置能力會成為重點,針對不同的工作負載,系統能在線動態調整預填充/解碼節點的比例,讓資源分配更貼合實際需求,避免固定配置的效率浪費。

同時,KV-Cache的智能拆分加載也有望落地,將單個請求的KV-Cache拆分到兩條路徑并行加載,進一步挖掘I/O性能潛力。

此外,結合DeepSeek已有的稀疏注意力技術,V4還可能將模型結構優化與DualPath的系統優化結合,在降低計算量的同時減少KV-Cache數據量,形成“模型+系統”的雙輪驅動。

此次DualPath的發布,不僅為Agentic大模型的推理性能突破提供了全新的解決方案,更讓行業看到了大模型發展的新趨勢。

當模型規模接近物理極限時,底層架構的創新與模型算法的深度協同,將成為突破性能天花板的核心關鍵。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
沖上熱搜!今年蚊子可能迎來史詩級加強?網友:遭不住了

沖上熱搜!今年蚊子可能迎來史詩級加強?網友:遭不住了

深圳晚報
2026-03-28 22:25:02
梁詠琪和雙胞胎弟弟一起過50歲生日,曬兩人童年和50歲對比照,網友:這么好看的臉,他家居然有倆

梁詠琪和雙胞胎弟弟一起過50歲生日,曬兩人童年和50歲對比照,網友:這么好看的臉,他家居然有倆

臺州交通廣播
2026-03-29 10:07:08
李榮浩發長文公開喊話單依純:在婉拒翻唱授權情況下,演唱會強行侵權演唱《李白》;其在《歌手》中翻唱導致他被調侃

李榮浩發長文公開喊話單依純:在婉拒翻唱授權情況下,演唱會強行侵權演唱《李白》;其在《歌手》中翻唱導致他被調侃

極目新聞
2026-03-29 15:16:06
女足亞冠巨大爭議!鄧夢曄進球被吹,主裁遭炮轟:99%誤判

女足亞冠巨大爭議!鄧夢曄進球被吹,主裁遭炮轟:99%誤判

奧拜爾
2026-03-29 19:27:15
向華強談張雪峰突然離世,直言其飲食不健康,重油重鹽有大問題

向華強談張雪峰突然離世,直言其飲食不健康,重油重鹽有大問題

娛樂E君
2026-03-27 12:47:59
大陸定性賴清德后,鄭麗文當眾爆料,民進黨瞞著2300萬臺胞的真相

大陸定性賴清德后,鄭麗文當眾爆料,民進黨瞞著2300萬臺胞的真相

知法而形
2026-03-29 19:03:17
女子家門未關嚴,流浪狗尾隨入室咬傷其腿,3天后狗死了,狂犬病毒檢測呈陽性;多方回應事件進展

女子家門未關嚴,流浪狗尾隨入室咬傷其腿,3天后狗死了,狂犬病毒檢測呈陽性;多方回應事件進展

大風新聞
2026-03-29 13:28:09
“直接崩了,一天掉了一百多元!”有人瘋狂拋售,國際巨頭接連發布新技術……格局將被改變?

“直接崩了,一天掉了一百多元!”有人瘋狂拋售,國際巨頭接連發布新技術……格局將被改變?

都市快報橙柿互動
2026-03-29 12:26:05
兩種葬禮,兩種人生,張雪峰和李詠的后事安排,差距真是一目了然

兩種葬禮,兩種人生,張雪峰和李詠的后事安排,差距真是一目了然

離離言幾許
2026-03-28 16:40:22
“憑什么判我死刑!”泰安入室搶嬰案庭審現場,主犯當庭破口大罵!

“憑什么判我死刑!”泰安入室搶嬰案庭審現場,主犯當庭破口大罵!

極目新聞
2026-03-29 15:16:06
印度發出最后警告:化肥不放行或致饑荒,14億人飯碗成危機

印度發出最后警告:化肥不放行或致饑荒,14億人飯碗成危機

阿傖說事
2026-03-29 17:44:45
好變態!1090投1000中!92%的命中率炸裂了!!

好變態!1090投1000中!92%的命中率炸裂了!!

柚子說球
2026-03-29 17:52:30
魂歸故里,長眠桑梓!張雪峰安葬地選址原因披露

魂歸故里,長眠桑梓!張雪峰安葬地選址原因披露

史海流年號
2026-03-29 12:14:27
為啥越來越多人開始懷疑學歷?上世紀70年代的諾獎論文早就說清了

為啥越來越多人開始懷疑學歷?上世紀70年代的諾獎論文早就說清了

知識圈
2026-03-29 13:10:14
心源性猝死來勢洶洶!呼吁:每家備好6樣東西,關鍵時刻能救命!

心源性猝死來勢洶洶!呼吁:每家備好6樣東西,關鍵時刻能救命!

阿兵科普
2026-03-28 20:08:11
新華時評 | 應盡快按下戰爭的“停止鍵”

新華時評 | 應盡快按下戰爭的“停止鍵”

新華社
2026-03-29 17:23:04
俄警告韓國勿向烏提供致命性武器

俄警告韓國勿向烏提供致命性武器

財聯社
2026-03-29 09:30:26
人民日報也發了粉底液將軍,居然有粉絲去沖人民日報,勸都勸不住

人民日報也發了粉底液將軍,居然有粉絲去沖人民日報,勸都勸不住

芊手若
2026-03-29 04:06:34
歌手吳向飛喊話李榮浩道歉:未取得授權公開演唱其歌曲;李榮浩回應:并未在個人演唱會或音樂節晚會唱過,請列明場次,若侵權一定賠償道歉

歌手吳向飛喊話李榮浩道歉:未取得授權公開演唱其歌曲;李榮浩回應:并未在個人演唱會或音樂節晚會唱過,請列明場次,若侵權一定賠償道歉

極目新聞
2026-03-29 18:56:41
德研究報告:中國工業數字化水平全球領先

德研究報告:中國工業數字化水平全球領先

新華社
2026-03-29 10:48:03
2026-03-29 21:19:00
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
466文章數 69關注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創始人均離職

頭條要聞

中國警告美國:勿將"沖突戰亂"引入亞太地區

頭條要聞

中國警告美國:勿將"沖突戰亂"引入亞太地區

體育要聞

絕殺衛冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

張凌赫事件持續升級!官方點名怒批

財經要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態度原創

游戲
本地
藝術
數碼
公開課

PS6硬件成本曝光!比PS5貴50%以上:你會買嗎?

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

藝術要聞

314米!溫哥華第一座超高層摩天樓,像“海綿礁”

數碼要聞

用戶稱M5 Max MacBook Pro在運行AI工作負載時固態硬盤溫度失控

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版