337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

訓練效率翻倍,快手拿下開源編程模型第一

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動,最高可得算力券+token包380元獎勵,歡迎參與和支持!

近日,快手Kwaipilot團隊開源最新一代編程模型KAT-Dev-72B-Exp,這一模型在軟件開發能力評測基準SWE-Bench Verified上取得74.6%的成績,超越Qwen3-Coder、DeepSeek-V3.1、Kimi-K2和GLM-4.6等多款模型。

KAT-Dev-72B-Exp是KAT-Coder模型強化學習的實驗版本,由快手自研的SeamlessFlow強化學習框架提供技術支撐。KAT-Dev-72B-Exp已上線始智AI-wisemodel開源社區,并且支持一鍵部署成在線體驗或API服務,歡迎大家前去體驗。


模型地址

https://www.wisemodel.cn/models/Kwaipilot/KAT-Dev-72B-Exp


KAT-Dev-72B-Exp的框架實現了訓練邏輯與智能體的完全解耦,能夠靈活支持多智能體和在線強化學習等復雜場景。針對復雜Agent場景,Kwaipilot團隊引入了Trie Packing機制,并對訓練引擎進行了重構優化,使模型能夠高效地在共享前綴軌跡上開展訓練,還通過難度感知的策略優化,實現了探索與利用的平衡。值得注意的是,快手發布KAT-Dev-72B-Exp模型開源消息的賬號歸屬為溪流湖科技,企查查信息顯示這是一家快手的關聯企業。在溪流湖科技的官網上,還能看到一款名為“CodeFlicker”AI IDE產品已經進入預約階段,其產品界面與Cursor類似。


01.

雙管齊下給強化學習提效

在KAT-Dev-72B-Exp的強化學習訓練中,Kwaipilot推出了一套融合樹形軌跡訓練優化(Trie Packing)與熵感知優勢縮放的新方法,顯著提升了強化學習訓練的吞吐量與策略探索能力。

在傳統的大模型Agent訓練中,由于模型在執行任務時會產生包含分支與回溯的樹狀token軌跡,業界普遍采用拆分為多條線性序列的簡化訓練方案。然而,這種方法忽略了軌跡之間的共享結構,容易造成計算冗余。

Kwaipilot的工程團隊重新設計了訓練引擎與注意力內核(attention kernel),并通過樹形梯度修復權重機制,將共享前綴的正反向計算合并,實現了在樹形軌跡上的高效訓練。

實測數據顯示,這一技術方案令整體訓練速度平均提升至原來的2.5倍,大幅提高了強化學習訓練階段的吞吐效率。

強化學習的優化核心在于策略梯度,而優勢函數(Advantage Function)直接決定了每個樣本在參數更新中的影響力。傳統的GRPO算法僅基于組內收益計算優勢值,忽視了策略的探索性,容易使模型過早收斂到局部最優。

針對這一問題,Kwaipilot團隊提出了基于熵的優勢縮放方法。該方法在每個rollout樣本中引入策略熵(Policy Entropy)作為權重調節因子,對高熵樣本(探索性強)放大優勢,對低熵樣本(確定性強)適度抑制。

通過這一機制,模型在保持收斂效率的同時,顯著增強了探索能力,實現了更優的探索—利用平衡。

02.

自研工業級強化學習框架

在訓練KAT-Dev-72B-Exp的過程中,快手還使用了自研的SeamlessFlow工業級強化學習框架,以支持復雜的強化學習場景。快手Kwaipilot團隊曾于今年8月發布SeamlessFlow的技術報告。具體來看,SeamlessFlow共有兩大創新點。

首先,SeamlessFlow引入了獨立的數據平面層,徹底解耦了RL訓練和智能體實現。數據平面的核心是軌跡管理器(Trajectory Manager)。軌跡管理器在智能體與語言模型服務之間靜默記錄所有交互細節,包括輸入輸出及多輪對話的分支結構,從而構建完整的軌跡樹。

這一設計不僅避免重復計算、提升存儲效率,還支持精確的在線與離線策略區分。SeamlessFlow的另一組件是推理管理器(Rollout Manager),它實現了對模型更新與資源調度的無感控制,使得智能體無需適配訓練框架即可實現任務的無縫暫停與恢復,大幅提升了系統靈活性與訓練效率。


▲數據平面的序列圖(圖源:Kwaipilot)

SeamlessFlow的另一關鍵創新是標簽驅動的資源調度范式,通過為計算資源賦予如“訓練”或“推理”等能力標簽,統一了集中式(Colocated)與分布式架構(Disaggregated)的資源管理模式。

該系統支持時空復用機制,使得具備多標簽的機器可根據任務需求動態切換角色,從而將GPU閑置率降至5%以下,徹底緩解了傳統架構中的流水線空閑問題。

在實際工業場景的驗證中,SeamlessFlow在多項任務中實現了顯著的吞吐量提升與擴展性優勢。

使用32張H800 GPU進行的對比測試顯示,相比主流的VERL框架,SeamlessFlow在單輪RL任務(8k token上下文)中實現了100%的吞吐量提升,整體訓練時間減少62%。這個提升主要來自于數據平面的流式設計和計算資源空閑期的消除。


在更復雜的智能體RL場景中,SeamlessFlow的優勢更加明顯。在最大生成長度64K token的代碼任務中,SeamlessFlow的吞吐量提升平均提升至原來的1.55倍。


特別值得注意的是,當集群規模從32塊GPU擴展到64塊時,SeamlessFlow的性能優勢進一步擴大,展現出了可擴展性。

03.

快手持續加碼開源模型

在快手今年的多場財報電話會議中,AI已經成為了繞不開的話題。過去數月內,除了不斷更新視頻生成模型可靈之外,快手還開源了多款覆蓋推理、編程、Embedding等領域的模型,并打造了能根據問題難度自動切換思考模式的KAT-V1自動思考(AutoThink)大模型。

Kwaipilot團隊透露,除了算法與架構優化,Kwaipilot還在構建一套大規模數據環境管理系統,徹底解耦訓練數據、訓練沙盒與訓練框架。這樣的模塊化設計,有望實現數據源的獨立擴展、沙盒環境的安全隔離和訓練框架的靈活切換。未來,這一團隊或將交付更多值得期待的項目。

編輯:成蘊年

----- END -----


wisemodel相關:

系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
蔡磊透露身體近況:四個人同時攙扶也無法邁步,感覺最對不起的就是妻子

蔡磊透露身體近況:四個人同時攙扶也無法邁步,感覺最對不起的就是妻子

極目新聞
2026-03-29 22:40:10
奧運冠軍“拉拉鏈露胸”,讓耐克繃不住了!

奧運冠軍“拉拉鏈露胸”,讓耐克繃不住了!

品牌營銷報
2026-02-23 11:31:10
太反常!別的國家越強越沒人敢惹,為啥中國越強,麻煩就越多

太反常!別的國家越強越沒人敢惹,為啥中國越強,麻煩就越多

小蘭聊歷史
2026-03-30 15:11:22
美國歷史,或將于本周三改寫!

美國歷史,或將于本周三改寫!

湊近看世界
2026-03-30 10:24:47
中東危機只是小菜?更大危機還在后面,外媒:中國將徹底顛覆戰場

中東危機只是小菜?更大危機還在后面,外媒:中國將徹底顛覆戰場

嘆知
2026-03-29 18:13:46
焦泊喬成籌碼?廣東可能進行交易,前國手有望加盟,曾獲杜鋒青睞

焦泊喬成籌碼?廣東可能進行交易,前國手有望加盟,曾獲杜鋒青睞

萌蘭聊個球
2026-03-30 08:19:53
霍啟山激動:嫂子我喜歡這個!郭晶晶:等著,嫂子給你要微信去!

霍啟山激動:嫂子我喜歡這個!郭晶晶:等著,嫂子給你要微信去!

拳擊時空
2026-03-28 07:07:19
烏克蘭認輸了?澤連斯基改口認慫,不到24小時,普京下達最新命令

烏克蘭認輸了?澤連斯基改口認慫,不到24小時,普京下達最新命令

近史閣
2026-03-30 12:19:48
歐洲人在性方面有多開放?德國再創歷史!女廁所、女浴室隨便進了

歐洲人在性方面有多開放?德國再創歷史!女廁所、女浴室隨便進了

西樓知趣雜談
2026-03-24 14:38:30
萬科12位高管被調查

萬科12位高管被調查

地產微資訊
2026-03-28 11:17:12
楊瀚森全程沒動手仍吃T!白扔2000美元太冤枉,主帥盛贊:很踏實

楊瀚森全程沒動手仍吃T!白扔2000美元太冤枉,主帥盛贊:很踏實

你的籃球頻道
2026-03-30 10:02:01
“斬首術”應該獲諾貝爾獎?如此“讓領導先走”,真是偉大創造嗎

“斬首術”應該獲諾貝爾獎?如此“讓領導先走”,真是偉大創造嗎

瑜說還休
2026-03-27 17:31:33
單依純明目張膽侵權他人作品,拒不道歉,李榮浩4連問硬剛到底

單依純明目張膽侵權他人作品,拒不道歉,李榮浩4連問硬剛到底

上觀新聞
2026-03-29 17:56:07
伊朗做好最壞打算,如果美國發動地面戰,將拉著周邊鄰國同歸于盡

伊朗做好最壞打算,如果美國發動地面戰,將拉著周邊鄰國同歸于盡

探史
2026-03-30 11:47:20
中國摩托的越南復仇:從“工業垃圾”到“平替神車”

中國摩托的越南復仇:從“工業垃圾”到“平替神車”

沙雕小琳琳
2026-03-28 10:15:55
洛桑去世真相:博林25年后坦白,他其實沒喝多少酒

洛桑去世真相:博林25年后坦白,他其實沒喝多少酒

觀察者海風
2026-03-26 23:12:53
曼聯夏窗鎖定23歲頂級中場!為截胡曼城,紅魔愿以他為核心建隊

曼聯夏窗鎖定23歲頂級中場!為截胡曼城,紅魔愿以他為核心建隊

仰臥撐FTUer
2026-03-30 13:28:08
開辟第二個戰場?美航母后撤,胡塞導彈砸向以色列,伊朗迎來強援

開辟第二個戰場?美航母后撤,胡塞導彈砸向以色列,伊朗迎來強援

張殿成
2026-03-30 16:02:05
朱孝天撕「賣情懷F4」標簽上陸綜 曾志偉嚇一跳:為什么要來?

朱孝天撕「賣情懷F4」標簽上陸綜 曾志偉嚇一跳:為什么要來?

ETtoday星光云
2026-03-30 09:50:17
塔圖姆轟32+5+8無緣今日最佳!對不起,你碰到暴走創紀錄的申京了

塔圖姆轟32+5+8無緣今日最佳!對不起,你碰到暴走創紀錄的申京了

世界體育圈
2026-03-30 12:41:58
2026-03-30 16:59:00
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

DeepSeek性能異常問題已解決,服務恢復

頭條要聞

單套最低5400萬 北京豪宅暴雷幾十戶業主辦不了房產證

頭條要聞

單套最低5400萬 北京豪宅暴雷幾十戶業主辦不了房產證

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

油價沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態度原創

家居
藝術
手機
旅游
軍事航空

家居要聞

東方法式美學 現代簡約

藝術要聞

600 年前的「產亡孤魂」,藏著中國女性最痛的記憶

手機要聞

三星舊機更新現隔空投送開關,卻無法使用?

旅游要聞

赴泰旅游價格或上漲,泰國擬向外國游客收300泰銖

軍事要聞

第三艘航母出動數千名士兵抵達 美軍大舉增兵中東戰場

無障礙瀏覽 進入關懷版