337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

渲訓推一體化?清華RLinf讓機器人“邊想邊動不卡頓”

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。

在大模型領域,隨著 o1/R1 系列推理模型的發布,模型訓練的重心逐漸從數據驅動的預訓練 / 后訓練轉向獎勵驅動的強化學習(Reinforcement Learning, RL)。并且,能夠將大規模算力高效利用的 RL infra 的重要性也日益凸顯。當前框架對具身智能的支持仍然受限。相比推理大模型這一類純大腦模型,具身智能領域存在大腦(側重推理、長程規劃,如RoboBrain)、小腦(側重執行、短程操作,如OpenVLA)及大小腦聯合(快慢系統,如pi 0.5)等多樣模型。

具身智能除了包含Agentic AI的多步決策屬性外,他還有一個獨特屬性:渲訓推一體化。與工具調用智能體、瀏覽器智能體所交互的仿真器相比,具身仿真器通常需要高效并行物理仿真和3D圖形渲染等,因此當前主流仿真器通常采用GPU加速,耦合多步決策帶來了算力和顯存競爭的新挑戰。此背景下,清華大學、北京中關村學院和無問芯穹聯合推出了一個面向具身智能的靈活的、可擴展的大規模強化學習框架 RLinf。RLinf已上線始智AI-wisemodel開源社區,歡迎大家前去體驗。


模型地址

https://wisemodel.cn/models/RLinf/RLinf-math-1.5B

https://wisemodel.cn/models/RLinf/RLinf-math-7B

01.

RLinf介紹

RLinf 的 “inf” 不僅代表著 RL “infrastructure”,也代表著 “infinite” scaling,體現了該框架極度靈活的系統設計思想。

RLinf 的系統可以抽象為用戶層(統一編程接口)、任務層(多后端集成方案)、執行層(靈活執行模式)、調度層(自動化調度)、通信層(自適應通信)和硬件層(異構硬件)6 大層級。相比其他框架的分離式執行模式,RLinf 提出的混合式執行模式,在具身智能訓練場景下實現了超 120% 的系統提速,VLA 模型漲幅 40%-60%。同時,RLinf 高度靈活、可擴展的設計使其可快速應用于其他任務,所訓練的 1.5B 和 7B 數學推理大模型在 AIME24、AIME25 和 GPQA-diamond 數據集上取得 SOTA。



設計 1:采用基于 Worker 的統一編程接口,利用微執行流實現宏工作流,實現一套代碼驅動多種執行模式

當前已有強化學習框架通常采用兩種執行模式:共享式(所有卡跑同一個組件) 和分離式(不同的卡分配不同的組件)。然而,這兩種模式在具身智能 “渲訓推一體”的特點下都存在局限性。主要是:由于具身智能體多步決策的屬性,模型(Actor)要和仿真器(Simulator)頻繁交互,而當前框架一方面不支持仿真器狀態快速卸載和加載,另一方面若用共享式需要頻繁加載卸載組件,切換開銷大,嚴重降低系統效率。

因此,目前已有的框架在這個場景下僅支持分離式訓練,但分離式采用 on-policy 算法訓練時資源閑置率高,系統氣泡比較大。RLinf 針對這一問題,提出了混合式執行模式,如圖 4 所示,這種模式兼具分離式和共享式的優勢,再配合上細粒度流水設計,使得系統幾乎無氣泡,顯著提升了系統運行效率。


圖 4 : 共享式、分離式和混合式執行模式對比

然而,要想實現一套代碼驅動多種執行模式(即無需更改代碼,通過配置參數即可實現分離、共享或混合)是不容易的,一種標準的解決方案是構建計算流圖,但會導致編程靈活性降低,debug 難度直線上升,所以當前已有框架通常只支持一種模式(分離或者共享),引入新的執行模式需要大量的系統開發。

為此,RLinf 提出了創新的宏工作流到微執行流的映射機制(Macro-to-Micro Flow,M2Flow),實現從組件級而非任務級進行調度。M2Flow 允許用戶使用過程式編程方式靈活構建復雜訓練流程,解決傳統計算流圖構建編程靈活性低的問題,同時能夠將過程式的訓練流程靈活映射到底層不同的執行模式上,為不同的訓練流程(如 RLHF、RLVR 等)選擇最優執行模式(配合自動調度模塊)。

因此,該映射機制兼具過程式編程(Imperative Programming)的靈活性、易用性、易調試性和聲明式編程(Declarative Programming)的編譯優化能力。具體而言,RLinf 采用基于 Worker 的統一編程接口,允許用戶將訓練流程中的不同組件,如模擬器、訓練推理引擎,封裝成不同 Worker,然后通過過程式編程將這些 Worker 串起來形成完整的訓練流程。M2Flow 通過細粒度控制微執行流,即控制每個 Worker 的運行 GPU、執行的批大小、執行時機等,實現極度靈活的執行模式。

總結來說,RLinf 使用戶能夠以高度可適配的方式編排組件(Actor、Critic、Reward、Simulator 等),組件可以放置在任意 GPU 上,并自動配置不同的執行模式,目前支持 3 種執行模式:

共享式(Collocated Mode):用戶可以配置組件是否同時常駐于 GPU 內存,或通過卸載 / 重新加載機制交替使用 GPU。

分離式(Disaggregated Mode):組件既可以順序運行(可能導致 GPU 空閑),也可以以流水線方式執行,從而確保所有 GPU 都處于忙碌狀態。

混合式(Hybrid Mode):進一步擴展了靈活性,支持自定義組合不同的放置形式。典型案例是 Generator 和 GPU-based Simulator 執行分離式細粒度流水,二者與 Inference 和 Trainer 執行共享式。


設計 2: 面向具身智能大小腦不同訓練需求,采用全新的低侵入式多后端集成方案,兼顧高效性和易用性

具身智能領域的特點是:大小腦同時存在,且該領域仍處在蓬勃發展期,技術路線尚未收斂。因此為了更好地支持具身智能不同用戶(如具身大小腦研究人員)的需求,RLinf 集成了兩套后端:

Megatron + SGLang/vLLM:針對已收斂的模型架構(如具身大腦 VLM),支持已適配模型的快速接入,是大規模集群訓練的首選模式。在這一模式下,RLinf 也采用了全新的低侵入式訓推引擎集成方式,有助于快速集成訓推引擎的更新版本(用戶可嘗試切換 SGLang 版本,方法見說明文檔 Advanced Feature 章節),進而能夠啟用 Megatron 和 SGLang/vLLM 的所有優化能力,如 5D 并行等。

FSDP + Hugging Face:針對未收斂的模型架構(如具身小腦 VLA),支持 Hugging Face 模型開箱即用無需適配,是快速小規模驗證的首選模式。這一模式對于算力受限及新手用戶比較友好,特別為具身智能從業者打造。


圖 5:RLinf 集成兩套后端

同時 RLinf 也支持多項來自一線從業者的剛需,包括 LoRA 訓練,斷點續訓,以及適應不同網速用戶的訓練可視化(Tensorboard、W&B、SwanLab)等。此外,RLinf 也正在集成 SFT 模塊,致力于提供一站式的服務,通過一套代碼滿足多樣化的訓練需求。


設計 3: 設計面向強化學習的自適應通信庫和自動化調度模塊,提升訓練穩定性和系統效率。

1、自適應通信機制:

強化學習存在多個組件,且這些組件之間存在大量的數據交互。靈活、高效的互通信是支撐強化學習框架高效運行的關鍵,也是框架可擴展性的重要保證。因此,RLinf 特別設計了一套面向強化學習的通信庫,其中主要包含四項優化技術:自適應 CUDAIPC/NCCL 通信、負載均衡傳輸隊列、多通道并發通信機制、快速通信重配置。

自適應 CUDAIPC/NCCL 通信:無需用戶配置,根據兩個互通信組件所在 GPU 自動選擇使用 CUDAIPC 通信還是使用 NCCL 通信,即兩個組件位于同一個 GPU 上時使用 CUDAIPC,位于不同 GPU 上時使用 NCCL。

負載均衡傳輸隊列:可以根據上一個組件在不同 GPU 上所產生數據量的大小,在發送給下一個組件的不同 GPU 時做數據量負載均衡,使得下一個組件不同 GPU 的計算量接近,提升系統運行效率。


圖 6:負載均衡傳輸隊列

多通道并發通信:使用多 CUDA stream 以及多網絡流并發的通信,避免隊頭阻塞(Head-of-Line Blocking),降低通信延遲。

快速通信重配置:該功能主要面向大規模集群訓練,是實現下文秒級動態擴縮的支撐技術之一,可有效解決通信容錯和通信調整的問題。

2、自動化調度模塊:

大規模強化學習框架的優化目標是盡量減少系統資源閑置。已有框架通常采用人為指定資源配置的方案,依賴于人工經驗,容易造成系統資源浪費,RLinf 設計了一套自動調度策略,可以針對用戶的訓練流以及用戶所使用的計算資源,選擇最優的執行模式。

具體而言,RLinf 會對各組件做自動化性能分析,獲得各組件對資源的使用效率和特征。然后,構建執行模式的搜索空間,該搜索空間描述了強化學習算法各組件對計算資源的分配復用關系,包括 “時分復用”、“空分復用” 以及二者結合的資源分配方案;在這樣的建模下,RLinf 的自動化調度不僅支持已有強化學習框架中 “共享式” 和 “分離式” 的典型資源分配方式,還支持二者結合的混合分配方案的建模分析。

最后,基于上述性能分析數據,在該空間中搜索出最優的執行模式。除此之外,該自動調度策略還集成 “秒級在線擴縮容(Online Scaling)” 能力,70B 模型只需 1 秒即可完成 5D 并行動態擴縮,而傳統方案需十幾秒甚至更久。該功能及相關論文將于 10 月上線開源版本。基于該技術可進一步實現運行時組件間計算資源的動態調度,配合細粒度流水設計,可以在保證算法 on-policy 屬性的前提下進一步壓縮系統氣泡率,且顯著提升訓練穩定性。

02.

RLinf 性能

與此同時,Pusa V1.0所需的參數更新數比Wan-I2V少10倍以上,這表明Pusa僅僅關注與時間相關的模塊,從而保留了基礎模型的先驗知識。與之相對的,Wan-12V則表現出對基礎模型先驗知識的破壞。

在應用上,與其他框架相比,RLinf 的特色在于 Vision-Language-Action Models (VLAs)+RL 的支持,為研究人員探索 VLAs+RL 領域提供了良好的基礎算法性能及測試平臺。RLinf 支持了主流的 CPU-based 和 GPU-based 仿真器(具體平臺見說明文檔),支持了百余類具身智能任務,集成了主流的具身大模型 OpenVLA、OpenVLA-OFT、Pi 0。

特別地,團隊率先實現了對 Pi 0 的大規模強化學習微調,相關算法及論文將在 9 月底發布。在量化指標上,以 Maniskill3(典型的 GPU-based Simulator )為例進行測試,RLinf 采用混合式結合細粒度流水的執行模式。相比其他框架的分離式執行模式,系統效率顯著提速 120% 以上(圖 7)。

OpenVLA 及 OpenVLA-OFT 在 Maniskill3 自建 25 個任務 [1] 中采用 PPO 算法和適配具身的 GRPO 算法訓練后,成功率曲線如圖 8 所示,可以看到模型成功率可以從 SFT 后的 30%-50% 提升至 80%-90%,漲幅 40%-50% 以上。

在公開測試平臺 LIBERO 的 4 個場景中,OpenVLA-OFT 采用 RLinf 適配具身的 GRPO 算法訓練后,平均成功率達到 97.3%,相比 SFT 模型漲幅 62.4%。

團隊前序工作曾探討 RL 和 SFT 對 VLA 泛化性提升的不同之處 [1],RLinf 將研究進一步拓展至大規模場景下,助力探索具身智能領域的 RL Scaling Law。


圖 7:RLinf 在 “渲訓推一體化” 任務訓練中顯著提速 120%+


圖 8:OpenVLA、OpenVLA-OFT 在 Maniskill3 自建 25 個任務中采用 PPO 算法及具身版 GRPO 算法的訓練曲線


表 1:OpenVLA-OFT 在 LIBERO 中采用具身版 GRPO 算法的測評結果

03.

結語

考慮到框架的易用性,RLinf 提供了全面且系統化的使用文檔。RLinf 在開發之初的目標就是開源,因此讓每一個用戶能夠理解、使用和修改是設計原則之一,也是一個優秀開源框架必備的屬性。團隊采用公司級代碼開發流程,確保文檔內容覆蓋從入門到深度開發的各層次需求。此外,RLinf 還提供完整的 API 文檔與集成 AI 問答機器人支持,以進一步提升開發體驗與支持效率。

RLinf 團隊的開發成員具有交叉研究背景,包含從系統到算法到應用的技術全棧,例如系統架構設計、分布式系統、大模型訓練推理加速、強化學習、具身智能、智能體等。正是由于這樣的交叉背景,使得團隊能夠從應用需求驅動算法設計,算法指導系統設計,高效系統加速算法迭代,體現了大模型時代下新型科研形態。未來 RLinf 團隊也將持續開發和維護,具體 Roadmap 見 Github 網站。 RLinf 項目地址 https://github.com/RLinf/RLinf

最后,誠摯地邀請大家體驗 RLinf 框架,并且與我們交流技術觀點與潛在合作機會。同時,RLinf 團隊持續招聘博士后、博士、碩士、研究員、工程師及實習生,歡迎投遞簡歷,與我們共同推進下一代強化學習基礎設施的建設與發展。

聯系方式:zoeyuchao@gmail.com, yu-wang@mail.tsinghua.edu.cn

[1] Liu, Jijia, et al. "What can rl bring to vla generalization? an empirical study." arXiv preprint arXiv:2505.19789 (2025).

[2] https://github.com/inclusionAI/AReaL

[3] https://huggingface.co/datasets/inclusionAI/AReaL-boba-Data

編輯丨趙雅鑫

----- END -----


wisemodel相關:

系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

聲明:包含AI生成內容

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
浙江一公路自行車賽發生大面積摔車事件,組委會醫療聯系人:擦傷撞傷人數確實多,但僅極個別送醫

浙江一公路自行車賽發生大面積摔車事件,組委會醫療聯系人:擦傷撞傷人數確實多,但僅極個別送醫

極目新聞
2026-03-30 17:14:00
特朗普:已摧毀許多“覬覦已久”的伊朗境內目標

特朗普:已摧毀許多“覬覦已久”的伊朗境內目標

新華社
2026-03-30 10:50:06
老鷹vs凱爾特人前瞻:四天內第二次交手,塔圖姆帶隊力爭四連勝

老鷹vs凱爾特人前瞻:四天內第二次交手,塔圖姆帶隊力爭四連勝

橙汁的味道123
2026-03-30 18:07:21
睡覺時總在凌晨3、4點醒來,醫生直言:一般提示3大疾病,別忽視

睡覺時總在凌晨3、4點醒來,醫生直言:一般提示3大疾病,別忽視

健康之光
2026-03-30 13:18:26
我是廣東人,在香港打工12年,發現香港人愛吃這3道菜,喝這2款酒

我是廣東人,在香港打工12年,發現香港人愛吃這3道菜,喝這2款酒

濤哥美食匯
2026-03-30 09:10:37
勇士下賽季將換帥?庫里希望科爾留隊 多位助教默認他不會回歸

勇士下賽季將換帥?庫里希望科爾留隊 多位助教默認他不會回歸

羅說NBA
2026-03-30 07:15:20
1725年,14歲的乾隆被安排第一個試婚宮女,侍寢后讓他終生難忘

1725年,14歲的乾隆被安排第一個試婚宮女,侍寢后讓他終生難忘

掠影后有感
2026-03-28 10:18:18
李鑫養家姐姐開通櫥窗,哥哥開通星圖合作,哥哥姐姐都關閉了評論

李鑫養家姐姐開通櫥窗,哥哥開通星圖合作,哥哥姐姐都關閉了評論

動物奇奇怪怪
2026-03-30 17:18:52
鄭麗文訪問大陸行程確定,民進黨表態,趙少康不裝了,不簡單

鄭麗文訪問大陸行程確定,民進黨表態,趙少康不裝了,不簡單

觀星賞月
2026-03-30 17:00:28
打!傾家蕩產也要打!以色列最新民調:75%民眾要求和伊死磕到底

打!傾家蕩產也要打!以色列最新民調:75%民眾要求和伊死磕到底

肖茲探秘說
2026-03-30 15:51:14
A股:今天,上漲到3923,明天,周二行情分析!

A股:今天,上漲到3923,明天,周二行情分析!

明心
2026-03-30 15:17:18
朝鮮有5條奇葩規矩,千萬不能碰!一不小心就“小命不保”?

朝鮮有5條奇葩規矩,千萬不能碰!一不小心就“小命不保”?

一絲問別
2026-03-28 13:18:44
他倆站在一起真的像一對母女,譚松韻的娃娃臉真的耐看

他倆站在一起真的像一對母女,譚松韻的娃娃臉真的耐看

草莓解說體育
2026-03-30 16:17:40
日本人妻買了一款中國零食,吃后欲罷不能并詢問其名字,網友熱議

日本人妻買了一款中國零食,吃后欲罷不能并詢問其名字,網友熱議

仙味少女心
2026-03-29 06:25:21
涉嫌嚴重違紀違法,鄭蘭兵被查

涉嫌嚴重違紀違法,鄭蘭兵被查

吉刻新聞
2026-03-30 16:11:16
老人離世房產未過戶,2026年法律新規:繼承權真的會作廢嗎?

老人離世房產未過戶,2026年法律新規:繼承權真的會作廢嗎?

復轉這些年
2026-03-22 17:48:38
曼聯一億英鎊重磅引援取得進展,新任正式主帥人選已確定

曼聯一億英鎊重磅引援取得進展,新任正式主帥人選已確定

林子說事
2026-03-30 07:47:53
“被迫”上任,卡羅爾:我之前從未想過當主帥,我還是想踢球

“被迫”上任,卡羅爾:我之前從未想過當主帥,我還是想踢球

懂球帝
2026-03-30 10:33:05
人的基因到底有多強大?網友:今年剪了個短發,我爸一看就害怕!

人的基因到底有多強大?網友:今年剪了個短發,我爸一看就害怕!

另子維愛讀史
2026-03-21 20:46:34
甲醇汽油全國試點鋪開:加滿一箱省40%,老燃油車不用改就能加

甲醇汽油全國試點鋪開:加滿一箱省40%,老燃油車不用改就能加

侃故事的阿慶
2026-03-30 10:56:50
2026-03-30 18:28:49
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

一句謊言引發的硅谷血案

頭條要聞

尹正發文恭喜張雪奪冠 張雪:沒錢請您做代言人 送臺車

頭條要聞

尹正發文恭喜張雪奪冠 張雪:沒錢請您做代言人 送臺車

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態度原創

家居
游戲
房產
本地
軍事航空

家居要聞

東方法式美學 現代簡約

2025年的神作有中文了!M站92分 IGN9分超好評

房產要聞

32億,三開三罄!誰在硬控海口樓市高端局?

本地新聞

用Color Walk的方式解鎖城市春日

軍事要聞

第三艘航母出動數千名士兵抵達 美軍大舉增兵中東戰場

無障礙瀏覽 進入關懷版