337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

北大聯合Llama-Factory推出DataFlex:工業級數據動態訓練系統

0
分享至



當大模型訓練進入深水區,競爭的關鍵已經不再只是「模型參數怎么調」,而逐漸轉向一個更核心、也更難系統解決的問題:模型在訓練過程中究竟看到了什么數據、以什么比例看到、哪些樣本應該被更頻繁地學習。

這些因素正在越來越直接地決定訓練效率、泛化能力以及最終模型性能。

圍繞數據選擇、數據混合和樣本重加權,學術界已經提出了不少方法。但長期以來,這些方法大多分散在彼此獨立的代碼倉庫中:接口不統一、訓練流程不一致、復現門檻高、橫向比較困難。

更重要的是,很多方法依賴 embedding、模型打分、梯度或中間推理信號,真正難的從來不是「提出一個方法」,而是把這些方法穩定、可復現地接入主流訓練流程,并納入一套統一的訓練閉環。

近日,北京大學張文濤教授、鄂維南院士團隊,聯合 LLaMA-Factory Team、OpenDataLab、上海 AI Lab 等機構,推出了面向大模型訓練過程的數據中心動態訓練框架 DataFlex。

它并不是單一算法或若干腳本的簡單堆疊,而是一套建立在 LLaMA-Factory 之上的統一訓練基礎設施:將動態樣本選擇、動態數據混合、動態樣本加權三類核心能力真正納入訓練過程,使「數據如何參與訓練」從經驗式配置,升級為可控制、可優化、可復現的系統能力。

換句話說,DataFlex 試圖解決的,并不只是某一個訓練技巧是否有效,而是一個更底層的系統問題:如何讓數據像模型參數一樣,成為訓練過程中可以持續調度和優化的核心對象。

這使它既可以作為研究平臺,用于系統比較不同數據中心訓練算法;也可以作為實用系統,直接服務于大模型預訓練、后訓練和領域適配等場景。

DataFlex 發布后,在 Hugging Face Daily Papers 榜單中迅速獲得廣泛關注并拿到了月榜第一。這種關注背后所反映的,本質上是社區對「數據中心動態訓練」從理論走向工程閉環的里程碑式認可。





DataFlex 不只是一個算法倉庫,而是一套數據中心訓練基礎設施

  • 可復現的研究平臺:在統一訓練框架下系統比較動態數據混合、樣本選擇和樣本加權等數據中心訓練方法,覆蓋在線與離線場景,顯著降低研究復現與方法對比成本;
  • 面向真實訓練的優化系統:將數據選擇、數據配比和樣本權重調節真正接入訓練閉環,使數據從「靜態輸入」變成「可持續調度的優化對象」,從而提升訓練效率與最終模型效果。

  • 技術報告:https://arxiv.org/abs/2603.26164
  • 官方文檔:https://opendcai.github.io/DataFlex-Doc/
  • Github 倉庫:https://github.com/OpenDCAI/DataFlex

DataFlex:大模型工業化數據調用的最后一塊拼圖

設計哲學:告別靜態投喂,把「數據調度」變成開箱即用的系統能力



1.核心概念:Data-Centric Dynamic Training System

DataFlex 的核心,不僅僅是再發一遍「數據很重要」的老生常談,而是直擊行業的最痛點:如何把「模型看什么數據、按什么比例看、優先強化哪些樣本」這種玄學經驗,真正固化為可配置、可調度、可復現的標準化系統能力。它不僅僅關注參數的梯度更新,更死死盯住了數據在每一步訓練中的真實參與度。

1.1從「填鴨式靜態輸入」到「數據主動調度」

傳統的大模型訓練中,數據往往被視為預先準備好的靜態輸入:數據集先確定,采樣方式先寫死,訓練過程中主要被持續優化的是模型參數本身。但當訓練數據規模越來越大、來源越來越復雜時,真正決定效果的,已經不只是「有沒有更多數據」,而是「訓練時能否更聰明地使用數據」。

Data-centric dynamic training 的核心思想,是把數據從「被動輸入」提升為「主動調度對象」。系統不僅要決定模型看哪些數據,還要動態決定不同數據源如何配比、哪些樣本應被優先學習、哪些樣本應被降低權重。

DataFlex 的價值,正是在于把這種原本零散、分散在不同方法和代碼中的能力,推進為統一、標準化的訓練機制。

1.2零成本遷移的統一框架

好的系統不應成為開發者的負擔。在動態調度之外,DataFlex 更進一步解決的是系統層問題:如何把原本分散的數據選擇、數據配比和數據重加權方法,統一納入同一套訓練基礎設施。

一方面,DataFlex 建立在 LLaMA-Factory 之上,盡量復用已有的模型管理、數據處理和訓練組件;另一方面,它在訓練層引入統一的數據中心控制能力,使不同數據策略能夠在同一個訓練閉環中被實現、比較和擴展。

因此,DataFlex 不是若干數據算法的簡單集合,而是一套面向大模型訓練過程的統一數據中心動態訓練系統。

2.三個設計原則

  • 統一性:系統將數據中心訓練中的三個代表性范式統一納入了同一訓練框架;
  • 兼容性:系統能夠融入現有的大規模模型訓練基礎設施,而不是額外引入一套工作流;
  • 可擴展性:研究者可以以較低的工程成本實現并比較新的數據中心算法。

整體架構



DataFlex 延續了 LLaMA-Factory 易用、清晰的設計思路,但在整體架構上做了關鍵升級。其在不破壞現有訓練生態的前提下,把數據中心訓練真正做成了一套統一、可擴展、可復現、可落地的系統能力。整個系統大致可以分為三層:

  • 基礎層(Base Layer):這一層繼承自 LLaMA-Factory,負責模型管理、數據處理、優化器等通用訓練能力。系統在盡量保持原有訓練流程與使用習慣的同時,把擴展重點集中在數據中心訓練本身,降低了用戶從現有訓練流程遷移到 DataFlex 的門檻。
  • 訓練器層(Trainer Layer):它沒有沿用單一的原始 trainer,而是將訓練過程抽象為三種數據中心訓練模式,分別對應數據選擇、數據混合和樣本加權。這一層把訓練器從只負責參數更新,擴展為同時負責數據決策與參數優化。
  • 策略組件層(Component Layer):這里掛載的是具體算法組件,例如不同的 selector、mixer 和 weighter。它們各自封裝了不同方法的策略邏輯,并對訓練器暴露了統一接口。

這種架構實現了輕量替換,而不是重構一切。DataFlex 并沒有在 LLaMA-Factory 外面再包一個復雜編排系統,而是聚焦于替換訓練層,并僅在需要時對數據加載等模塊做最小擴展。

對用戶來說,這接近一種「即插即用」的增強:已有的模型、數據集、訓練參數配置都可以保留,只需要增加 DataFlex 相關配置,就能切換到以數據為中心的動態訓練模式。

此外,DataFlex 還統一封裝了數據中心方法普遍依賴的模型中間信號,比如 embedding 提取、模型推理、梯度計算等。很多數據選擇和數據加權方法真正難落地,不是因為思想復雜,而是因為它們依賴的中間信號獲取成本高、工程耦合重。DataFlex 把這類共享能力抽象出來,降低了實現和擴展門檻,也為后續大規模訓練提供了基礎。

核心功能

1.三個核心訓練器

對應當前數據中心訓練中典型的三種優化方向,DataFlex 支持三類核心訓練器:

  • 動態樣本選擇訓練器(Dynamic Select Trainer):在訓練過程中動態篩選更有價值的訓練樣本,減少低價值或冗余樣本對訓練預算的消耗,從而提升訓練效率。
  • 動態數據混合訓練器(Dynamic Mix Trainer):面向多來源、多領域訓練數據場景,在訓練過程中動態調整不同數據源的采樣比例,使模型能夠根據當前學習狀態更合理地分配訓練注意力。
  • 動態樣本加權訓練器(Dynamic Weight Trainer):針對不同樣本賦予不同訓練權重,使模型能夠對更關鍵、更困難或更具代表性的樣本進行更有效學習,從而改善模型性能與泛化能力。

2.算法集成與可擴展性

DataFlex 為三類訓練器集成了 LESS、DoReMi、ODM、Loss Reweighting 等代表性方法。所有方法都以可插拔組件的形式,在統一接口下實現,從而能夠在受控條件下進行公平比較。

科研上許多極具代表性的動態訓練方法,要么缺乏官方倉庫,要么其官方實現存在難以復現的問題。DataFlex 通過系統化的重構,讓這些處于「失聯」或「半停滯」狀態的算法重新具備了工業級生產力。



三類訓練器分工不同,但背后遵循的是同一種數據 — 模型交互邏輯:先觀察當前模型狀態,再給出新的數據決策,隨后把這一決策反饋到后續訓練中。

DataFlex 正是把這種共性的交互模式抽象成統一接口,從而讓不同算法能夠共享訓練流程、基礎能力以及擴展方式。 DataFlex 的配置文件繼續沿用了 LLaMA-Factory 的基于 YAML 的格式,用于指定模型、數據集和訓練超參數。

唯一新增的是一個簡短的 dataflex 配置段,用于告訴框架要采用哪種數據中心策略,以及如何對其進行調度。



使用方式

DataFlex 完全兼容 LlamaFactory 的配置和使用方式:

  • 配置兼容:在 LlamaFactory 配置基礎上添加 DataFlex 參數;
  • 命令一致:使用 dataflex-cli 替代 llamafactory-cli;
  • 功能保持:支持所有 LlamaFactory 的原有功能;
  • 無縫切換:可以通過 train_type: static 回退到原始訓練模式。

環境配置、參數說明以及自定義組件接入方式,可進一步參考官方文檔。除此之外,我們還提供了兩期視頻教程,分別演示了動態數據混合與動態數據選擇的具體操作流程,便于初次上手的用戶快速理解。

  • 官方文檔:https://opendcai.github.io/DataFlex-Doc/
  • Github 倉庫:https://github.com/OpenDCAI/DataFlex
  • 視頻教程:

- 自動數據選擇與動態訓練:https://b23.tv/BV1pHrKBoE6s

- 自動優化數據配比:https://b23.tv/LYYx1hG

實驗效果

為了驗證 DataFlex 的有效性,團隊圍繞樣本選擇、數據混合和系統效率三方面進行了系統實驗,覆蓋 7 種數據選擇、2 種數據混合和 1 種數據重加權方法。整體結果表明,DataFlex 不僅能夠統一復現不同數據中心方法,還能在模型效果和訓練效率上帶來穩定提升。

數據選擇與樣本加權:動態方法整體優于靜態訓練



在 Open-Hermes-2.5 子集上的實驗顯示,無論是在 Mistral-7B 還是 Llama-3.2-3B 上,大多數動態數據中心方法都優于靜態全量訓練基線。這表明在模型容量有限的情況下,能夠實時感知模型狀態的動態選擇策略對于達到性能上限至關重要 。

3.2 數據混合:動態配比優于默認配比



在 SlimPajama 的 6B 和 30B 設置下,DoReMi 和 ODM 兩種數據混合算法都表現出了明顯優勢。在 6B token 規模下,動態數據混合方法已經展現出明顯優勢:ODM 在通用能力評測中的準確率高于默認靜態配比,而 DoReMi 則在整體困惑度上進一步取得更優結果,說明動態調整不同數據域的配比,確實能夠帶來更好的訓練收益。

系統效率:統一框架不僅易用,而且高效



除了效果提升,DataFlex 在效率上也有不錯表現。以 LESS 為例,在單卡設置下,DataFlex 在多個采樣比例上都實現了更低訓練耗時,例如在 1.0 比例下,訓練時間從 30,239 秒降到 28,734 秒,同時準確率從 40.38% 提升到 42.37%。進一步在 8 張 H20 GPU 上,訓練時間減少了 57.13%。



對于 TSDS 這類離線選擇方法,DataFlex 的重實現也在不同數據規模下取得了穩定的 1%—3.5% 提速。

構筑 AI 時代的數據生態

當大模型技術演進跨越了架構探索的初級階段,行業的角逐核心已躍遷至「數據應用」的深水區。

團隊(PKU-DCAI)致力于在 Data-Centric AI(以數據為中心的 AI)浪潮中,構筑支撐下一代 AI 應用的數據基礎設施。本次開源的 DataFlex 與團隊另一核心工作 DataFlow(3k+ Stars),共同為 AI 時代的數據應用確立了從源頭到閉環的全新范式。

Github 倉庫:

  • https://github.com/OpenDCAI/DataFlow
  • https://github.com/OpenDCAI/DataFlex

面向 AI 時代海量且混沌的真實世界信息,DataFlow 的使命是打造「高智力密度」的數據提煉工場。承接 DataFlow 提煉的高階數據,DataFlex 真正將「數據應用」的觸角深入到了模型訓練的原子層。它不僅是在加速模型的收斂,更是在系統層面控制模型的泛化能力與知識吸收軌跡,確保數據的潛在價值被極致地變現為 AI 的頂尖實戰能力。



作者信息

作者是來自北京大學的 DCAI 團隊,深耕于 AI 數據側的底層革新與系統落地,擁有該領域最前沿的算法儲備與工程經驗。

梁昊:北京大學大數據科學研究中心博士,開源項目 DataFlow leader,第一作者 / 共同第一作者發表 9 篇 CCF-A 論文。

趙正陽:北京大學大數據科學研究中心博士,開源項目 DataFlow 核心開發者,元樞智匯高級算法研究員。

強美伊:北京大學軟件與微電子學院碩士,開源項目 DataFlow 核心開發者,發表期刊 / CCF-A 論文 7 篇。

大家堅信,大模型競爭的終點不在于單一算法的博弈,而在于構建一套統一、高效、且可復現的數據中心化基礎設施。

開源只是起點,生態需要共建。歡迎學術界與工業界的同仁關注、使用 OpenDCAI 系列開源項目,并與團隊進行深度的技術探討。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
斯坦福報告:美國這個優勢,中國要抹平了

斯坦福報告:美國這個優勢,中國要抹平了

觀察者網
2026-04-17 08:51:06
烏克蘭女兵被俘后會遭受什么樣的待遇,有點超出你的想象

烏克蘭女兵被俘后會遭受什么樣的待遇,有點超出你的想象

蔚藍的珊瑚海
2026-04-14 19:13:01
直到兒子上大學了,才發現,謝霆鋒是第二個平鑫濤,王菲她虧不虧

直到兒子上大學了,才發現,謝霆鋒是第二個平鑫濤,王菲她虧不虧

老吳教育課堂
2026-04-17 19:07:31
這條吃相難看的新聞,每一行都寫滿了諷刺

這條吃相難看的新聞,每一行都寫滿了諷刺

胖胖說他不胖
2026-04-17 09:30:26
浙江0-0北京國安,賽后評分:不是王鈺棟第一,浙江38號排第一

浙江0-0北京國安,賽后評分:不是王鈺棟第一,浙江38號排第一

側身凌空斬
2026-04-17 21:56:45
蔣介石去世前鏡頭:出席孫子婚禮無法站立,雙手被膠帶綁在椅子上

蔣介石去世前鏡頭:出席孫子婚禮無法站立,雙手被膠帶綁在椅子上

芊芊子吟
2026-03-29 06:40:06
李想把“理想平替”喂成了狼

李想把“理想平替”喂成了狼

市象
2026-04-17 16:42:52
女子赴發小婚禮穿瑜伽褲,打扮過于火辣,網友直呼跟沒穿似的

女子赴發小婚禮穿瑜伽褲,打扮過于火辣,網友直呼跟沒穿似的

一盅情懷
2026-03-16 17:28:45
停火紛爭中的黎巴嫩:在大國利益的揉捏中無奈地成為“焦點”

停火紛爭中的黎巴嫩:在大國利益的揉捏中無奈地成為“焦點”

澎湃新聞
2026-04-15 13:34:29
上海交大:每次起床后大量喝水的人,用不了多久,身體或有7變化

上海交大:每次起床后大量喝水的人,用不了多久,身體或有7變化

讀懂世界歷史
2025-11-23 11:18:04
天呢!中年失業男求職,被HR諷刺挖苦“都41歲了,還亂投簡歷…”

天呢!中年失業男求職,被HR諷刺挖苦“都41歲了,還亂投簡歷…”

慧翔百科
2026-04-17 12:08:24
超越茅臺,A股新股王誕生

超越茅臺,A股新股王誕生

澎湃新聞
2026-04-17 14:56:28
昆明三部門約談“松果出行”:責令限期清理回收違規投放車輛

昆明三部門約談“松果出行”:責令限期清理回收違規投放車輛

澎湃新聞
2026-04-17 16:28:26
沒有海外基地的無可奈何,簡氏:中國正建造六萬噸級超大型補給艦

沒有海外基地的無可奈何,簡氏:中國正建造六萬噸級超大型補給艦

嘯鷹評
2026-04-16 22:46:27
李楠正式結束3年禁賽期:可回場邊輔佐許利民 本季北京主帥不會變

李楠正式結束3年禁賽期:可回場邊輔佐許利民 本季北京主帥不會變

醉臥浮生
2026-04-16 22:27:06
宮魯鳴秒變“小丑”?中國女籃集訓首日太尷尬:19人只有1人參訓

宮魯鳴秒變“小丑”?中國女籃集訓首日太尷尬:19人只有1人參訓

大魚簡科
2026-04-17 17:06:48
庫里遭遇傷病驚魂!勇士官宣對陣太陽出人意料的傷病報告

庫里遭遇傷病驚魂!勇士官宣對陣太陽出人意料的傷病報告

行舟問茶
2026-04-17 18:48:48
殺人誅心!向太談買房,句句不提馬筱梅,卻字字都戳她“痛處”

殺人誅心!向太談買房,句句不提馬筱梅,卻字字都戳她“痛處”

杰絲聊古今
2026-04-17 11:53:49
48歲奧地利前國門曼寧格去世:駕駛車輛與火車相撞 曾效力3大足球豪門

48歲奧地利前國門曼寧格去世:駕駛車輛與火車相撞 曾效力3大足球豪門

快科技
2026-04-17 08:58:04
英媒縱論斯諾克世錦賽中國五虎:吳宜澤最大黑馬,丁俊暉最低評分

英媒縱論斯諾克世錦賽中國五虎:吳宜澤最大黑馬,丁俊暉最低評分

楊華評論
2026-04-17 21:02:32
2026-04-18 00:39:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12790文章數 142631關注度
往期回顧 全部

科技要聞

7家頭部平臺被罰沒35.97億元

頭條要聞

特朗普:感謝伊朗開放霍爾木茲海峽

頭條要聞

特朗普:感謝伊朗開放霍爾木茲海峽

體育要聞

中超-泰山1-1海港 楊希處子球克雷桑任意球扳平

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財經要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

又快又穩的開掛動力! 阿維塔06T全系搭分布式電驅

態度原創

數碼
游戲
親子
公開課
軍事航空

數碼要聞

蘋果今年將為兩款設備升級 OLED 顯示屏

Xbox重磅!"戰爭機器之父"狂贊新作:看完起雞皮疙瘩

親子要聞

找不到工作的幼師 去寵物幼兒園教“毛孩子”了

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美宣布黎以停火10天 以方稱不會撤軍

無障礙瀏覽 進入關懷版