![]()
作者 | 北京大學(xué) DCAI 團(tuán)隊
![]()
在大模型(LLM)研發(fā)進(jìn)入深水區(qū)的 2026 年,行業(yè)共識正經(jīng)歷從“模型中心(Model-Centric)”向“數(shù)據(jù)中心(Data-Centric)”的深刻演進(jìn)。隨著 Scaling Law 進(jìn)入平臺期,開發(fā)者發(fā)現(xiàn):單純堆砌 Token 數(shù)量已邊際效應(yīng)遞減,數(shù)據(jù)的語義密度(Semantic Density)與工程精度成為了突破模型性能上限的關(guān)鍵。
然而,在研發(fā) DataFlow 的過程中,北京大學(xué) DCAI 團(tuán)隊觀察到一個嚴(yán)峻的現(xiàn)實:雖然模型已進(jìn)入自動駕駛時代,但數(shù)據(jù)準(zhǔn)備(Data Prep)仍處于“手工坊”階段。碎片化的 Python 腳本、不可復(fù)用的正則表達(dá)式、缺乏觀測性的黑盒流程,已成為大模型落地企業(yè)級應(yīng)用的最大瓶頸。
正是基于對這一工程痛點的精準(zhǔn)切入,DataFlow 的技術(shù)報告在發(fā)布后迅速引發(fā)了全球開發(fā)者的廣泛共鳴,并成功登頂 Hugging Face Daily Papers 榜首(of the Day)。這一來自開源社區(qū)的強(qiáng)烈反饋印證了一個事實:大模型行業(yè)急需一套具備系統(tǒng)化抽象與工業(yè)級可靠性的數(shù)據(jù)治理基礎(chǔ)設(shè)施。
![]()
項目倉庫:https://github.com/OpenDCAI/DataFlow
1 企業(yè)級 LLM 數(shù)據(jù)工程的三大技術(shù)挑戰(zhàn)
在討論工具能力之前,我們需要明確大模型數(shù)據(jù)工程與傳統(tǒng) ETL 的本質(zhì)區(qū)別:
語義斷層與模型在環(huán)(Model-in-the-Loop): 傳統(tǒng)清洗依賴確定性規(guī)則,但 LLM 需要處理的是高維語義信息。要生成高質(zhì)量的數(shù)學(xué)推理或復(fù)雜代碼數(shù)據(jù),必須引入模型來評估、過濾甚至生成數(shù)據(jù),這要求系統(tǒng)具備極強(qiáng)的模型調(diào)用編排能力。
工程碎片化導(dǎo)致的“技術(shù)債”: 數(shù)據(jù)處理鏈路長、環(huán)節(jié)多,缺乏統(tǒng)一的抽象。不同項目間的算子難以復(fù)用,導(dǎo)致邏輯散落在各個獨立腳本中,極大地提高了復(fù)現(xiàn)成本和維護(hù)難度。
黑盒處理與觀測性缺失: 動輒 TB 級的文本在流水線中流轉(zhuǎn),開發(fā)者往往無法實時感知數(shù)據(jù)分布的變化。如果清洗邏輯存在隱性偏見,往往要等到模型訓(xùn)練數(shù)周后才能被發(fā)現(xiàn),試錯成本極高。
2 DataFlow 架構(gòu):像編寫 PyTorch 模型一樣定義數(shù)據(jù)流
DataFlow 的設(shè)計哲學(xué)是“系統(tǒng)化抽象,編程化驅(qū)動”。它不僅僅是一個庫,而是一套類似于 PyTorch 的數(shù)據(jù)編程協(xié)議。
![]()
可觀測性革命:DataFlow-WebUI
![]()
針對“黑盒清洗”的痛點,我們正式推出了DataFlow-WebUI。它將復(fù)雜的算子庫包裝進(jìn)圖形化界面,支持:
拖拉拽編排:通過可視化畫布定義數(shù)據(jù)流向,邏輯鏈路一目了然。
實時數(shù)據(jù)探針:支持在線預(yù)覽算子輸出的中間結(jié)果,開發(fā)者可以即時調(diào)整 Prompt 或過濾策略,實現(xiàn)數(shù)據(jù)治理的“白盒化”。
任務(wù)熱監(jiān)控:實時更新處理進(jìn)度與運行日志,讓長周期任務(wù)處于完全可控狀態(tài)。
存儲與服務(wù)層的解耦設(shè)計
DataFlow 引入了全局表格化存儲(Global Storage)抽象。通過統(tǒng)一的 read() 和 write() 接口,將算子邏輯與底層存儲格式解耦,每個算子基于統(tǒng)一 run(storage) 接口,通過 鍵綁定(key-based I/O)靈活適配任意數(shù)據(jù)格式。無論后端是本地 JSONL、Parquet 還是分布式數(shù)據(jù)庫,算子只需關(guān)注字段操作。
![]()
同時,DataFlow 構(gòu)建了統(tǒng)一 LLM 服務(wù)接口(Serving Interface),兼容 vLLM、SGLang 等本地推理引擎及 GPT-4 等在線 API。系統(tǒng)自動處理批處理(Batching)、重試及限速邏輯,使開發(fā)者能專注于 Prompt 策略而非后端工程細(xì)節(jié)。
模塊化算子生態(tài)
DataFlow 將近 200 個內(nèi)置算子嚴(yán)格劃分為四類,建立了標(biāo)準(zhǔn)化的語義命名規(guī)范:
![]()
算子被設(shè)計為具備獨立生命周期的原子轉(zhuǎn)換單元。 在初始化階段,算子通過聲明式配置完成 LLM 服務(wù)實例與提示模板的依賴注入;在執(zhí)行階段,則通過 input_* / output_ 鍵名與全局存儲層進(jìn)行非侵入式交互。這種設(shè)計實現(xiàn)了計算邏輯與數(shù)據(jù) Schema 的深度解耦,在確保狀態(tài)隔離的同時,大幅提升了復(fù)雜 Pipeline 的組合靈活性與復(fù)用性。
![]()
確定性流水線與靜態(tài)檢查
DataFlow 支持將算子組織為有序程序或 DAG。通過 compile() 機(jī)制,系統(tǒng)在任務(wù)運行前會對字段缺失、類型沖突進(jìn)行靜態(tài)檢查和。配合延遲執(zhí)行(Lazy Execution)和斷點續(xù)傳(Checkpoints),極大地提升了大規(guī)模分布式任務(wù)的可靠性。
![]()
3 DataFlow-Agent:從自然語言到可執(zhí)行流水線的自動編排
為了解決“專家經(jīng)驗碎片化”的問題,DataFlow 引入了Agentic 編排機(jī)制。用戶只需輸入自然語言指令(如“幫我生成高質(zhì)量 Python 算法題數(shù)據(jù)”),Agent 即可完成:拆解意圖 → 檢索 / 合成算子 → 組裝 DAG → 沙箱驗證 → 輸出可執(zhí)行 pipeline。
這標(biāo)志著 agent 首次通過“檢索 - 復(fù)用 - 合成 - 驗證”閉環(huán),遠(yuǎn)超傳統(tǒng)僅參數(shù)化配置的 agent,同時數(shù)據(jù)工程從“代碼編寫”向“邏輯定義”躍遷,顯著降低了構(gòu)建 SOTA 級領(lǐng)域流水線的門檻。
![]()
4 性能驗證:小規(guī)模高質(zhì)量數(shù)據(jù)的“杠桿效應(yīng)”
為了驗證 DataFlow 的系統(tǒng)化治理能力,我們在多個領(lǐng)域構(gòu)建了 SOTA 級流水線。實驗結(jié)果表明,通過精準(zhǔn)的算子編排,能夠以極小的數(shù)據(jù)規(guī)模實現(xiàn)模型性能的跨越式提升。
文本預(yù)訓(xùn)練與 SFT
在基礎(chǔ)文本治理上,DataFlow 證明了語義提純優(yōu)于單純的規(guī)模堆砌:
預(yù)訓(xùn)練階段:DataFlow-30B 在 6 個通用基準(zhǔn)上的均分為 35.69,優(yōu)于 FineWeb-Edu(35.57)和 Qurating(35.02)。
指令微調(diào) (SFT):使用 15K 高質(zhì)量合成樣本,模型在數(shù)學(xué)上的得分(49.3)顯著高于經(jīng)過過濾的 Alpaca(39.8)和 WizardLM(44.8)。
![]()
對話合成:DataFlow-Chat-15K 將 AlpacaEval 評分從 7.05 提升至 10.11,超越 ShareGPT 和 UltraChat。
![]()
數(shù)學(xué)與代碼推理
在邏輯密集型任務(wù)中,DataFlow 的算子閉環(huán)展現(xiàn)了強(qiáng)大的邏輯構(gòu)建能力:
數(shù)學(xué)推理:使用 DataFlow-Reasoning-10K 微調(diào)后,Qwen2.5-32B 在 8 個數(shù)學(xué)基準(zhǔn)上平均得分為 55.7,超越了 Open-R1(54.2)和 Synthetic-1(54.0)。
![]()
代碼生成:
7B 模型:DataFlow-Code-10K 平均得分 46.2,優(yōu)于 Code Alpaca-1K 和 SC2-Exec-Filter-1K。
14B 模型:DataFlow-Code-10K 平均得分 51.0,LiveCodeBench 從 21.9(Code Alpaca)提升至 33.2。
![]()
Text-to-SQL
在 Text-to-SQL 任務(wù)中,DataFlow 驗證了高語義密度合成數(shù)據(jù)在特定工程場景下的極致上限。以 Qwen2.5-Coder-7B 為基座,通過在 DataFlow-Text2SQL-90K 數(shù)據(jù)集訓(xùn)練,模型在核心基準(zhǔn)上均實現(xiàn)了跨越式增長:
核心性能躍升:Spider-dev 執(zhí)行準(zhǔn)確率從 73.4% 提升至 82.0%(+8.6%);BIRD-dev 從 50.9% 提升至 59.2%(+8.3%),在 EHRSQL 基準(zhǔn)上,準(zhǔn)確率由 24.3% 飆升至 56.1%,漲幅高達(dá) 31.8%。
數(shù)據(jù)經(jīng)濟(jì)性驗證:實驗結(jié)果顯示,DataFlow-50K 的表現(xiàn)已優(yōu)于同規(guī)模的 SynSQL;而 DataFlow-90K 的微調(diào)收益已逼近 SynSQL-2.5M。
![]()
Agentic RAG
在分布外(OOD)評估中,DataFlow 產(chǎn)出的 DF-AgenticRAG-10k 具備更強(qiáng)的魯棒性:
超過 HotpotQA-10k(37.4 vs. 36.4)
超過 Musique-20k(43.6 vs. 42.4)
![]()
知識抽取(醫(yī)學(xué) QA)
模型在 DataFlow-Knowledge 上 sft 后,PubMedQA 和 Covert 性能提升了 15–20 個百分點,PubHealth 提升 11 個百分點,顯著優(yōu)于傳統(tǒng)的 Zero-shot CoT 方案。
![]()
統(tǒng)一多領(lǐng)域微調(diào)
我們驗證了“小規(guī)模、高質(zhì)量、領(lǐng)域特化”數(shù)據(jù)的核心假設(shè):
使用僅 10K 的多領(lǐng)域合成樣本(DataFlow-Instruct-10K),模型在數(shù)學(xué)和代碼領(lǐng)域的表現(xiàn)已接近官方 Instruct 版本,且通用知識能力(MMLU)未出現(xiàn)退化,證明了高質(zhì)量合成數(shù)據(jù)對大規(guī)模指令數(shù)據(jù)的替代潛力。
![]()
![]()
Agent 自動化性能實測
在文本規(guī)范對齊(Pipeline-level)評估中獲得 0.80 的高分。
在代碼實現(xiàn)一致性(code-level)評估中,平均得分 0.49。
在復(fù)雜代碼實現(xiàn)(Hard 級任務(wù))上,一致性得分僅為 0.23,這揭示了自動化治理在處理極端模糊描述時仍有技術(shù)迭代空間。
![]()
5 結(jié)語:邁向 Data-Centric AI 的開源生態(tài)
AI 研發(fā)的職能正在發(fā)生轉(zhuǎn)型:開發(fā)者的核心工作將從“代碼邏輯實現(xiàn)”轉(zhuǎn)向“數(shù)據(jù)價值發(fā)現(xiàn)”與“質(zhì)量紅線把控”。DataFlow 團(tuán)隊希望通過這套開源框架,將 DCAI 的工程經(jīng)驗沉淀為可復(fù)用的算子與流水線協(xié)議。
目前,DataFlow 及其自動化 Agent 框架已在 GitHub 開源。我們歡迎社區(qū)開發(fā)者參與貢獻(xiàn),共同探索數(shù)據(jù)驅(qū)動的無限可能。
關(guān)于作者
北京大學(xué) DCAI 團(tuán)隊,專注于大模型數(shù)據(jù)系統(tǒng)研究與 Data-Centric AI 基礎(chǔ)設(shè)施建設(shè)。
開源項目地址:
DataFlow (3k+ Stars): https://github.com/OpenDCAI/DataFlow
技術(shù)報告: https://arxiv.org/abs/2512.16676
DataFlow 圖文教程:https://wcny4qa9krto.feishu.cn/wiki/I9tbw2qnBi0lEakmmAGclTysnFd
DataFlow 視頻教程:https://b23.tv/it5sssq
DataFlow-WebUI 用戶文檔(中文):https://wcny4qa9krto.feishu.cn/wiki/F4PDw76uDiOG42k76gGc6FaBnod
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.