工業(yè)級 LLM 數(shù)據(jù)工程：北京大學(xué) DCAI 團(tuán)隊 DataFlow 框架的架構(gòu)設(shè)計與實踐

2026-03-17 07:24:50　來源: InfoQ

北京舉報

分享至

作者 | 北京大學(xué) DCAI 團(tuán)隊

在大模型（LLM）研發(fā)進(jìn)入深水區(qū)的 2026 年，行業(yè)共識正經(jīng)歷從“模型中心（Model-Centric）”向“數(shù)據(jù)中心（Data-Centric）”的深刻演進(jìn)。隨著 Scaling Law 進(jìn)入平臺期，開發(fā)者發(fā)現(xiàn)：單純堆砌 Token 數(shù)量已邊際效應(yīng)遞減，數(shù)據(jù)的語義密度（Semantic Density）與工程精度成為了突破模型性能上限的關(guān)鍵。

然而，在研發(fā) DataFlow 的過程中，北京大學(xué) DCAI 團(tuán)隊觀察到一個嚴(yán)峻的現(xiàn)實：雖然模型已進(jìn)入自動駕駛時代，但數(shù)據(jù)準(zhǔn)備（Data Prep）仍處于“手工坊”階段。碎片化的 Python 腳本、不可復(fù)用的正則表達(dá)式、缺乏觀測性的黑盒流程，已成為大模型落地企業(yè)級應(yīng)用的最大瓶頸。

正是基于對這一工程痛點的精準(zhǔn)切入，DataFlow 的技術(shù)報告在發(fā)布后迅速引發(fā)了全球開發(fā)者的廣泛共鳴，并成功登頂 Hugging Face Daily Papers 榜首（of the Day）。這一來自開源社區(qū)的強(qiáng)烈反饋印證了一個事實：大模型行業(yè)急需一套具備系統(tǒng)化抽象與工業(yè)級可靠性的數(shù)據(jù)治理基礎(chǔ)設(shè)施。

項目倉庫：https://github.com/OpenDCAI/DataFlow

1 企業(yè)級 LLM 數(shù)據(jù)工程的三大技術(shù)挑戰(zhàn)

在討論工具能力之前，我們需要明確大模型數(shù)據(jù)工程與傳統(tǒng) ETL 的本質(zhì)區(qū)別：

語義斷層與模型在環(huán)（Model-in-the-Loop）：傳統(tǒng)清洗依賴確定性規(guī)則，但 LLM 需要處理的是高維語義信息。要生成高質(zhì)量的數(shù)學(xué)推理或復(fù)雜代碼數(shù)據(jù)，必須引入模型來評估、過濾甚至生成數(shù)據(jù)，這要求系統(tǒng)具備極強(qiáng)的模型調(diào)用編排能力。
工程碎片化導(dǎo)致的“技術(shù)債”：數(shù)據(jù)處理鏈路長、環(huán)節(jié)多，缺乏統(tǒng)一的抽象。不同項目間的算子難以復(fù)用，導(dǎo)致邏輯散落在各個獨立腳本中，極大地提高了復(fù)現(xiàn)成本和維護(hù)難度。
黑盒處理與觀測性缺失：動輒 TB 級的文本在流水線中流轉(zhuǎn)，開發(fā)者往往無法實時感知數(shù)據(jù)分布的變化。如果清洗邏輯存在隱性偏見，往往要等到模型訓(xùn)練數(shù)周后才能被發(fā)現(xiàn)，試錯成本極高。

2 DataFlow 架構(gòu)：像編寫 PyTorch 模型一樣定義數(shù)據(jù)流

DataFlow 的設(shè)計哲學(xué)是“系統(tǒng)化抽象，編程化驅(qū)動”。它不僅僅是一個庫，而是一套類似于 PyTorch 的數(shù)據(jù)編程協(xié)議。

可觀測性革命：DataFlow-WebUI

針對“黑盒清洗”的痛點，我們正式推出了DataFlow-WebUI。它將復(fù)雜的算子庫包裝進(jìn)圖形化界面，支持：

拖拉拽編排：通過可視化畫布定義數(shù)據(jù)流向，邏輯鏈路一目了然。
實時數(shù)據(jù)探針：支持在線預(yù)覽算子輸出的中間結(jié)果，開發(fā)者可以即時調(diào)整 Prompt 或過濾策略，實現(xiàn)數(shù)據(jù)治理的“白盒化”。
任務(wù)熱監(jiān)控：實時更新處理進(jìn)度與運行日志，讓長周期任務(wù)處于完全可控狀態(tài)。

存儲與服務(wù)層的解耦設(shè)計

DataFlow 引入了全局表格化存儲（Global Storage）抽象。通過統(tǒng)一的 read() 和 write() 接口，將算子邏輯與底層存儲格式解耦，每個算子基于統(tǒng)一 run(storage) 接口，通過鍵綁定（key-based I/O）靈活適配任意數(shù)據(jù)格式。無論后端是本地 JSONL、Parquet 還是分布式數(shù)據(jù)庫，算子只需關(guān)注字段操作。

同時，DataFlow 構(gòu)建了統(tǒng)一 LLM 服務(wù)接口（Serving Interface），兼容 vLLM、SGLang 等本地推理引擎及 GPT-4 等在線 API。系統(tǒng)自動處理批處理（Batching）、重試及限速邏輯，使開發(fā)者能專注于 Prompt 策略而非后端工程細(xì)節(jié)。

模塊化算子生態(tài)

DataFlow 將近 200 個內(nèi)置算子嚴(yán)格劃分為四類，建立了標(biāo)準(zhǔn)化的語義命名規(guī)范：

算子被設(shè)計為具備獨立生命周期的原子轉(zhuǎn)換單元。在初始化階段，算子通過聲明式配置完成 LLM 服務(wù)實例與提示模板的依賴注入；在執(zhí)行階段，則通過 input_* / output_ 鍵名與全局存儲層進(jìn)行非侵入式交互。這種設(shè)計實現(xiàn)了計算邏輯與數(shù)據(jù) Schema 的深度解耦，在確保狀態(tài)隔離的同時，大幅提升了復(fù)雜 Pipeline 的組合靈活性與復(fù)用性。

確定性流水線與靜態(tài)檢查

DataFlow 支持將算子組織為有序程序或 DAG。通過 compile() 機(jī)制，系統(tǒng)在任務(wù)運行前會對字段缺失、類型沖突進(jìn)行靜態(tài)檢查和。配合延遲執(zhí)行（Lazy Execution）和斷點續(xù)傳（Checkpoints），極大地提升了大規(guī)模分布式任務(wù)的可靠性。

3 DataFlow-Agent：從自然語言到可執(zhí)行流水線的自動編排

為了解決“專家經(jīng)驗碎片化”的問題，DataFlow 引入了Agentic 編排機(jī)制。用戶只需輸入自然語言指令（如“幫我生成高質(zhì)量 Python 算法題數(shù)據(jù)”），Agent 即可完成：拆解意圖 → 檢索 / 合成算子 → 組裝 DAG → 沙箱驗證 → 輸出可執(zhí)行 pipeline。

這標(biāo)志著 agent 首次通過“檢索 - 復(fù)用 - 合成 - 驗證”閉環(huán)，遠(yuǎn)超傳統(tǒng)僅參數(shù)化配置的 agent，同時數(shù)據(jù)工程從“代碼編寫”向“邏輯定義”躍遷，顯著降低了構(gòu)建 SOTA 級領(lǐng)域流水線的門檻。

4 性能驗證：小規(guī)模高質(zhì)量數(shù)據(jù)的“杠桿效應(yīng)”

為了驗證 DataFlow 的系統(tǒng)化治理能力，我們在多個領(lǐng)域構(gòu)建了 SOTA 級流水線。實驗結(jié)果表明，通過精準(zhǔn)的算子編排，能夠以極小的數(shù)據(jù)規(guī)模實現(xiàn)模型性能的跨越式提升。

文本預(yù)訓(xùn)練與 SFT

在基礎(chǔ)文本治理上，DataFlow 證明了語義提純優(yōu)于單純的規(guī)模堆砌：

預(yù)訓(xùn)練階段：DataFlow-30B 在 6 個通用基準(zhǔn)上的均分為 35.69，優(yōu)于 FineWeb-Edu（35.57）和 Qurating（35.02）。
指令微調(diào) (SFT)：使用 15K 高質(zhì)量合成樣本，模型在數(shù)學(xué)上的得分（49.3）顯著高于經(jīng)過過濾的 Alpaca（39.8）和 WizardLM（44.8）。

對話合成：DataFlow-Chat-15K 將 AlpacaEval 評分從 7.05 提升至 10.11，超越 ShareGPT 和 UltraChat。

數(shù)學(xué)與代碼推理

在邏輯密集型任務(wù)中，DataFlow 的算子閉環(huán)展現(xiàn)了強(qiáng)大的邏輯構(gòu)建能力：

數(shù)學(xué)推理：使用 DataFlow-Reasoning-10K 微調(diào)后，Qwen2.5-32B 在 8 個數(shù)學(xué)基準(zhǔn)上平均得分為 55.7，超越了 Open-R1（54.2）和 Synthetic-1（54.0）。

代碼生成：
- 7B 模型：DataFlow-Code-10K 平均得分 46.2，優(yōu)于 Code Alpaca-1K 和 SC2-Exec-Filter-1K。
- 14B 模型：DataFlow-Code-10K 平均得分 51.0，LiveCodeBench 從 21.9（Code Alpaca）提升至 33.2。

Text-to-SQL

在 Text-to-SQL 任務(wù)中，DataFlow 驗證了高語義密度合成數(shù)據(jù)在特定工程場景下的極致上限。以 Qwen2.5-Coder-7B 為基座，通過在 DataFlow-Text2SQL-90K 數(shù)據(jù)集訓(xùn)練，模型在核心基準(zhǔn)上均實現(xiàn)了跨越式增長：

核心性能躍升：Spider-dev 執(zhí)行準(zhǔn)確率從 73.4% 提升至 82.0%（+8.6%）；BIRD-dev 從 50.9% 提升至 59.2%（+8.3%），在 EHRSQL 基準(zhǔn)上，準(zhǔn)確率由 24.3% 飆升至 56.1%，漲幅高達(dá) 31.8%。
數(shù)據(jù)經(jīng)濟(jì)性驗證：實驗結(jié)果顯示，DataFlow-50K 的表現(xiàn)已優(yōu)于同規(guī)模的 SynSQL；而 DataFlow-90K 的微調(diào)收益已逼近 SynSQL-2.5M。

Agentic RAG

在分布外（OOD）評估中，DataFlow 產(chǎn)出的 DF-AgenticRAG-10k 具備更強(qiáng)的魯棒性：

超過 HotpotQA-10k（37.4 vs. 36.4）
超過 Musique-20k（43.6 vs. 42.4）

知識抽取（醫(yī)學(xué) QA）

模型在 DataFlow-Knowledge 上 sft 后，PubMedQA 和 Covert 性能提升了 15–20 個百分點，PubHealth 提升 11 個百分點，顯著優(yōu)于傳統(tǒng)的 Zero-shot CoT 方案。

統(tǒng)一多領(lǐng)域微調(diào)

我們驗證了“小規(guī)模、高質(zhì)量、領(lǐng)域特化”數(shù)據(jù)的核心假設(shè)：

使用僅 10K 的多領(lǐng)域合成樣本（DataFlow-Instruct-10K），模型在數(shù)學(xué)和代碼領(lǐng)域的表現(xiàn)已接近官方 Instruct 版本，且通用知識能力（MMLU）未出現(xiàn)退化，證明了高質(zhì)量合成數(shù)據(jù)對大規(guī)模指令數(shù)據(jù)的替代潛力。

Agent 自動化性能實測

在文本規(guī)范對齊（Pipeline-level）評估中獲得 0.80 的高分。
在代碼實現(xiàn)一致性（code-level）評估中，平均得分 0.49。
在復(fù)雜代碼實現(xiàn)（Hard 級任務(wù)）上，一致性得分僅為 0.23，這揭示了自動化治理在處理極端模糊描述時仍有技術(shù)迭代空間。

5 結(jié)語：邁向 Data-Centric AI 的開源生態(tài)

AI 研發(fā)的職能正在發(fā)生轉(zhuǎn)型：開發(fā)者的核心工作將從“代碼邏輯實現(xiàn)”轉(zhuǎn)向“數(shù)據(jù)價值發(fā)現(xiàn)”與“質(zhì)量紅線把控”。DataFlow 團(tuán)隊希望通過這套開源框架，將 DCAI 的工程經(jīng)驗沉淀為可復(fù)用的算子與流水線協(xié)議。

目前，DataFlow 及其自動化 Agent 框架已在 GitHub 開源。我們歡迎社區(qū)開發(fā)者參與貢獻(xiàn)，共同探索數(shù)據(jù)驅(qū)動的無限可能。

關(guān)于作者

北京大學(xué) DCAI 團(tuán)隊，專注于大模型數(shù)據(jù)系統(tǒng)研究與 Data-Centric AI 基礎(chǔ)設(shè)施建設(shè)。

開源項目地址：

DataFlow (3k+ Stars): https://github.com/OpenDCAI/DataFlow
技術(shù)報告: https://arxiv.org/abs/2512.16676
DataFlow 圖文教程：https://wcny4qa9krto.feishu.cn/wiki/I9tbw2qnBi0lEakmmAGclTysnFd
DataFlow 視頻教程：https://b23.tv/it5sssq
DataFlow-WebUI 用戶文檔（中文）：https://wcny4qa9krto.feishu.cn/wiki/F4PDw76uDiOG42k76gGc6FaBnod

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.