337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

工業(yè)級 LLM 數(shù)據(jù)工程:北京大學(xué) DCAI 團(tuán)隊 DataFlow 框架的架構(gòu)設(shè)計與實踐

0
分享至


作者 | 北京大學(xué) DCAI 團(tuán)隊


在大模型(LLM)研發(fā)進(jìn)入深水區(qū)的 2026 年,行業(yè)共識正經(jīng)歷從“模型中心(Model-Centric)”向“數(shù)據(jù)中心(Data-Centric)”的深刻演進(jìn)。隨著 Scaling Law 進(jìn)入平臺期,開發(fā)者發(fā)現(xiàn):單純堆砌 Token 數(shù)量已邊際效應(yīng)遞減,數(shù)據(jù)的語義密度(Semantic Density)與工程精度成為了突破模型性能上限的關(guān)鍵。

然而,在研發(fā) DataFlow 的過程中,北京大學(xué) DCAI 團(tuán)隊觀察到一個嚴(yán)峻的現(xiàn)實:雖然模型已進(jìn)入自動駕駛時代,但數(shù)據(jù)準(zhǔn)備(Data Prep)仍處于“手工坊”階段。碎片化的 Python 腳本、不可復(fù)用的正則表達(dá)式、缺乏觀測性的黑盒流程,已成為大模型落地企業(yè)級應(yīng)用的最大瓶頸。

正是基于對這一工程痛點的精準(zhǔn)切入,DataFlow 的技術(shù)報告在發(fā)布后迅速引發(fā)了全球開發(fā)者的廣泛共鳴,并成功登頂 Hugging Face Daily Papers 榜首(of the Day)。這一來自開源社區(qū)的強(qiáng)烈反饋印證了一個事實:大模型行業(yè)急需一套具備系統(tǒng)化抽象與工業(yè)級可靠性的數(shù)據(jù)治理基礎(chǔ)設(shè)施。


項目倉庫:https://github.com/OpenDCAI/DataFlow

1 企業(yè)級 LLM 數(shù)據(jù)工程的三大技術(shù)挑戰(zhàn)

在討論工具能力之前,我們需要明確大模型數(shù)據(jù)工程與傳統(tǒng) ETL 的本質(zhì)區(qū)別:

  • 語義斷層與模型在環(huán)(Model-in-the-Loop): 傳統(tǒng)清洗依賴確定性規(guī)則,但 LLM 需要處理的是高維語義信息。要生成高質(zhì)量的數(shù)學(xué)推理或復(fù)雜代碼數(shù)據(jù),必須引入模型來評估、過濾甚至生成數(shù)據(jù),這要求系統(tǒng)具備極強(qiáng)的模型調(diào)用編排能力。

  • 工程碎片化導(dǎo)致的“技術(shù)債”: 數(shù)據(jù)處理鏈路長、環(huán)節(jié)多,缺乏統(tǒng)一的抽象。不同項目間的算子難以復(fù)用,導(dǎo)致邏輯散落在各個獨立腳本中,極大地提高了復(fù)現(xiàn)成本和維護(hù)難度。

  • 黑盒處理與觀測性缺失: 動輒 TB 級的文本在流水線中流轉(zhuǎn),開發(fā)者往往無法實時感知數(shù)據(jù)分布的變化。如果清洗邏輯存在隱性偏見,往往要等到模型訓(xùn)練數(shù)周后才能被發(fā)現(xiàn),試錯成本極高。

2 DataFlow 架構(gòu):像編寫 PyTorch 模型一樣定義數(shù)據(jù)流

DataFlow 的設(shè)計哲學(xué)是“系統(tǒng)化抽象,編程化驅(qū)動”。它不僅僅是一個庫,而是一套類似于 PyTorch 的數(shù)據(jù)編程協(xié)議。


可觀測性革命:DataFlow-WebUI


針對“黑盒清洗”的痛點,我們正式推出了DataFlow-WebUI。它將復(fù)雜的算子庫包裝進(jìn)圖形化界面,支持:

  • 拖拉拽編排:通過可視化畫布定義數(shù)據(jù)流向,邏輯鏈路一目了然。

  • 實時數(shù)據(jù)探針:支持在線預(yù)覽算子輸出的中間結(jié)果,開發(fā)者可以即時調(diào)整 Prompt 或過濾策略,實現(xiàn)數(shù)據(jù)治理的“白盒化”。

  • 任務(wù)熱監(jiān)控:實時更新處理進(jìn)度與運行日志,讓長周期任務(wù)處于完全可控狀態(tài)。

存儲與服務(wù)層的解耦設(shè)計

DataFlow 引入了全局表格化存儲(Global Storage)抽象。通過統(tǒng)一的 read() 和 write() 接口,將算子邏輯與底層存儲格式解耦,每個算子基于統(tǒng)一 run(storage) 接口,通過 鍵綁定(key-based I/O)靈活適配任意數(shù)據(jù)格式。無論后端是本地 JSONL、Parquet 還是分布式數(shù)據(jù)庫,算子只需關(guān)注字段操作。


同時,DataFlow 構(gòu)建了統(tǒng)一 LLM 服務(wù)接口(Serving Interface),兼容 vLLM、SGLang 等本地推理引擎及 GPT-4 等在線 API。系統(tǒng)自動處理批處理(Batching)、重試及限速邏輯,使開發(fā)者能專注于 Prompt 策略而非后端工程細(xì)節(jié)。

模塊化算子生態(tài)

DataFlow 將近 200 個內(nèi)置算子嚴(yán)格劃分為四類,建立了標(biāo)準(zhǔn)化的語義命名規(guī)范:


算子被設(shè)計為具備獨立生命周期的原子轉(zhuǎn)換單元。 在初始化階段,算子通過聲明式配置完成 LLM 服務(wù)實例與提示模板的依賴注入;在執(zhí)行階段,則通過 input_* / output_ 鍵名與全局存儲層進(jìn)行非侵入式交互。這種設(shè)計實現(xiàn)了計算邏輯與數(shù)據(jù) Schema 的深度解耦,在確保狀態(tài)隔離的同時,大幅提升了復(fù)雜 Pipeline 的組合靈活性與復(fù)用性。


確定性流水線與靜態(tài)檢查

DataFlow 支持將算子組織為有序程序或 DAG。通過 compile() 機(jī)制,系統(tǒng)在任務(wù)運行前會對字段缺失、類型沖突進(jìn)行靜態(tài)檢查和。配合延遲執(zhí)行(Lazy Execution)和斷點續(xù)傳(Checkpoints),極大地提升了大規(guī)模分布式任務(wù)的可靠性。


3 DataFlow-Agent:從自然語言到可執(zhí)行流水線的自動編排

為了解決“專家經(jīng)驗碎片化”的問題,DataFlow 引入了Agentic 編排機(jī)制。用戶只需輸入自然語言指令(如“幫我生成高質(zhì)量 Python 算法題數(shù)據(jù)”),Agent 即可完成:拆解意圖 → 檢索 / 合成算子 → 組裝 DAG → 沙箱驗證 → 輸出可執(zhí)行 pipeline。

這標(biāo)志著 agent 首次通過“檢索 - 復(fù)用 - 合成 - 驗證”閉環(huán),遠(yuǎn)超傳統(tǒng)僅參數(shù)化配置的 agent,同時數(shù)據(jù)工程從“代碼編寫”向“邏輯定義”躍遷,顯著降低了構(gòu)建 SOTA 級領(lǐng)域流水線的門檻。


4 性能驗證:小規(guī)模高質(zhì)量數(shù)據(jù)的“杠桿效應(yīng)”

為了驗證 DataFlow 的系統(tǒng)化治理能力,我們在多個領(lǐng)域構(gòu)建了 SOTA 級流水線。實驗結(jié)果表明,通過精準(zhǔn)的算子編排,能夠以極小的數(shù)據(jù)規(guī)模實現(xiàn)模型性能的跨越式提升。

文本預(yù)訓(xùn)練與 SFT

在基礎(chǔ)文本治理上,DataFlow 證明了語義提純優(yōu)于單純的規(guī)模堆砌:

  • 預(yù)訓(xùn)練階段:DataFlow-30B 在 6 個通用基準(zhǔn)上的均分為 35.69,優(yōu)于 FineWeb-Edu(35.57)和 Qurating(35.02)。

  • 指令微調(diào) (SFT):使用 15K 高質(zhì)量合成樣本,模型在數(shù)學(xué)上的得分(49.3)顯著高于經(jīng)過過濾的 Alpaca(39.8)和 WizardLM(44.8)。


  • 對話合成:DataFlow-Chat-15K 將 AlpacaEval 評分從 7.05 提升至 10.11,超越 ShareGPT 和 UltraChat。


數(shù)學(xué)與代碼推理

在邏輯密集型任務(wù)中,DataFlow 的算子閉環(huán)展現(xiàn)了強(qiáng)大的邏輯構(gòu)建能力:

  • 數(shù)學(xué)推理:使用 DataFlow-Reasoning-10K 微調(diào)后,Qwen2.5-32B 在 8 個數(shù)學(xué)基準(zhǔn)上平均得分為 55.7,超越了 Open-R1(54.2)和 Synthetic-1(54.0)。


  • 代碼生成:

    • 7B 模型:DataFlow-Code-10K 平均得分 46.2,優(yōu)于 Code Alpaca-1K 和 SC2-Exec-Filter-1K。

    • 14B 模型:DataFlow-Code-10K 平均得分 51.0,LiveCodeBench 從 21.9(Code Alpaca)提升至 33.2。


Text-to-SQL

在 Text-to-SQL 任務(wù)中,DataFlow 驗證了高語義密度合成數(shù)據(jù)在特定工程場景下的極致上限。以 Qwen2.5-Coder-7B 為基座,通過在 DataFlow-Text2SQL-90K 數(shù)據(jù)集訓(xùn)練,模型在核心基準(zhǔn)上均實現(xiàn)了跨越式增長:

  • 核心性能躍升:Spider-dev 執(zhí)行準(zhǔn)確率從 73.4% 提升至 82.0%(+8.6%);BIRD-dev 從 50.9% 提升至 59.2%(+8.3%),在 EHRSQL 基準(zhǔn)上,準(zhǔn)確率由 24.3% 飆升至 56.1%,漲幅高達(dá) 31.8%。

  • 數(shù)據(jù)經(jīng)濟(jì)性驗證:實驗結(jié)果顯示,DataFlow-50K 的表現(xiàn)已優(yōu)于同規(guī)模的 SynSQL;而 DataFlow-90K 的微調(diào)收益已逼近 SynSQL-2.5M。


Agentic RAG

在分布外(OOD)評估中,DataFlow 產(chǎn)出的 DF-AgenticRAG-10k 具備更強(qiáng)的魯棒性:

  • 超過 HotpotQA-10k(37.4 vs. 36.4)

  • 超過 Musique-20k(43.6 vs. 42.4)


知識抽取(醫(yī)學(xué) QA)

  • 模型在 DataFlow-Knowledge 上 sft 后,PubMedQA 和 Covert 性能提升了 15–20 個百分點,PubHealth 提升 11 個百分點,顯著優(yōu)于傳統(tǒng)的 Zero-shot CoT 方案。


統(tǒng)一多領(lǐng)域微調(diào)

我們驗證了“小規(guī)模、高質(zhì)量、領(lǐng)域特化”數(shù)據(jù)的核心假設(shè):

  • 使用僅 10K 的多領(lǐng)域合成樣本(DataFlow-Instruct-10K),模型在數(shù)學(xué)和代碼領(lǐng)域的表現(xiàn)已接近官方 Instruct 版本,且通用知識能力(MMLU)未出現(xiàn)退化,證明了高質(zhì)量合成數(shù)據(jù)對大規(guī)模指令數(shù)據(jù)的替代潛力。



Agent 自動化性能實測

  • 在文本規(guī)范對齊(Pipeline-level)評估中獲得 0.80 的高分。

  • 在代碼實現(xiàn)一致性(code-level)評估中,平均得分 0.49。

  • 在復(fù)雜代碼實現(xiàn)(Hard 級任務(wù))上,一致性得分僅為 0.23,這揭示了自動化治理在處理極端模糊描述時仍有技術(shù)迭代空間。


5 結(jié)語:邁向 Data-Centric AI 的開源生態(tài)

AI 研發(fā)的職能正在發(fā)生轉(zhuǎn)型:開發(fā)者的核心工作將從“代碼邏輯實現(xiàn)”轉(zhuǎn)向“數(shù)據(jù)價值發(fā)現(xiàn)”與“質(zhì)量紅線把控”。DataFlow 團(tuán)隊希望通過這套開源框架,將 DCAI 的工程經(jīng)驗沉淀為可復(fù)用的算子與流水線協(xié)議。

目前,DataFlow 及其自動化 Agent 框架已在 GitHub 開源。我們歡迎社區(qū)開發(fā)者參與貢獻(xiàn),共同探索數(shù)據(jù)驅(qū)動的無限可能。

關(guān)于作者

北京大學(xué) DCAI 團(tuán)隊,專注于大模型數(shù)據(jù)系統(tǒng)研究與 Data-Centric AI 基礎(chǔ)設(shè)施建設(shè)。

開源項目地址:

  • DataFlow (3k+ Stars): https://github.com/OpenDCAI/DataFlow

  • 技術(shù)報告: https://arxiv.org/abs/2512.16676

  • DataFlow 圖文教程:https://wcny4qa9krto.feishu.cn/wiki/I9tbw2qnBi0lEakmmAGclTysnFd

  • DataFlow 視頻教程:https://b23.tv/it5sssq

  • DataFlow-WebUI 用戶文檔(中文):https://wcny4qa9krto.feishu.cn/wiki/F4PDw76uDiOG42k76gGc6FaBnod

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
研究發(fā)現(xiàn)自慰或性行為有助于改善睡眠

研究發(fā)現(xiàn)自慰或性行為有助于改善睡眠

映射生活的身影
2026-03-27 19:44:25
高三學(xué)生因不堪鳥鳴寫信請求拆除鳥巢,校長婉拒稱“世界不會為某個人因某事而暫停”,學(xué)生回應(yīng):對生命與自然有了新的思考

高三學(xué)生因不堪鳥鳴寫信請求拆除鳥巢,校長婉拒稱“世界不會為某個人因某事而暫停”,學(xué)生回應(yīng):對生命與自然有了新的思考

大風(fēng)新聞
2026-03-28 20:14:32
62歲老人查出陰莖癌!他的壞習(xí)慣為所有人敲響警鐘!值得借鑒

62歲老人查出陰莖癌!他的壞習(xí)慣為所有人敲響警鐘!值得借鑒

路醫(yī)生健康科普
2026-03-27 17:42:19
韓國軍事專家:這個世界上沒有任何一個國家敢動中國

韓國軍事專家:這個世界上沒有任何一個國家敢動中國

南權(quán)先生
2026-03-12 16:14:24
跟低學(xué)歷妹子談戀愛是啥體驗?網(wǎng)友:低社會化人群被女版黃毛拿下

跟低學(xué)歷妹子談戀愛是啥體驗?網(wǎng)友:低社會化人群被女版黃毛拿下

帶你感受人間冷暖
2026-03-28 16:48:21
一段夫妻離婚對話刷屏!丈夫坦誠變心、凈身出戶,妻子竟平靜應(yīng)允

一段夫妻離婚對話刷屏!丈夫坦誠變心、凈身出戶,妻子竟平靜應(yīng)允

火山詩話
2026-03-28 15:09:53
美國為什么突然打伊朗?一篇文講清楚

美國為什么突然打伊朗?一篇文講清楚

李月亮
2026-03-02 20:46:25
遺傳病能有多恐怖?網(wǎng)友:癌癥遺傳那個堪稱地獄級了

遺傳病能有多恐怖?網(wǎng)友:癌癥遺傳那個堪稱地獄級了

帶你感受人間冷暖
2026-03-28 16:23:17
中國小電驢海外殺瘋了,油價暴漲,東南亞一車難求,日本摩托看懵

中國小電驢海外殺瘋了,油價暴漲,東南亞一車難求,日本摩托看懵

有范又有料
2026-03-27 16:54:24
伊朗短信動員全國人準(zhǔn)備“犧牲”

伊朗短信動員全國人準(zhǔn)備“犧牲”

桂系007
2026-03-30 03:16:29
西媒曝皇馬新帥確認(rèn),克洛普達(dá)成協(xié)議夏窗執(zhí)教,阿韋洛亞將被解雇

西媒曝皇馬新帥確認(rèn),克洛普達(dá)成協(xié)議夏窗執(zhí)教,阿韋洛亞將被解雇

夏侯看英超
2026-03-29 21:15:54
俄軍士兵遇到烏克蘭當(dāng)?shù)貎传F!還沒腳掌大卻兇猛無比,寸步不讓

俄軍士兵遇到烏克蘭當(dāng)?shù)貎传F!還沒腳掌大卻兇猛無比,寸步不讓

貍貓之一的動物圈
2026-03-29 10:05:12
張雪峰接班人定了!親口透露對張姩菡安排,但懸著的心依舊難放下

張雪峰接班人定了!親口透露對張姩菡安排,但懸著的心依舊難放下

章民解說體育
2026-03-30 17:55:52
亞足聯(lián)同意中國接手舉辦U17亞洲杯

亞足聯(lián)同意中國接手舉辦U17亞洲杯

蕭壛記錄風(fēng)土人情
2026-03-30 14:58:19
3月25日央視軍事突然放出一段“過于先進(jìn)”的畫面

3月25日央視軍事突然放出一段“過于先進(jìn)”的畫面

安安說
2026-03-29 13:12:09
鄭麗文強(qiáng)援已到!美方派團(tuán)竄臺施壓,孤立無援之際,大陸來撐腰了

鄭麗文強(qiáng)援已到!美方派團(tuán)竄臺施壓,孤立無援之際,大陸來撐腰了

觀察者海風(fēng)
2026-03-30 22:55:44
第二個惡魔醫(yī)生被抓,鄭大一附院王福建為94名患者植入不需要器械

第二個惡魔醫(yī)生被抓,鄭大一附院王福建為94名患者植入不需要器械

大魚簡科
2026-02-18 22:03:00
身價落后法國5億歐 三線全面脫節(jié)!現(xiàn)在的巴西真弱到這種地步了?

身價落后法國5億歐 三線全面脫節(jié)!現(xiàn)在的巴西真弱到這種地步了?

體壇八點半的那些事兒
2026-03-30 20:51:16
1只就判刑!2023年湖南男子在山上放20組彈簧套,捕獵到2只宰了吃

1只就判刑!2023年湖南男子在山上放20組彈簧套,捕獵到2只宰了吃

萬象硬核本尊
2026-03-30 20:03:07
首發(fā)美國市場 奧迪Q9最新消息曝光

首發(fā)美國市場 奧迪Q9最新消息曝光

樂選愛車
2026-03-30 08:00:03
2026-03-30 23:47:00
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
12225文章數(shù) 51824關(guān)注度
往期回顧 全部

科技要聞

一句謊言引發(fā)的硅谷血案

頭條要聞

媒體:鄭麗文受邀訪大陸核心原因 從當(dāng)前局勢看不難猜

頭條要聞

媒體:鄭麗文受邀訪大陸核心原因 從當(dāng)前局勢看不難猜

體育要聞

想進(jìn)世界杯,意大利還要過他這一關(guān)

娛樂要聞

全紅嬋聊到體重哭了,每天只吃一頓飯

財經(jīng)要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

限時12.58萬起 銀河星耀8遠(yuǎn)航家系列上市

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
手機(jī)
家居
健康

藝術(shù)要聞

600 年前的「產(chǎn)亡孤魂」,藏著中國女性最痛的記憶

房產(chǎn)要聞

重磅!番禺20宗涉宅地亮相,萬博CBD宅地將上新!

手機(jī)要聞

蘋果京東旗艦店將于4月1日開啟“Apple 50周年慶”直播活動

家居要聞

東方法式美學(xué) 現(xiàn)代簡約

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

無障礙瀏覽 進(jìn)入關(guān)懷版