網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

別問(wèn)樹(shù)模型了!死磕結(jié)構(gòu)化數(shù)據(jù),清華團(tuán)隊(duì)把大模型表格理解推到極限

2025-11-21 12:05:36　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心原創(chuàng)

作者：張倩、Panda

科幻作家劉慈欣在小說(shuō)《超新星紀(jì)元》中描述了一個(gè)令人難忘的場(chǎng)景——幾個(gè)十幾歲的孩子被帶到一個(gè)小山環(huán)繞的地方，他們的面前是一條單軌鐵路，上面停著十一列載貨火車(chē)，每列車(chē)有二十節(jié)車(chē)皮。這些車(chē)首尾相接成一個(gè)巨大的弧形，根本看不到盡頭。這些車(chē)中，其中一列裝的是味精，另外十列裝的是鹽。

「這么多的味精和鹽夠我們國(guó)家所有的公民吃多長(zhǎng)時(shí)間？」帶孩子們來(lái)的大人向他們提問(wèn)。「一年？」「五年？」「十年？」沒(méi)有一個(gè)孩子答對(duì)。最后的答案讓他們目瞪口呆：「只夠一天」。

這個(gè)場(chǎng)景之所以令人難忘，是因?yàn)樗砸环N非常具象的方式向我們展示了這個(gè)世界的運(yùn)轉(zhuǎn)多么難以被普通人準(zhǔn)確感知。它的背后是海量的精確數(shù)字：負(fù)責(zé)供應(yīng)鹽和味精的部門(mén)需要算出每個(gè)周期要生產(chǎn)多少才能滿足需求；負(fù)責(zé)生產(chǎn)的工廠要監(jiān)控機(jī)器運(yùn)轉(zhuǎn)情況，從一堆精確卻晦澀難懂的數(shù)字、代碼中讀出問(wèn)題；而給機(jī)器供電的電力系統(tǒng)也要監(jiān)測(cè)和變壓器相關(guān)的一切數(shù)據(jù)，避免非計(jì)劃停機(jī)帶來(lái)高昂的搶修成本和難以估量的用戶損失。

這個(gè)世界，就是以這樣一種精確的方式運(yùn)轉(zhuǎn)著。那些數(shù)字就像我們每天呼吸的空氣，你可能感覺(jué)不到它們的存在，但一旦它們出了問(wèn)題，你的感知將會(huì)非常強(qiáng)烈。

也正因如此，這些數(shù)據(jù)的處理至關(guān)重要。由于這些數(shù)據(jù)往往以固定的行列格式組織，數(shù)據(jù)之間的結(jié)構(gòu)關(guān)系是預(yù)先定義好的，因此也被稱為「結(jié)構(gòu)化數(shù)據(jù)」。可以說(shuō)，我們?cè)诠I(yè)化社會(huì)體驗(yàn)到的幾乎所有便利，背后都依賴著這些結(jié)構(gòu)化數(shù)據(jù)的理解、處理與預(yù)測(cè)。

然而，在 AI 席卷一切的今天，處理這些最基礎(chǔ)的數(shù)據(jù)，卻成了最大的痛點(diǎn)。

我們寄希望于看似無(wú)所不能的 LLM 大模型。但現(xiàn)實(shí)很骨感：LLM 擅長(zhǎng)寫(xiě)詩(shī)與編程，但卻很難讀懂一張簡(jiǎn)單的電子表格，因?yàn)?LLM 的建模方式（涉及到文本的模糊性）與結(jié)構(gòu)化數(shù)據(jù)所要求的精確性存在巨大 gap，一直達(dá)不到生產(chǎn)要求。

這一現(xiàn)狀也導(dǎo)致，整個(gè)行業(yè)都還在用已經(jīng)存在了十幾年的專(zhuān)用模型，每遇到一個(gè)新的數(shù)據(jù)集或者一個(gè)新任務(wù)可能就要重新訓(xùn)練一個(gè)。這就好比為了喝一杯新口味的咖啡，你必須重新造一臺(tái)咖啡機(jī)。這種低效的生產(chǎn)方式與始終追求高效率、強(qiáng)泛化能力的 LLM 領(lǐng)域形成了鮮明對(duì)比，也成了阻礙產(chǎn)業(yè)發(fā)展的一大瓶頸。

這也是為什么，前段時(shí)間清華大學(xué)與穩(wěn)準(zhǔn)智能聯(lián)合發(fā)布的LimiX 系列模型讓人眼前一亮。作為他們提出的「LDM（結(jié)構(gòu)化數(shù)據(jù)大模型）」的重要成員，LimiX 做到了 LLM 沒(méi)有做到的事情，把結(jié)構(gòu)化數(shù)據(jù)的處理帶入了大模型時(shí)代。這會(huì)改變整個(gè)工業(yè) AI 的游戲規(guī)則，成為 LLM、具身智能之外通往 AGI 的另一大關(guān)鍵路徑。

第一次，在結(jié)構(gòu)化數(shù)據(jù)上

做到了「通用」！

為什么說(shuō) LimiX 的出現(xiàn)有著劃時(shí)代的意義？

本質(zhì)是因?yàn)椋谝淮卧诮Y(jié)構(gòu)化數(shù)據(jù)領(lǐng)域把「通用」這件事做成了！

參加過(guò) Kaggle 的同學(xué)都知道，結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域有很多任務(wù)，比如分類(lèi)、回歸、缺失值填補(bǔ)、高維表征抽取、分布外泛化預(yù)測(cè)……比如根據(jù)年齡、艙位等級(jí)等乘客特征預(yù)測(cè)泰坦尼克號(hào)乘客是否幸存（分類(lèi)），基于鉆石的克拉重量、切工、顏色、凈度等屬性預(yù)測(cè)鉆石售價(jià)的連續(xù)值（回歸）等。當(dāng)然，現(xiàn)實(shí)世界的問(wèn)題遠(yuǎn)比這些復(fù)雜。

在過(guò)去的十幾年里，解決這些問(wèn)題主要依靠梯度提升樹(shù)模型（比如 2014 年發(fā)布的 XGBoost、2017 年發(fā)布的 CatBoost 等）或 AutoML 集成模型（比如亞馬遜在 2020 年提出的 AutoGluon）。就像我們前面所說(shuō)的，這些模型都是專(zhuān)有模型，每次遇到新任務(wù)或新數(shù)據(jù)集都要重新訓(xùn)練。這和早就實(shí)現(xiàn)一個(gè)模型通吃各種任務(wù)的NLP領(lǐng)域相比，簡(jiǎn)直落后了不止一個(gè)版本！

當(dāng)然，這些年，有不少研究者嘗試將深度學(xué)習(xí)甚至基礎(chǔ)模型思想引入結(jié)構(gòu)化處理領(lǐng)域，像德國(guó) Prior Labs 團(tuán)隊(duì)提出的 TabPFN、法國(guó) INRIA 團(tuán)隊(duì)提出的 TabICL、加拿大 Layer 6 AI 團(tuán)隊(duì)提出的 TabDPT 等都是這一方向的代表。但這些工作都有個(gè)特點(diǎn)：它們本質(zhì)上還是針對(duì)不同的任務(wù)分別去做專(zhuān)門(mén)的預(yù)訓(xùn)練，并沒(méi)有做到真正的通用，而且對(duì)于高質(zhì)量的缺失值填補(bǔ)等任務(wù)，很多方法還無(wú)法解決。

LimiX 模型（今年8月份發(fā)布的 LimiX-16M， LDM 系列的首款模型）是一個(gè)打破僵局的存在。它在性能上碾壓前述基礎(chǔ)模型，超越 XGBoost、CatBoost、AutoGluon 這樣的傳統(tǒng)專(zhuān)用模型更是不在話下

LimiX官網(wǎng)：https://www.limix.ai/
技術(shù)報(bào)告：https://arxiv.org/pdf/2509.03505
HuggingFace鏈接：https://huggingface.co/stableai-org

更重要的是，它第一次做到了真正的通用，也就是一個(gè)模型，在不進(jìn)行二次訓(xùn)練的情況下，就能用于分類(lèi)、回歸、缺失值填補(bǔ)、高維表征抽取、因果推斷等多達(dá) 10 類(lèi)任務(wù)。

簡(jiǎn)單來(lái)說(shuō)，LimiX 不再像傳統(tǒng)模型那樣死記硬背某個(gè)特定表格的規(guī)則，而是通過(guò)學(xué)習(xí)海量數(shù)據(jù)，能夠自主發(fā)現(xiàn)樣本之間和變量之間的關(guān)系并適應(yīng)不同類(lèi)型的任務(wù)。這使得 LimiX 擁有了類(lèi)似 GPT 的能力：一個(gè)模型，通吃所有任務(wù)。對(duì)于LLM領(lǐng)域的研究者來(lái)說(shuō)，這個(gè)劇情應(yīng)該很熟悉了，當(dāng)年語(yǔ)言模型的突破，就是從「橫掃xx項(xiàng)NLP記錄」開(kāi)始的。

同時(shí)，LimiX 在 benchmark 上的一路領(lǐng)先，也讓我們看到了一些優(yōu)秀 LLM 的來(lái)時(shí)路。

比如在一場(chǎng)分類(lèi)任務(wù)的對(duì)決中，LimiX-16M 在 58.6% 的數(shù)據(jù)集上都取得了最優(yōu)結(jié)果，斷崖式領(lǐng)先。如果再加上其輕量級(jí)版本 LimiX-2M 的成績(jī)，整個(gè) LimiX 家族的勝率甚至可以達(dá)到 68.9%。

類(lèi)似的情況也出現(xiàn)在回歸任務(wù)的 PK 中。同樣的，LimiX 的兩個(gè)模型包攬了前兩名，合在一起勝率能達(dá)到 62%。和其他模型相比，LimiX-16M 同樣是斷崖式領(lǐng)先。

此外，對(duì)于近期 Prior Labs 團(tuán)隊(duì)的挑戰(zhàn)者 TabPFN 2.5，LimiX 成功守擂。可以看到，在涉及分類(lèi)、回歸的六項(xiàng)評(píng)測(cè)中，LimiX-16M 依然保持著絕對(duì)優(yōu)勢(shì)。

LimiX 還是一個(gè)數(shù)據(jù)填補(bǔ)神器：在現(xiàn)實(shí)數(shù)據(jù)中，經(jīng)常會(huì)有「缺胳膊少腿」的空值。其它預(yù)測(cè)模型無(wú)法直接解決這個(gè)任務(wù)，而 LimiX 可以像填空一樣，精準(zhǔn)預(yù)測(cè)并補(bǔ)全這些缺失值，且無(wú)需額外訓(xùn)練。在所有缺失值插補(bǔ)算法中，LimiX 以絕對(duì)優(yōu)勢(shì)拿下了 SOTA。

不止是跑分王

現(xiàn)實(shí)也能打

有人可能說(shuō)，跑分好看的模型多了，現(xiàn)實(shí)中不還是沒(méi)一個(gè)能打的。

LimiX 還真不是這種情況。它具備驚人的穩(wěn)健性，使其足以落地實(shí)際工業(yè)場(chǎng)景。我們了解到，LimiX 已經(jīng)在一些實(shí)際工廠中化身「打工人」了。工廠的任務(wù)可不像 Kaggle 賽題那樣經(jīng)過(guò)簡(jiǎn)化處理，隨便拿出來(lái)一個(gè)都千頭萬(wàn)緒。

就拿最容易理解的食品生產(chǎn)為例。我們知道，很多食品在出廠之前要經(jīng)過(guò)烘干，如果哪個(gè)參數(shù)沒(méi)調(diào)好，我們買(mǎi)到手的食品就會(huì)出現(xiàn)提前變質(zhì)等問(wèn)題。以往，食品廠都是依賴事后檢測(cè)，也就是先烘干，再測(cè)含水量，不合格就返工或報(bào)廢。但如果能提前預(yù)測(cè)，成本不就打下來(lái)了？

這正是 LimiX 發(fā)揮作用的環(huán)節(jié)，它可以精準(zhǔn)建模氣流流速、燃燒器溫度、設(shè)備蒸汽比例等工藝參數(shù)與產(chǎn)品含水量的復(fù)雜關(guān)系，使得預(yù)測(cè)值與真實(shí)值平均偏差不到9%，而且模型能解釋92%的結(jié)果變化，可靠性極強(qiáng)。

類(lèi)似的案例還有很多，比如在電力現(xiàn)貨市場(chǎng)預(yù)測(cè)電價(jià)時(shí)，LimiX 可以將企業(yè)內(nèi)部最優(yōu)模型的誤差從 46.93% MAPE 大幅降低到 25.27% MAPE；而在變壓器運(yùn)行狀態(tài)診斷中，它能將運(yùn)行狀態(tài)診斷錯(cuò)誤率降低 93.5%（相較于傳統(tǒng)預(yù)測(cè)模型 XGBoost）。

所以，無(wú)論從跑分還是實(shí)際落地情況來(lái)看，LimiX 都是一個(gè)充滿變革意味的模型。而且，這個(gè)模型不僅企業(yè)能用，普通研究者也能上手，因?yàn)?strong>LimiX 團(tuán)隊(duì)最近開(kāi)源了一個(gè)輕量級(jí)版本——LimiX-2M。

LimiX-2M

極小模型定義結(jié)構(gòu)化數(shù)據(jù)理解極限

2M模型就能做結(jié)構(gòu)化數(shù)據(jù)處理？

是的，LimiX-2M 雖然體積小，但性能卻著實(shí)驚人：力壓 TabPFN-v2 和 TabICL，超越集成學(xué)習(xí)框架 AutoGluon，僅次于其大哥 LimiX-16M

更重要的是，它很小，你甚至能在智能戒指上運(yùn)行它

具體來(lái)說(shuō)，它能通過(guò)分析戒指?jìng)鞲衅魇占降慕Y(jié)構(gòu)化位置信息，識(shí)別出佩戴者的手勢(shì)。這種應(yīng)用具有非常巨大的想象空間。舉個(gè)例子，通過(guò)與智能家居系統(tǒng)連接，我們可以手勢(shì)控制家里的各式電器，比如像滅霸一樣打個(gè)響指，就能開(kāi)關(guān)家里的所有電燈。

當(dāng)然，在比邊緣設(shè)備性能更強(qiáng)的設(shè)備上，這個(gè)小模型的速度也會(huì)快得多。

舉個(gè)例子，如果是處理 958 條、60 維特征的 IMU 數(shù)據(jù)，在2 核 CPU、4G 內(nèi)存的低算力環(huán)境（差不多就是個(gè)樹(shù)莓派的配置）下，LimiX-2M 單樣本 375 毫秒, 總耗時(shí)為 359 秒。相較之下，TabPFN-2.5 的總耗時(shí)為 1830 秒，比 LimiX-2M 慢 5 倍。而如果你有一臺(tái) RTX 5090，則單樣本平均耗時(shí)僅 0.206 毫秒，總耗時(shí)也只有 197 毫秒，真的可以說(shuō)是眨眼之間就完成了！

LimiX-2M 不止性能與速度兼?zhèn)洌乙材茌p松地低成本微調(diào)——你只需家用顯卡就能有效微調(diào)它！推理快、門(mén)檻低的特點(diǎn)使 LimiX-2M 成為助力研究和應(yīng)用落地的不二之選：即使是只有一張 4090 顯卡的小型科研團(tuán)隊(duì)或創(chuàng)業(yè)公司，也可以在自己的場(chǎng)景中使用、微調(diào) LimiX-2M，從而開(kāi)展此前根本無(wú)法進(jìn)行的前沿AI實(shí)驗(yàn)。

在量子化學(xué)領(lǐng)域，如何去評(píng)估小有機(jī)分子的一組量子力學(xué)性質(zhì)（包括激發(fā)能、振子強(qiáng)度和躍遷概率等）對(duì)探索分子特性非常重要。但是目前，這些性質(zhì)只能通過(guò)高精度的量子化學(xué)方法（如 TDDFT 或 CC2）計(jì)算得出，量子力學(xué)性質(zhì)計(jì)算成本高昂且耗時(shí)。

通過(guò)使用 LimiX-2M 對(duì)各類(lèi)量子力學(xué)性質(zhì)進(jìn)行預(yù)測(cè)，預(yù)測(cè)的擬合優(yōu)度最高可達(dá) 0.711，顯著超越 TabPfn-2.5（0.658），經(jīng)過(guò)微調(diào)后更是達(dá)到了 0.815。這節(jié)省了大量的實(shí)驗(yàn)成本，允許相關(guān)研究人員快速進(jìn)行高通量分子發(fā)現(xiàn)。這再次證明了該模型非常適合邊緣設(shè)備應(yīng)用以及科研場(chǎng)景。你不必像 LLM 研究者一樣需要大量算力，只需一臺(tái)日常用來(lái)玩游戲的電腦，就能輕松高效地進(jìn)行實(shí)驗(yàn)

11月 10 日正式發(fā)布后，LimiX-2M 在 ModelScope 上已經(jīng)有超過(guò) 1200 次下載，在網(wǎng)上也收獲了不少好評(píng)。

同時(shí)，LimiX 還發(fā)布了詳細(xì)的應(yīng)用指南（https://zhuanlan.zhihu.com/p/1973033408901964300），手把手教你如何將 LimiX 應(yīng)用到自己的數(shù)據(jù)上。無(wú)需復(fù)雜的格式處理，只要簡(jiǎn)單的幾行代碼即可接入最前沿的結(jié)構(gòu)化數(shù)據(jù)大模型。無(wú)論是純 CPU 的簡(jiǎn)單嘗鮮，還是單 GPU 的深度應(yīng)用，還是多機(jī)多卡的極限推理，LimiX 都能 Handle！此外，LimiX 的社區(qū)非常活躍，GitHub 上的問(wèn)題響應(yīng)速度極快。

一場(chǎng)范式遷移正在發(fā)生

從 LimiX 系列模型中，我們能明顯感覺(jué)到，一個(gè)新的時(shí)代真的來(lái)了。因?yàn)楹鸵酝煌琇imiX 所展現(xiàn)的絕對(duì)不是漸進(jìn)式的改進(jìn)，而是一種新的范式遷移。在 LimiX 技術(shù)報(bào)告中，研究團(tuán)隊(duì)甚至報(bào)告了 LDM 的 scaling laws。這進(jìn)一步揭示了該領(lǐng)域正在邁入規(guī)模化驅(qū)動(dòng)的新范式。想要更極致的性能？Just scale it

不同參數(shù)量模型的分類(lèi)（左）、回歸（右）損失函數(shù)隨訓(xùn)練數(shù)據(jù)量的變化趨勢(shì)。數(shù)據(jù)量增大時(shí)，損失值先快速降低后緩慢下降。

在不受數(shù)據(jù)集規(guī)模或計(jì)算預(yù)算限制的情況下，下游任務(wù)損失與性能隨模型參數(shù)規(guī)模的變化。可以看到，多項(xiàng)性能指標(biāo)均與模型參數(shù)數(shù)量 N 呈現(xiàn)明顯的依賴關(guān)系。

對(duì)于大部分人來(lái)說(shuō)，這場(chǎng)從傳統(tǒng)專(zhuān)用模型到「LDM」通用模型的遷移可能很難感知。但無(wú)論是日常生活中穩(wěn)定供應(yīng)的生活必需品，還是背后龐大的工業(yè)體系，幾乎所有決策都建立在結(jié)構(gòu)化數(shù)據(jù)的預(yù)測(cè)與調(diào)度之上。而 LDM 正是在這個(gè)隱蔽但關(guān)鍵的層面上，重新定義智能的邊界，其重要性完全不亞于現(xiàn)在被討論最多的語(yǔ)言智能和具身智能。更準(zhǔn)確地說(shuō)，它和后兩者是互補(bǔ)關(guān)系，都是通往 AGI 的關(guān)鍵步驟。

而且，正如清華大學(xué)長(zhǎng)聘副教授崔鵬所強(qiáng)調(diào)的那樣：將 AI 與工業(yè)場(chǎng)景深度結(jié)合，在我國(guó)具有格外突出的必要性。工業(yè)本身就是我國(guó)最具資源稟賦的領(lǐng)域，我們?cè)诠I(yè)數(shù)據(jù)的規(guī)模、覆蓋面、質(zhì)量，以及相關(guān)政策支持的力度上，都遠(yuǎn)遠(yuǎn)領(lǐng)先于其他國(guó)家。這意味著，一旦在這一領(lǐng)域形成新的技術(shù)范式，其落地深度與產(chǎn)業(yè)帶動(dòng)力將是全球范圍內(nèi)少有的。

從這個(gè)角度來(lái)看，LimiX 所取得的成果更加令人欣慰，它力壓 Amazon AWS、INRIA 等一系列頂尖機(jī)構(gòu)，在諸多性能測(cè)試上登頂。該模型的開(kāi)源讓中國(guó)在非結(jié)構(gòu)化數(shù)據(jù)建模領(lǐng)域真正站到了世界前沿。

我們也期待國(guó)內(nèi)團(tuán)隊(duì)把這一方向的邊界推得更遠(yuǎn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.