網易首頁 > 網易號 > 正文申請入駐

圓桌論壇：AI大模型+Agent，正推動數據基礎設施變革？

2026-01-22 19:48:48　來源: 數據猿DataYuan

內蒙古舉報

分享至

“邁向未來智能，我們需要怎樣的數智底座？

大模型與智能體的興起，對數據提出了根本性的新要求，也推動數據基礎設施向更高層次演進。

在此背景下，“第八屆金猿大數據產業發展論壇——暨AI Infra & Data Agent趨勢論壇”于1月14日在上海成功舉辦。與會政、產、學、研、用各方代表一致認為，隨著大模型與智能體的發展，產業對數據的需求正發生質的變化，各行業對高質量數據集的渴求從未如此迫切，這也促使我們重新思考大數據未來的發展圖景。

傳統大數據已難以滿足現狀

數據需求的變革，始終在供需雙向奔赴中展開。以一家新能源車內飾件供應商為例，其原材料采購模式已徹底顛覆傳統燃油車時代——定制化、具象化、精準化需求成為主流。在AI場景應用下，約三分之一的采購崗位可能被替代。如果仍依循舊有經驗篩選供應商，效率將十分低下。

大模型訓練所需的數據規模、復雜性和處理方式與傳統的數據處理方法有根本不同。從傳統數據到大模型基座，當前數據基礎設施正面臨體系性變革。

“人工智能的應用，約90%投入在后續軟件工程上。現有基礎架構在算力、存儲及數據治理等方面已難以適應需求，亟待大規模改造。尤其是隨著大模型的快速迭代，AI應用不再僅是提升效率的工具，而是深度嵌入業務流程的關鍵組件。”上海市數商協會秘書長盧勇指出。他進一步表示，大模型在數據驅動下，能快速精準定位新合作伙伴，這對產業基礎設施提出了新的挑戰與要求。

上海數商協會秘書長盧勇

“近年來，公積金行業數據呈幾何級增長，對存儲傳輸、管理使用提出新要求。”鹽城市住房公積金管理中心技術信息處副處長葉光輝強調，數據質量面臨更高標準要求。過去僅需保證元數據的真實性、完整性、一致性等即可，如今還需關注其價值密度。“當前基礎設施下，單條數據可能本身無誤，但因多樣性不足等原因，無法直接應用于智能場景。同時，隨著個人信息保護法等法律法規實施，數據安全與隱私保護要求日益嚴格，如何在數據效用與隱私保護間取得平衡，也成為關鍵考量。”

鹽城市住房公積金管理中心技術信息處副處長葉光輝

此外，數據跨行業、跨領域、跨部門的流動性不斷增強，建立協同治理的新機制，也是數據發展提出的新課題。

而在中國數聯科技創新部總經理沈旸看來，企業下一代AI的核心在于私有數據。過去互聯網公司訓練大模型多使用公開數據，但其價值有限。“例如年終總結或年報，最終成果可能僅萬字，但其背后的參與人員、部門博弈、內容排序等過程數據并未公開。私有數據則能沉淀企業內部管理過程，而以往這些數據大多未數字化。例如會議紀要的自動生成——過去這些過程數據未被記錄。企業99.9%的數據在過程管理層面尚未真正數字化。隨著私有數據逐漸形成，企業運營才能有效指導AI，而非僅依賴公開知識。”

中國數聯科技創新部總經理沈旸

“企業需先完成歷史數據的數字化沉淀，再逐步讓AI嘗試替代部分工作，評估其成效，最終實現AI原生的運營模式。”他說道。

高質量數據的戰略價值

日益凸顯

目前，業內眾多專家已經形成共識，認為2026年將會是人工智能從“生成內容（Generative）”向“解決復雜問題與執行任務（Agentic & Action）”全面跨越的一年。當大模型越來越深入產業，數據的價值尤其是高質量數據的價值越發凸顯。高質量數據的“高”究竟體現在哪？應該建立怎樣的評估標準和建設標準來保障高質量數據的供給？

對此，盧勇表示，所謂高質量數據集，就是人工智能模型能夠理解的數據。高質量數據集主要服務于人工智能模型的訓練與推理。原始數據匯集后需經治理才能轉化為AI可理解的高質量數據。

“如果還按照過去的模式把數據堆到一起、集中到一起，可能并不能直接使用，還需要有一個治理的過程。而這個過程中就會產生一些高質量數據。”盧勇說道。

現實中，越來越多的場景正在呈現：金融行業從信用評估到動態風控與智能交互；醫療行業從院內數據到跨域融合的輔助診療；零售行業從用戶畫像到個性化實時體驗……上述場景應用的實現，都需要借助數據的實時性、一致性、可解釋性。以金融行業為例，要求風險數據在毫秒級內完成采集、清洗、特征計算，并確保在流處理和批量處理中結果完全一致，且每個風險標簽都能追溯至原始數據。某頭部商業銀行的實時反欺詐決策引擎，整合了用戶的實時交易、設備、位置、行為序列等上百個數據源。通過流計算平臺，能在50毫秒內完成數據清洗、特征提取和模型推理，對可疑交易實時攔截。其成功關鍵在于，建立了貫穿數據接入、處理、服務全鏈路的數據溯源與質量監控，確保每個攔截決策都有“數據依據”，符合監管審查要求。

華院計算高級技術專家趙康寧指出，大模型時代對數據質量的評估與傳統方式迥異。傳統維度側重完整度、整齊度等指標；而大模型乃至智能體時代，要求更高維度的評估：數據是否契合模型及系統演進方向（尤其在多模態、具身智能背景下）；數據的安全性、可靠性、可溯源性如何；以及是否需引入動態評估機制，考量數據對模型訓練、評估乃至人類反饋的影響。

華院計算高級技術專家趙康寧

“在大數據時代，對于高質量數據要求的維度也會越來越多。”他強調。

打通“用戶反饋-場景數據-模型迭代”閉環

當前產業關注正從模型參數轉向實際生產力，關注的重點已不僅是AI的參數規模或算力強弱，而更聚焦于AI實際能承擔的工作量與效能。在推動AI落地業務時，應積極構建數據基礎設施，打通“用戶反饋-場景數據-模型迭代”閉環，真正讓數據流動起來、讓模型持續進化，最終驅動業務實現可衡量的增長。

盧勇認為，未來AI時代應用變革的根本在于以模型替代人力。人力在處理數據量、響應時間及維度上遠遜于模型。若要在業務全閉環中應用模型，數據、治理方式及基礎設施均需相應調整，因其服務對象已從傳統信息系統轉向機器與模型。這是必然的發展趨勢。

現場觀眾針對AI在實際產業應用進行了提問，盧勇以今年上海在“數據要素×”大賽中的獲獎案例為例進行了解答。他表示，在制造業中，利用工業互聯網平臺可借助數據賦能，更好對接前端需求與后端供給，促進產業高效發展。此外，在陶瓷行業，原本分散的小作坊難以獲取市場需求，通過工業互聯網平臺的數據智能匹配，能實現供需精準對接，讓經濟效益最大化。

葉光輝指出，應遵循“小步快跑”原則，在投入與訓練成本間取得平衡。具體可分三步：首先基于真實業務場景，讓基座模型識別目標，據此梳理整合數據；其次建立專用模型，利用高質量業務場景切片進行訓練；最后通過人工反饋數據回流，實現模型快速迭代與數據標簽重定義，形成數據、場景與反饋的閉環。

“我們大家都經歷過或正在經歷學車。試想一下，如果在大馬路上就你一個人，估計怎么訓練效果提升都有限。但如果你到上海的高架橋上去開幾天，質量就會更高。所以要多給大模型一些高密度的高質量數據。”上海紐約大學信息技術部高級主任常潘建議，需從三方面改進：一是優化模型自身，通過知識注入與微調實現實時反饋與行為調整；二是利用合成數據提供高密度訓練素材，助力AI能力提升；三是實現模型增量學習與決策可追溯，確保AI能從新事件中持續學習，且其決策依據可查。

上海紐約大學信息技術部高級主任常潘

支撐未來智能

數據基礎設施還需要哪些突破？

在邁向未來智能時代的進程中，面對可能出現的自主感知、認知與決策需求，當前的數據基礎設施在架構設計、組織模式、數據流轉與應用范式等方面還存在根本性局限，應該推動關鍵突破以支撐下一代智能形態的演進。

“未來有非常多的機會需要我們去做更多的創新，包括從現有的真實世界的數據到深層次數據。在這當中有非常多的挑戰，所以未來可以做的事情非常多。”盧勇表示，人工智能正從以模型為中心轉向以數據為中心。數據領域未來充滿機遇與創新挑戰，包括從現實數據到深層數據的轉化等。

葉光輝強調，過去是管理數據，如今需運營數據；過去數據如檔案鎖入柜中，如今數據是資產，需流動起來，通過持續治理提升價值密度，滿足真實性、一致性等基本要求外，更需契合大數據與AI時代對高價值密度的需求。

“數據要和智能進行結合，數據并不僅僅是越多越好，而是質量越高越好，我們要提供高質量的數據給它，讓AI變得越來越聰明。”常潘指出，面對海量數據，治理方式須變革：數據清洗后需轉化為AI可理解的格式，或以模型上下文模式重構；數據權限應從以人為中心轉向以機器為中心；存儲與計算速度需匹配AI處理需求；同時，AI應具備主動感知與學習能力，通過反饋機制持續優化，實現數據與智能的深度融合。

沈旸分析，大語言模型本質是概率模型，難以直接處理海量結構化數據（如數據庫表單），其更擅長處理非結構化數據。“AI大模型，尤其是語言大模型，非常不適合處理數據，因為根本處理不了。語言模型是個概率模型，處理比如超過1000行數據一定會出錯”。他認為，未來數據底座可能發生根本變化：在端到端的AI演進中，傳統數據結構或許只是過渡形態，最終還需要讓它實現端對端。此外，AI決策需閉環驗證，而當前缺乏數字孿生等環境校驗其正確性，這是未來產業必須解決的關鍵問題，否則AI仍限于對話層面，難以工程化落地。“這是未來產業要做的一件非常重要的事情，否則AI還是跟大家對話，那么它是一個玩具，而不是一個工程。從工程的角度看，我們一定要保證它做的每一件事情都有人能確認。”他強調道。

從大模型、智能體到現在，自身智能時代越來越近。當機器實現通用智能后，數據變成了影響世界的中心，數據本身也加入整個機器的思考中去。對此，趙康寧展望，隨著向通用人工智能邁進，數據將不僅是應用對象，更成為影響機器思考與決策的核心。機器可能自主決定數據的使用、創造與評估，數據架構將發生重大變革，與實體、模型、智能體間的連接維度大幅拓展，需要全新架構推動數據治理進入新階段。

毋庸置疑，我們已步入一個大模型與智能體引領的新時代。數據不再僅僅是靜態資產，其價值正動態地融入業務流程，成為驅動智能決策的核心動力。與此同時，數據需求正經歷深刻變革：從基礎的數據治理，邁向智能化、實時化、場景化的深度應用。

這場對話，指向了一個由數據與智能共同定義的未來。這些突破將不僅是技術革新，更是理念的重構。當數據真正成為智能體的“感官”與“經驗”，我們便踏入了AI與世界深度互認知的新階段。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.