![]()
“邁向未來智能,我們需要怎樣的數智底座?
大模型與智能體的興起,對數據提出了根本性的新要求,也推動數據基礎設施向更高層次演進。
在此背景下,“第八屆金猿大數據產業發展論壇——暨AI Infra & Data Agent趨勢論壇”于1月14日在上海成功舉辦。與會政、產、學、研、用各方代表一致認為,隨著大模型與智能體的發展,產業對數據的需求正發生質的變化,各行業對高質量數據集的渴求從未如此迫切,這也促使我們重新思考大數據未來的發展圖景。
傳統大數據已難以滿足現狀
數據需求的變革,始終在供需雙向奔赴中展開。以一家新能源車內飾件供應商為例,其原材料采購模式已徹底顛覆傳統燃油車時代——定制化、具象化、精準化需求成為主流。在AI場景應用下,約三分之一的采購崗位可能被替代。如果仍依循舊有經驗篩選供應商,效率將十分低下。
大模型訓練所需的數據規模、復雜性和處理方式與傳統的數據處理方法有根本不同。從傳統數據到大模型基座,當前數據基礎設施正面臨體系性變革。
“人工智能的應用,約90%投入在后續軟件工程上。現有基礎架構在算力、存儲及數據治理等方面已難以適應需求,亟待大規模改造。尤其是隨著大模型的快速迭代,AI應用不再僅是提升效率的工具,而是深度嵌入業務流程的關鍵組件。”上海市數商協會秘書長盧勇指出。他進一步表示,大模型在數據驅動下,能快速精準定位新合作伙伴,這對產業基礎設施提出了新的挑戰與要求。
![]()
上海數商協會秘書長 盧勇
“近年來,公積金行業數據呈幾何級增長,對存儲傳輸、管理使用提出新要求。”鹽城市住房公積金管理中心技術信息處副處長葉光輝強調,數據質量面臨更高標準要求。過去僅需保證元數據的真實性、完整性、一致性等即可,如今還需關注其價值密度。“當前基礎設施下,單條數據可能本身無誤,但因多樣性不足等原因,無法直接應用于智能場景。同時,隨著個人信息保護法等法律法規實施,數據安全與隱私保護要求日益嚴格,如何在數據效用與隱私保護間取得平衡,也成為關鍵考量。”
![]()
鹽城市住房公積金管理中心技術信息處副處長 葉光輝
此外,數據跨行業、跨領域、跨部門的流動性不斷增強,建立協同治理的新機制,也是數據發展提出的新課題。
而在中國數聯科技創新部總經理沈旸看來,企業下一代AI的核心在于私有數據。過去互聯網公司訓練大模型多使用公開數據,但其價值有限。“例如年終總結或年報,最終成果可能僅萬字,但其背后的參與人員、部門博弈、內容排序等過程數據并未公開。私有數據則能沉淀企業內部管理過程,而以往這些數據大多未數字化。例如會議紀要的自動生成——過去這些過程數據未被記錄。企業99.9%的數據在過程管理層面尚未真正數字化。隨著私有數據逐漸形成,企業運營才能有效指導AI,而非僅依賴公開知識。”
![]()
中國數聯科技創新部總經理 沈旸
“企業需先完成歷史數據的數字化沉淀,再逐步讓AI嘗試替代部分工作,評估其成效,最終實現AI原生的運營模式。”他說道。
高質量數據的戰略價值
日益凸顯
目前,業內眾多專家已經形成共識,認為2026年將會是人工智能從“生成內容(Generative)”向“解決復雜問題與執行任務(Agentic & Action)”全面跨越的一年。當大模型越來越深入產業,數據的價值尤其是高質量數據的價值越發凸顯。高質量數據的“高”究竟體現在哪?應該建立怎樣的評估標準和建設標準來保障高質量數據的供給?
對此,盧勇表示,所謂高質量數據集,就是人工智能模型能夠理解的數據。高質量數據集主要服務于人工智能模型的訓練與推理。原始數據匯集后需經治理才能轉化為AI可理解的高質量數據。
“如果還按照過去的模式把數據堆到一起、集中到一起,可能并不能直接使用,還需要有一個治理的過程。而這個過程中就會產生一些高質量數據。”盧勇說道。
現實中,越來越多的場景正在呈現:金融行業從信用評估到動態風控與智能交互;醫療行業從院內數據到跨域融合的輔助診療;零售行業從用戶畫像到個性化實時體驗……上述場景應用的實現,都需要借助數據的實時性、一致性、可解釋性。以金融行業為例,要求風險數據在毫秒級內完成采集、清洗、特征計算,并確保在流處理和批量處理中結果完全一致,且每個風險標簽都能追溯至原始數據。某頭部商業銀行的實時反欺詐決策引擎,整合了用戶的實時交易、設備、位置、行為序列等上百個數據源。通過流計算平臺,能在50毫秒內完成數據清洗、特征提取和模型推理,對可疑交易實時攔截。其成功關鍵在于,建立了貫穿數據接入、處理、服務全鏈路的數據溯源與質量監控,確保每個攔截決策都有“數據依據”,符合監管審查要求。
華院計算高級技術專家趙康寧指出,大模型時代對數據質量的評估與傳統方式迥異。傳統維度側重完整度、整齊度等指標;而大模型乃至智能體時代,要求更高維度的評估:數據是否契合模型及系統演進方向(尤其在多模態、具身智能背景下);數據的安全性、可靠性、可溯源性如何;以及是否需引入動態評估機制,考量數據對模型訓練、評估乃至人類反饋的影響。
![]()
華院計算高級技術專家 趙康寧
“在大數據時代,對于高質量數據要求的維度也會越來越多。”他強調。
打通“用戶反饋-場景數據-模型迭代”閉環
當前產業關注正從模型參數轉向實際生產力,關注的重點已不僅是AI的參數規模或算力強弱,而更聚焦于AI實際能承擔的工作量與效能。在推動AI落地業務時,應積極構建數據基礎設施,打通“用戶反饋-場景數據-模型迭代”閉環,真正讓數據流動起來、讓模型持續進化,最終驅動業務實現可衡量的增長。
盧勇認為,未來AI時代應用變革的根本在于以模型替代人力。人力在處理數據量、響應時間及維度上遠遜于模型。若要在業務全閉環中應用模型,數據、治理方式及基礎設施均需相應調整,因其服務對象已從傳統信息系統轉向機器與模型。這是必然的發展趨勢。
現場觀眾針對AI在實際產業應用進行了提問,盧勇以今年上海在“數據要素×”大賽中的獲獎案例為例進行了解答。他表示,在制造業中,利用工業互聯網平臺可借助數據賦能,更好對接前端需求與后端供給,促進產業高效發展。此外,在陶瓷行業,原本分散的小作坊難以獲取市場需求,通過工業互聯網平臺的數據智能匹配,能實現供需精準對接,讓經濟效益最大化。
葉光輝指出,應遵循“小步快跑”原則,在投入與訓練成本間取得平衡。具體可分三步:首先基于真實業務場景,讓基座模型識別目標,據此梳理整合數據;其次建立專用模型,利用高質量業務場景切片進行訓練;最后通過人工反饋數據回流,實現模型快速迭代與數據標簽重定義,形成數據、場景與反饋的閉環。
“我們大家都經歷過或正在經歷學車。試想一下,如果在大馬路上就你一個人,估計怎么訓練效果提升都有限。但如果你到上海的高架橋上去開幾天,質量就會更高。所以要多給大模型一些高密度的高質量數據。”上海紐約大學信息技術部高級主任常潘建議,需從三方面改進:一是優化模型自身,通過知識注入與微調實現實時反饋與行為調整;二是利用合成數據提供高密度訓練素材,助力AI能力提升;三是實現模型增量學習與決策可追溯,確保AI能從新事件中持續學習,且其決策依據可查。
![]()
上海紐約大學信息技術部高級主任 常潘
支撐未來智能
數據基礎設施還需要哪些突破?
在邁向未來智能時代的進程中,面對可能出現的自主感知、認知與決策需求,當前的數據基礎設施在架構設計、組織模式、數據流轉與應用范式等方面還存在根本性局限,應該推動關鍵突破以支撐下一代智能形態的演進。
“未來有非常多的機會需要我們去做更多的創新,包括從現有的真實世界的數據到深層次數據。在這當中有非常多的挑戰,所以未來可以做的事情非常多。”盧勇表示,人工智能正從以模型為中心轉向以數據為中心。數據領域未來充滿機遇與創新挑戰,包括從現實數據到深層數據的轉化等。
葉光輝強調,過去是管理數據,如今需運營數據;過去數據如檔案鎖入柜中,如今數據是資產,需流動起來,通過持續治理提升價值密度,滿足真實性、一致性等基本要求外,更需契合大數據與AI時代對高價值密度的需求。
“數據要和智能進行結合,數據并不僅僅是越多越好,而是質量越高越好,我們要提供高質量的數據給它,讓AI變得越來越聰明。”常潘指出,面對海量數據,治理方式須變革:數據清洗后需轉化為AI可理解的格式,或以模型上下文模式重構;數據權限應從以人為中心轉向以機器為中心;存儲與計算速度需匹配AI處理需求;同時,AI應具備主動感知與學習能力,通過反饋機制持續優化,實現數據與智能的深度融合。
沈旸分析,大語言模型本質是概率模型,難以直接處理海量結構化數據(如數據庫表單),其更擅長處理非結構化數據。“AI大模型,尤其是語言大模型,非常不適合處理數據,因為根本處理不了。語言模型是個概率模型,處理比如超過1000行數據一定會出錯”。他認為,未來數據底座可能發生根本變化:在端到端的AI演進中,傳統數據結構或許只是過渡形態,最終還需要讓它實現端對端。此外,AI決策需閉環驗證,而當前缺乏數字孿生等環境校驗其正確性,這是未來產業必須解決的關鍵問題,否則AI仍限于對話層面,難以工程化落地。“這是未來產業要做的一件非常重要的事情,否則AI還是跟大家對話,那么它是一個玩具,而不是一個工程。從工程的角度看,我們一定要保證它做的每一件事情都有人能確認。”他強調道。
從大模型、智能體到現在,自身智能時代越來越近。當機器實現通用智能后,數據變成了影響世界的中心,數據本身也加入整個機器的思考中去。對此,趙康寧展望,隨著向通用人工智能邁進,數據將不僅是應用對象,更成為影響機器思考與決策的核心。機器可能自主決定數據的使用、創造與評估,數據架構將發生重大變革,與實體、模型、智能體間的連接維度大幅拓展,需要全新架構推動數據治理進入新階段。
毋庸置疑,我們已步入一個大模型與智能體引領的新時代。數據不再僅僅是靜態資產,其價值正動態地融入業務流程,成為驅動智能決策的核心動力。與此同時,數據需求正經歷深刻變革:從基礎的數據治理,邁向智能化、實時化、場景化的深度應用。
這場對話,指向了一個由數據與智能共同定義的未來。這些突破將不僅是技術革新,更是理念的重構。當數據真正成為智能體的“感官”與“經驗”,我們便踏入了AI與世界深度互認知的新階段。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.