網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

明尼蘇達(dá)大學(xué)：AI數(shù)據(jù)科學(xué)家還不如人類專家，人機(jī)合作才是未來(lái)

專家：男科學(xué)家為科研“犧牲”更多

2026-03-30 17:36:44　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由明尼蘇達(dá)大學(xué)統(tǒng)計(jì)學(xué)院、電氣與計(jì)算機(jī)工程系等多個(gè)院系聯(lián)合開(kāi)展的突破性研究，于2026年3月發(fā)表在arXiv預(yù)印本平臺(tái)上（論文編號(hào)：arXiv:2603.19005v1）。研究團(tuán)隊(duì)通過(guò)創(chuàng)建AgentDS基準(zhǔn)測(cè)試平臺(tái)，首次系統(tǒng)性地評(píng)估了AI智能體在專業(yè)數(shù)據(jù)科學(xué)任務(wù)中的真實(shí)表現(xiàn)，并與人類專家進(jìn)行了直接對(duì)比。

當(dāng)我們打開(kāi)手機(jī)購(gòu)物軟件時(shí)，系統(tǒng)會(huì)精準(zhǔn)推薦我們可能喜歡的商品；當(dāng)醫(yī)生為病人制定治療方案時(shí)，背后有復(fù)雜的數(shù)據(jù)分析支撐決策；當(dāng)銀行審批貸款時(shí)，風(fēng)險(xiǎn)評(píng)估模型在默默工作。這些看似簡(jiǎn)單的日常場(chǎng)景，背后都隱藏著數(shù)據(jù)科學(xué)的深刻應(yīng)用。數(shù)據(jù)科學(xué)就像一位無(wú)形的顧問(wèn)，將海量復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為有用的洞察，幫助各行各業(yè)做出更明智的決定。

近年來(lái)，人工智能的發(fā)展可謂突飛猛進(jìn)。大語(yǔ)言模型能夠流利地編寫(xiě)代碼，智能體系統(tǒng)可以自動(dòng)執(zhí)行復(fù)雜任務(wù)，有些AI甚至在知名的數(shù)據(jù)競(jìng)賽平臺(tái)Kaggle上達(dá)到了大師級(jí)水平。這些令人矚目的成就讓很多人開(kāi)始思考：AI是否已經(jīng)可以完全取代人類數(shù)據(jù)科學(xué)家了？我們是否即將迎來(lái)一個(gè)完全由AI主導(dǎo)的數(shù)據(jù)分析時(shí)代？

然而，現(xiàn)實(shí)情況可能比我們想象的更復(fù)雜。雖然AI在處理標(biāo)準(zhǔn)化任務(wù)方面表現(xiàn)出色，但真實(shí)世界的數(shù)據(jù)科學(xué)工作遠(yuǎn)比標(biāo)準(zhǔn)測(cè)試更加微妙和復(fù)雜。每個(gè)行業(yè)都有其獨(dú)特的專業(yè)知識(shí)和潛規(guī)則，需要深度的領(lǐng)域理解才能做出正確的判斷。這就像烹飪一樣，雖然AI可能知道所有的食譜和烹飪技巧，但要做出一道真正美味的地方菜，還需要對(duì)當(dāng)?shù)厝说目谖镀谩⑹巢奶匦院臀幕尘坝猩羁痰睦斫狻?/p>

為了回答這個(gè)關(guān)鍵問(wèn)題，明尼蘇達(dá)大學(xué)的研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)名為AgentDS的全新基準(zhǔn)測(cè)試平臺(tái)。這個(gè)平臺(tái)就像一個(gè)精心設(shè)計(jì)的考試系統(tǒng)，不同于以往那些相對(duì)簡(jiǎn)單的測(cè)試，它專門(mén)針對(duì)需要專業(yè)領(lǐng)域知識(shí)的復(fù)雜數(shù)據(jù)科學(xué)任務(wù)進(jìn)行評(píng)估。研究團(tuán)隊(duì)從六個(gè)重要的實(shí)際應(yīng)用領(lǐng)域中精心挑選了17個(gè)挑戰(zhàn)性任務(wù)，包括電商購(gòu)物、食品生產(chǎn)、醫(yī)療健康、保險(xiǎn)業(yè)務(wù)、制造業(yè)和零售銀行等。每個(gè)任務(wù)都被巧妙設(shè)計(jì)，確保僅憑通用的機(jī)器學(xué)習(xí)方法難以取得優(yōu)秀成績(jī)，必須結(jié)合特定領(lǐng)域的專業(yè)知識(shí)才能獲得突破。

更有趣的是，研究團(tuán)隊(duì)還組織了一場(chǎng)為期十天的真實(shí)競(jìng)賽，吸引了29支隊(duì)伍共80名參與者。這些參與者可以自由使用任何AI工具，讓研究人員能夠觀察在真實(shí)條件下人類與AI如何協(xié)作解決復(fù)雜問(wèn)題。同時(shí)，研究團(tuán)隊(duì)還設(shè)置了兩個(gè)純AI基線系統(tǒng)作為對(duì)照：一個(gè)是直接使用GPT-4o的簡(jiǎn)單提示系統(tǒng)，另一個(gè)是使用Claude Code的更高級(jí)智能體系統(tǒng)。

一、AI智能體在專業(yè)領(lǐng)域的表現(xiàn)令人意外

當(dāng)研究結(jié)果公布時(shí)，許多人感到意外。那些在一般任務(wù)中表現(xiàn)出色的AI系統(tǒng)，在面對(duì)需要專業(yè)領(lǐng)域知識(shí)的數(shù)據(jù)科學(xué)任務(wù)時(shí)，表現(xiàn)卻不盡如人意。

直接使用GPT-4o的基線系統(tǒng)獲得了0.143的總體量化得分，在29支參賽隊(duì)伍中排名第17位，甚至低于參賽者的中位數(shù)表現(xiàn)0.156。這就好比一個(gè)平時(shí)考試成績(jī)不錯(cuò)的學(xué)生，在面對(duì)專業(yè)性很強(qiáng)的職業(yè)技能考試時(shí)突然變得力不從心。相比之下，使用Claude Code的智能體系統(tǒng)表現(xiàn)要好得多，獲得了0.458的得分，排名第10位，但仍然遠(yuǎn)未達(dá)到頂尖人類專家的水平。

更細(xì)致的分析揭示了AI系統(tǒng)的具體短板。在不同領(lǐng)域中，GPT-4o的表現(xiàn)極不穩(wěn)定，在零售銀行領(lǐng)域得分為0，在電商領(lǐng)域僅得0.021分，這樣的表現(xiàn)確實(shí)令人擔(dān)憂。Claude Code雖然在所有領(lǐng)域都有所改善，在制造業(yè)、食品生產(chǎn)和零售銀行領(lǐng)域分別取得了0.573、0.532和0.553的相對(duì)較好成績(jī)，但在每個(gè)領(lǐng)域仍然明顯落后于表現(xiàn)最優(yōu)秀的人類團(tuán)隊(duì)。

研究人員深入分析了AI系統(tǒng)失敗的具體原因，發(fā)現(xiàn)了幾個(gè)關(guān)鍵問(wèn)題。首先是多模態(tài)信號(hào)處理能力的不足。在現(xiàn)實(shí)的數(shù)據(jù)科學(xué)項(xiàng)目中，數(shù)據(jù)往往不僅僅是簡(jiǎn)單的表格，還包括圖片、文檔、音頻等多種形式。比如在保險(xiǎn)理賠中，可能需要分析事故現(xiàn)場(chǎng)照片；在食品質(zhì)量控制中，需要檢查產(chǎn)品外觀圖像；在電商推薦中，需要理解產(chǎn)品圖片特征。然而，AI系統(tǒng)在這些涉及圖像分析的任務(wù)中表現(xiàn)尤其糟糕，往往無(wú)法有效提取或利用視覺(jué)特征，而人類數(shù)據(jù)科學(xué)家卻能敏銳地意識(shí)到什么時(shí)候圖像信息是關(guān)鍵的，并采用合適的計(jì)算機(jī)視覺(jué)技術(shù)來(lái)處理。

其次是對(duì)通用流程的過(guò)度依賴。AI系統(tǒng)傾向于使用一套標(biāo)準(zhǔn)化的處理流程：加載數(shù)據(jù)、進(jìn)行標(biāo)準(zhǔn)預(yù)處理、然后訓(xùn)練梯度提升模型或隨機(jī)森林。這種方法就像按照固定食譜做菜，對(duì)于簡(jiǎn)單任務(wù)確實(shí)有效，但當(dāng)面對(duì)需要?jiǎng)?chuàng)新思維和專業(yè)判斷的復(fù)雜問(wèn)題時(shí)，就顯得力不從心了。真正的數(shù)據(jù)科學(xué)工作往往需要根據(jù)具體問(wèn)題和領(lǐng)域特點(diǎn)來(lái)設(shè)計(jì)獨(dú)特的解決方案，而不是套用標(biāo)準(zhǔn)模板。

第三個(gè)問(wèn)題是完全自主智能體的局限性。研究中一個(gè)有趣的發(fā)現(xiàn)是，一些參賽團(tuán)隊(duì)最初嘗試使用完全自主的多智能體框架，希望AI能夠自動(dòng)完成整個(gè)分析流程。然而，這些團(tuán)隊(duì)后來(lái)都放棄了這種方法，轉(zhuǎn)而采用人類引導(dǎo)的交互式編程助手。原因很簡(jiǎn)單：完全自主的系統(tǒng)需要大量的提示工程調(diào)試，成本高昂且效果有限，而人類引導(dǎo)的方式既提高了效率，也顯著改善了解決方案的質(zhì)量。這表明，至少在目前的技術(shù)水平下，AI更適合作為協(xié)作工具而非完全獨(dú)立的替代品。

二、人類專業(yè)知識(shí)的不可替代價(jià)值

在整個(gè)競(jìng)賽過(guò)程中，研究人員收集了參賽者提交的代碼和報(bào)告，通過(guò)深入分析發(fā)現(xiàn)，人類專家在數(shù)據(jù)科學(xué)工作中展現(xiàn)出了AI目前無(wú)法復(fù)制的幾種關(guān)鍵能力。

第一種能力是戰(zhàn)略性問(wèn)題診斷。最優(yōu)秀的參賽團(tuán)隊(duì)采用了一種明確的分工策略：人類負(fù)責(zé)診斷問(wèn)題，AI負(fù)責(zé)實(shí)施解決方案。這就像醫(yī)生看病一樣，診斷病因需要豐富的醫(yī)學(xué)知識(shí)和臨床經(jīng)驗(yàn)，而具體的治療措施則可以按照標(biāo)準(zhǔn)流程執(zhí)行。一些參賽者描述了他們?nèi)绾巫R(shí)別當(dāng)前方法的結(jié)構(gòu)性問(wèn)題，比如模型校準(zhǔn)偏差、訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)之間的分布差異，或者特征交互規(guī)律的錯(cuò)誤設(shè)定。在發(fā)現(xiàn)這些問(wèn)題后，他們會(huì)制定具體的修正策略，然后指導(dǎo)AI來(lái)實(shí)現(xiàn)這些想法。這種從高層策略到具體實(shí)施的分層思考過(guò)程，是人類智慧的獨(dú)特體現(xiàn)。

第二種能力是領(lǐng)域知識(shí)的有效注入。數(shù)據(jù)本身往往無(wú)法告訴我們一切。就像閱讀一份體檢報(bào)告一樣，單純的數(shù)字可能意義有限，但結(jié)合醫(yī)學(xué)常識(shí)就能獲得有價(jià)值的洞察。參賽者們經(jīng)常構(gòu)建一些需要專業(yè)知識(shí)才能設(shè)計(jì)的特征。在醫(yī)療健康領(lǐng)域，一些團(tuán)隊(duì)將病人的生命體征與醫(yī)學(xué)上定義的正常范圍進(jìn)行對(duì)比，創(chuàng)建了捕捉生理穩(wěn)定性、波動(dòng)性和恢復(fù)趨勢(shì)的指標(biāo)。這些特征反映了臨床診療的實(shí)際流程，而這些知識(shí)是無(wú)法直接從數(shù)據(jù)分布中推斷出來(lái)的。類似地，在其他領(lǐng)域中，參賽者也運(yùn)用了信貸風(fēng)險(xiǎn)閾值、客戶咨詢次數(shù)條件等業(yè)務(wù)規(guī)則，這些規(guī)則的制定需要對(duì)相關(guān)行業(yè)有深入的理解。

第三種能力是對(duì)AI建議的批判性篩選。一個(gè)意想不到的發(fā)現(xiàn)是，那些無(wú)條件接受AI生成方案的團(tuán)隊(duì)，表現(xiàn)反而不如預(yù)期。多個(gè)團(tuán)隊(duì)報(bào)告說(shuō)，不同的前沿AI模型經(jīng)常提出過(guò)度復(fù)雜的特征工程流程，但當(dāng)他們實(shí)際驗(yàn)證時(shí)，發(fā)現(xiàn)這些方案往往會(huì)降低模型的驗(yàn)證分?jǐn)?shù)。成功的團(tuán)隊(duì)學(xué)會(huì)了先獨(dú)立思考問(wèn)題，形成自己的假設(shè)，然后再使用AI來(lái)實(shí)現(xiàn)具體方案。這種做法就像請(qǐng)教專家意見(jiàn)時(shí)仍要保持獨(dú)立判斷一樣。另一個(gè)團(tuán)隊(duì)在嘗試了所有17個(gè)挑戰(zhàn)后得出結(jié)論：基于領(lǐng)域知識(shí)的特征工程始終優(yōu)于盲目的自動(dòng)化處理，沒(méi)有任何AI生成的通用模板能夠在不經(jīng)過(guò)人類調(diào)整的情況下適用于所有任務(wù)。

第四種能力是超越驗(yàn)證分?jǐn)?shù)的綜合判斷。人類參賽者經(jīng)常做出一些看似"不理性"的決定：他們有時(shí)會(huì)選擇驗(yàn)證分?jǐn)?shù)略低的模型，因?yàn)樗麄兣袛囹?yàn)證分?jǐn)?shù)和測(cè)試分?jǐn)?shù)之間的差異暗示了潛在的過(guò)擬合風(fēng)險(xiǎn)。這種判斷能力體現(xiàn)了對(duì)泛化風(fēng)險(xiǎn)的深刻理解，這是單純的分?jǐn)?shù)優(yōu)化無(wú)法捕捉的。此外，參賽者在使用AI工具時(shí)也表現(xiàn)出了謹(jǐn)慎的態(tài)度：他們不是將所有控制權(quán)交給自主智能體，而是主要將大語(yǔ)言模型用作調(diào)試、解釋和頭腦風(fēng)暴的助手。這種工作流程反映了在充滿不確定性的情況下，人類如何保持最終判斷權(quán)的智慧。

這些發(fā)現(xiàn)表明，人類專業(yè)知識(shí)的價(jià)值不僅僅在于速度或知識(shí)廣度，更在于提供一種與AI互補(bǔ)的思維方式：在建模失誤出現(xiàn)在數(shù)據(jù)中之前就能診斷問(wèn)題，注入訓(xùn)練分布中不存在的領(lǐng)域知識(shí)，以及在評(píng)估指標(biāo)無(wú)法完全反映真實(shí)情況時(shí)保持合理的懷疑態(tài)度。

三、人機(jī)協(xié)作展現(xiàn)出最佳效果

通過(guò)對(duì)競(jìng)賽結(jié)果的深入分析，研究人員發(fā)現(xiàn)最成功的解決方案都采用了人機(jī)協(xié)作的模式，而不是完全依賴人類或完全依賴AI。這種協(xié)作模式展現(xiàn)出了超越任一方獨(dú)立工作的效果。

在成功的協(xié)作模式中，AI和人類承擔(dān)著不同但互補(bǔ)的角色。AI主要負(fù)責(zé)處理那些重復(fù)性、計(jì)算密集型的任務(wù)，比如數(shù)據(jù)加載、初步的探索性分析、樣板代碼生成等。這就像一個(gè)高效的助手，能夠快速執(zhí)行指令，處理繁重的基礎(chǔ)工作。而人類則專注于那些需要?jiǎng)?chuàng)造性思維和判斷力的核心決策：選擇哪些特征進(jìn)行工程化處理，采用什么樣的模型比較策略，如何解釋分析結(jié)果等。這種分工讓每一方都能發(fā)揮自己的長(zhǎng)處。

更重要的是，最有效的協(xié)作呈現(xiàn)出一種迭代性的反饋循環(huán)模式。人類提出方法論假設(shè)，AI快速實(shí)現(xiàn)并測(cè)試這些想法，然后人類評(píng)估結(jié)果并改進(jìn)策略。這個(gè)過(guò)程中，人類始終保持著主導(dǎo)地位，決定著每個(gè)迭代周期的方向。參賽者描述了這樣的工作流程：當(dāng)他們判斷當(dāng)前結(jié)果不令人滿意時(shí)，會(huì)診斷可能的原因，然后向AI提出下一步的改進(jìn)指令。AI能夠加速這個(gè)迭代過(guò)程，但每個(gè)周期的戰(zhàn)略方向都是由人類的推理能力確定的。

這種協(xié)作模式的成功，還體現(xiàn)在互補(bǔ)性而非替代性上。人類和AI各自貢獻(xiàn)著對(duì)方缺乏的能力：人類提供領(lǐng)域背景知識(shí)、因果推理能力和錯(cuò)誤識(shí)別直覺(jué)，而AI提供計(jì)算能力、快速原型開(kāi)發(fā)和詳盡的搜索能力。兩者結(jié)合時(shí)，產(chǎn)生的效果超過(guò)了任何一方單獨(dú)工作的結(jié)果。這種現(xiàn)象在越來(lái)越多的人工智能應(yīng)用領(lǐng)域中都有發(fā)現(xiàn)，表明設(shè)計(jì)良好的人機(jī)協(xié)作系統(tǒng)可能是未來(lái)的發(fā)展方向。

研究結(jié)果與其他人機(jī)協(xié)作研究的發(fā)現(xiàn)產(chǎn)生了共鳴。核心觀點(diǎn)是協(xié)作質(zhì)量，也就是人類判斷和AI能力整合的有效程度，與單獨(dú)的能力水平同樣重要。當(dāng)人機(jī)協(xié)作經(jīng)過(guò)精心設(shè)計(jì)時(shí)，這種伙伴關(guān)系能夠超越人類或AI獨(dú)立行動(dòng)的表現(xiàn)。

四、研究設(shè)計(jì)的精巧之處

為了確保研究結(jié)果的可信度和實(shí)用性，研究團(tuán)隊(duì)在設(shè)計(jì)AgentDS基準(zhǔn)測(cè)試時(shí)投入了大量心思，整個(gè)過(guò)程就像精心策劃一場(chǎng)既公平又具有挑戰(zhàn)性的考試。

基準(zhǔn)測(cè)試的設(shè)計(jì)遵循三個(gè)核心原則。第一個(gè)原則是領(lǐng)域特異性復(fù)雜度。研究團(tuán)隊(duì)刻意設(shè)計(jì)任務(wù)，使得優(yōu)秀表現(xiàn)必須依賴領(lǐng)域?qū)I(yè)洞察。通用方法最多只能達(dá)到基線水平，要想取得有競(jìng)爭(zhēng)力的成績(jī)，必須理解在每個(gè)特定環(huán)境中哪些特征是重要的，哪些處理步驟是合適的。這種設(shè)計(jì)選擇有意測(cè)試智能體是否能夠應(yīng)用真正的領(lǐng)域推理能力。

第二個(gè)原則是多模態(tài)整合。真實(shí)世界的數(shù)據(jù)科學(xué)很少只涉及單一的表格數(shù)據(jù)集。因此AgentDS不僅提供包含預(yù)測(cè)目標(biāo)的主要表格數(shù)據(jù)集，還包括額外的數(shù)據(jù)模態(tài)，如圖像（產(chǎn)品照片或車(chē)輛狀況圖像）、文本（客戶評(píng)論或臨床筆記）和結(jié)構(gòu)化文件（JSON、PDF或與主數(shù)據(jù)集關(guān)聯(lián)的額外CSV文件）。這種設(shè)計(jì)引入了更貼近真實(shí)世界數(shù)據(jù)科學(xué)挑戰(zhàn)的領(lǐng)域特定復(fù)雜性。

第三個(gè)原則是現(xiàn)實(shí)世界的可信度。雖然使用的是合成數(shù)據(jù)，但生成過(guò)程忠實(shí)地反映了實(shí)際行業(yè)數(shù)據(jù)中發(fā)現(xiàn)的真實(shí)關(guān)系。每個(gè)領(lǐng)域的數(shù)據(jù)集都包含了從業(yè)者會(huì)遇到的現(xiàn)實(shí)約束和相關(guān)性。研究團(tuán)隊(duì)咨詢了領(lǐng)域文獻(xiàn)，包括學(xué)術(shù)論文、行業(yè)報(bào)告和從業(yè)者博客，以確保數(shù)據(jù)反映真實(shí)模式，不與既定的領(lǐng)域知識(shí)相矛盾。

在基準(zhǔn)測(cè)試的范圍選擇上，研究團(tuán)隊(duì)覆蓋了六個(gè)領(lǐng)域，每個(gè)領(lǐng)域都因其現(xiàn)實(shí)世界重要性、技術(shù)挑戰(zhàn)性和所需技能多樣性而被選中。這些領(lǐng)域涵蓋了預(yù)測(cè)建模發(fā)揮關(guān)鍵作用的行業(yè)，其中領(lǐng)域知識(shí)、異構(gòu)數(shù)據(jù)模態(tài)和業(yè)務(wù)特定評(píng)估標(biāo)準(zhǔn)共同影響建模策略。

比如在電商領(lǐng)域，需求預(yù)測(cè)和優(yōu)惠券定向投放是高影響力問(wèn)題，行為和情境信號(hào)至關(guān)重要，而基于視覺(jué)目錄的產(chǎn)品推薦從將圖像嵌入與交互數(shù)據(jù)融合中受益匪淺。在食品生產(chǎn)中，保質(zhì)期估算需要將儲(chǔ)存條件與微生物生長(zhǎng)動(dòng)力學(xué)整合，而視覺(jué)質(zhì)量控制現(xiàn)在在結(jié)構(gòu)化缺陷檢測(cè)任務(wù)上接近人類檢查員的準(zhǔn)確性。

數(shù)據(jù)生成過(guò)程包含四個(gè)階段。首先是領(lǐng)域研究階段，研究團(tuán)隊(duì)為每個(gè)領(lǐng)域識(shí)別數(shù)據(jù)科學(xué)提供價(jià)值的關(guān)鍵問(wèn)題、常遇到的特征和數(shù)據(jù)類型、領(lǐng)域特定工具和特征工程實(shí)踐，以及預(yù)測(cè)變量和結(jié)果之間的合理關(guān)系。這項(xiàng)研究為數(shù)據(jù)集生成奠定了真實(shí)的領(lǐng)域知識(shí)基礎(chǔ)，確保解決挑戰(zhàn)問(wèn)題反映了解決真實(shí)行業(yè)問(wèn)題的過(guò)程。

接著是數(shù)據(jù)生成階段。研究團(tuán)隊(duì)使用精心設(shè)計(jì)的數(shù)據(jù)生成過(guò)程來(lái)合成數(shù)據(jù)，該過(guò)程尊重第一階段確定的領(lǐng)域約束。重要的是，生成過(guò)程確保強(qiáng)預(yù)測(cè)性能需要領(lǐng)域特定推理，而不是純粹的通用建模流程。為實(shí)現(xiàn)這一點(diǎn)，研究團(tuán)隊(duì)將影響預(yù)測(cè)目標(biāo)的某些潛變量轉(zhuǎn)換為額外數(shù)據(jù)模態(tài)（如圖像），因此從這些模態(tài)進(jìn)行有效特征提取需要領(lǐng)域特定洞察。結(jié)果是，每個(gè)挑戰(zhàn)數(shù)據(jù)集都包含一個(gè)包含預(yù)測(cè)目標(biāo)的主要表格數(shù)據(jù)集，以及編碼互補(bǔ)信息的額外數(shù)據(jù)模態(tài)。研究團(tuán)隊(duì)反復(fù)測(cè)試基線方法（如僅將XGBoost應(yīng)用于表格數(shù)據(jù)）以驗(yàn)證它們相對(duì)于適當(dāng)利用額外模態(tài)并具有領(lǐng)域特定洞察的方法表現(xiàn)不佳。

然后是性能邊界和難度校準(zhǔn)階段。由于控制數(shù)據(jù)生成過(guò)程，研究團(tuán)隊(duì)可以通過(guò)評(píng)估在完全了解數(shù)據(jù)生成機(jī)制下可達(dá)到的分?jǐn)?shù)來(lái)確定性能的理論上界。這使得他們能夠校準(zhǔn)挑戰(zhàn)難度，并區(qū)分基本限制和參與者方法中可能存在的差距。

最后是文檔和驗(yàn)證階段。每個(gè)領(lǐng)域都包含一個(gè)description.md文件，作為解釋領(lǐng)域術(shù)語(yǔ)、數(shù)據(jù)源和背景的綜合文檔。研究團(tuán)隊(duì)驗(yàn)證領(lǐng)域?qū)＜艺J(rèn)為挑戰(zhàn)現(xiàn)實(shí)且記錄信息充分（雖然不是規(guī)定性的）以支持知情方法。最終，數(shù)據(jù)按領(lǐng)域準(zhǔn)備，意味著同一領(lǐng)域內(nèi)的所有挑戰(zhàn)都作為單一包組織在一起。

五、評(píng)估體系的科學(xué)性

為了確保不同挑戰(zhàn)和參與者之間的公平比較，研究團(tuán)隊(duì)設(shè)計(jì)了一套精密的評(píng)估框架，就像為多項(xiàng)全能比賽設(shè)計(jì)一套綜合計(jì)分系統(tǒng)。

評(píng)估主要基于留出測(cè)試數(shù)據(jù)的預(yù)測(cè)性能。每個(gè)挑戰(zhàn)都關(guān)聯(lián)一個(gè)領(lǐng)域特定的評(píng)估指標(biāo)，遵循實(shí)踐中常用的指標(biāo)。比如分類任務(wù)使用Macro-F1分?jǐn)?shù)，回歸任務(wù)使用RMSE或MAE，排序任務(wù)使用NDCG@10等。這些指標(biāo)的選擇不是隨意的，而是反映了各個(gè)領(lǐng)域中實(shí)際從業(yè)者最關(guān)心的性能維度。

為了實(shí)現(xiàn)跨具有異質(zhì)指標(biāo)和規(guī)模的挑戰(zhàn)的公平比較，AgentDS采用了基于分位數(shù)的評(píng)分方法，將性能標(biāo)準(zhǔn)化為通用的0到1量表。對(duì)于每個(gè)挑戰(zhàn)，成功提交解決方案的參與者根據(jù)挑戰(zhàn)特定指標(biāo)進(jìn)行排名。假設(shè)參與者i在某個(gè)挑戰(zhàn)中的排名為ri（ri=1表示最佳性能），成功提交該挑戰(zhàn)的參與者總數(shù)為n，那么參與者i的分位數(shù)分?jǐn)?shù)計(jì)算為：qi = (n-ri)/(n-1)。

這種轉(zhuǎn)換確保頂級(jí)表現(xiàn)者獲得qi=1，最差表現(xiàn)者獲得qi=1/(n-1)>0，中間排名線性插值。未成功提交挑戰(zhàn)的參與者該挑戰(zhàn)得分為0，確保不參與總是導(dǎo)致最低可能分?jǐn)?shù)。這種設(shè)計(jì)鼓勵(lì)參與者至少嘗試每個(gè)挑戰(zhàn)，而不是選擇性地只做有把握的任務(wù)。

在分?jǐn)?shù)聚合方面，每個(gè)領(lǐng)域包含兩到三個(gè)挑戰(zhàn)。參與者的領(lǐng)域分?jǐn)?shù)是他們?cè)谠擃I(lǐng)域所有挑戰(zhàn)上的分位數(shù)分?jǐn)?shù)的算術(shù)平均值。然后將總體分?jǐn)?shù)定義為六個(gè)領(lǐng)域分?jǐn)?shù)的平均值，產(chǎn)生跨領(lǐng)域數(shù)據(jù)科學(xué)能力的單一匯總度量。這種層次聚合（挑戰(zhàn)→領(lǐng)域→總體）確保每個(gè)挑戰(zhàn)對(duì)最終排名貢獻(xiàn)相等。

如果兩名參與者獲得相同的總體分?jǐn)?shù)，會(huì)使用效率指標(biāo)打破平局：提交次數(shù)較少的參與者排名較高，如果平局仍然存在，最終提交較早的參與者排名較高。這種設(shè)計(jì)鼓勵(lì)參與者thoughtful地使用他們的提交機(jī)會(huì)，而不是簡(jiǎn)單地通過(guò)大量試驗(yàn)來(lái)尋找最佳解決方案。

六、實(shí)際競(jìng)賽的組織與參與

AgentDS競(jìng)賽的實(shí)際運(yùn)行就像一場(chǎng)精心組織的馬拉松比賽，既要確保公平性，又要盡可能接近真實(shí)的工作環(huán)境。

競(jìng)賽為期十天，從2025年10月18日持續(xù)到10月27日。這個(gè)時(shí)間長(zhǎng)度的選擇很有講究：足夠長(zhǎng)以允許深思熟慮的方法開(kāi)發(fā)和多次迭代，但又不會(huì)太長(zhǎng)導(dǎo)致參與者失去興趣或面臨過(guò)度的時(shí)間壓力。參與者被允許組成最多四人的團(tuán)隊(duì)，這反映了實(shí)際數(shù)據(jù)科學(xué)項(xiàng)目中常見(jiàn)的小團(tuán)隊(duì)協(xié)作模式。

競(jìng)賽收到了超過(guò)400份注冊(cè)，最終有29支團(tuán)隊(duì)共80名參與者成功提交了解決方案。在競(jìng)賽期間，每個(gè)團(tuán)隊(duì)每個(gè)挑戰(zhàn)最多允許100次提交。這個(gè)限制旨在平衡探索自由和防止過(guò)度擬合：參與者有足夠的機(jī)會(huì)測(cè)試不同方法，但不能無(wú)限制地調(diào)優(yōu)。

競(jìng)賽結(jié)束后，研究團(tuán)隊(duì)從參與團(tuán)隊(duì)收集了代碼和報(bào)告，以驗(yàn)證可重現(xiàn)性并進(jìn)行進(jìn)一步分析。這個(gè)步驟至關(guān)重要，因?yàn)樗粌H確保了結(jié)果的可信度，還為理解不同方法的工作機(jī)制提供了寶貴材料。

在AI基線的設(shè)計(jì)上，研究團(tuán)隊(duì)創(chuàng)建了兩個(gè)代表不同自主程度水平的AI基線：直接提示基線和智能體編程基線。第一個(gè)基線使用GPT-4o，通過(guò)ChatGPT界面在直接提示設(shè)置中訪問(wèn)。對(duì)于每個(gè)挑戰(zhàn)，模型被提供包含表格數(shù)據(jù)集、額外模態(tài)預(yù)覽樣本和描述文件的挑戰(zhàn)目錄。模型被提示生成端到端Python代碼，加載訓(xùn)練數(shù)據(jù)、訓(xùn)練預(yù)測(cè)模型、為測(cè)試集生成預(yù)測(cè)并輸出有效的提交文件。生成的代碼然后被執(zhí)行以產(chǎn)生提交，該提交通過(guò)AgentDS評(píng)估API上傳以獲得相應(yīng)分?jǐn)?shù)。在這個(gè)基線中，整個(gè)解決方案在與LLM的單次直接提示交互中生成。

第二個(gè)基線使用Claude Code CLI，采用claude-sonnet-4.5模型，在非交互式自主模式下運(yùn)行。對(duì)于每個(gè)挑戰(zhàn)，智能體可以訪問(wèn)包含訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù)和描述文件的挑戰(zhàn)目錄。智能體被指示生成并提交有效的提交文件。與直接提示基線不同，Claude Code可以通過(guò)在運(yùn)行期間編寫(xiě)和執(zhí)行代碼來(lái)迭代改進(jìn)其方法。每個(gè)挑戰(zhàn)分配固定的10分鐘時(shí)間預(yù)算。同樣，執(zhí)行期間不發(fā)生人類干預(yù)，整個(gè)建模和提交過(guò)程由智能體自主執(zhí)行。

七、研究發(fā)現(xiàn)的深層含義

通過(guò)AgentDS基準(zhǔn)測(cè)試和競(jìng)賽，研究團(tuán)隊(duì)得出了三個(gè)核心發(fā)現(xiàn)，這些發(fā)現(xiàn)對(duì)理解AI在數(shù)據(jù)科學(xué)中的角色具有深遠(yuǎn)意義。

首先，智能體AI在領(lǐng)域特定推理方面面臨困難。盡管在代碼生成和數(shù)據(jù)操作方面表現(xiàn)流利，智能體AI在領(lǐng)域特定數(shù)據(jù)科學(xué)任務(wù)上持續(xù)表現(xiàn)不佳。幾種失效模式顯現(xiàn)出來(lái)：無(wú)法利用多模態(tài)信號(hào)，在涉及圖像的挑戰(zhàn)中，AI智能體無(wú)法提取或適當(dāng)利用視覺(jué)特征，而人類數(shù)據(jù)科學(xué)家相比之下能夠識(shí)別基于圖像的信號(hào)何時(shí)重要并采用領(lǐng)域特定計(jì)算機(jī)視覺(jué)技術(shù)。過(guò)度依賴通用流程，AI傾向于默認(rèn)熟悉模式：加載數(shù)據(jù)，應(yīng)用標(biāo)準(zhǔn)預(yù)處理，使用梯度提升模型或隨機(jī)森林進(jìn)行訓(xùn)練。雖然這種基線方法可以產(chǎn)生可執(zhí)行流程并對(duì)簡(jiǎn)單任務(wù)效果合理，但當(dāng)領(lǐng)域特定洞察至關(guān)重要時(shí)表現(xiàn)不佳，正如AgentDS挑戰(zhàn)中的情況。

完全自主智能體的限制也很明顯。完全自主的智能體方法對(duì)復(fù)雜領(lǐng)域特定數(shù)據(jù)科學(xué)任務(wù)仍然無(wú)效。AgentDS中的幾個(gè)參與團(tuán)隊(duì)最初嘗試了完全自動(dòng)化的智能體框架，但后來(lái)放棄了它們，轉(zhuǎn)而采用交互式人機(jī)協(xié)作。一個(gè)團(tuán)隊(duì)報(bào)告說(shuō)，使用多輪工具調(diào)用和多智能體編排的自主智能體的早期嘗試需要大量提示工程并產(chǎn)生顯著API成本，使其難以維持。他們最終轉(zhuǎn)向交互式編程智能體，其中人類引導(dǎo)問(wèn)題解決過(guò)程而AI執(zhí)行編程任務(wù)并探索想法。這種轉(zhuǎn)變提高了實(shí)際效率和解決方案質(zhì)量。這些經(jīng)驗(yàn)表明當(dāng)前智能體系統(tǒng)更適合用作協(xié)作工具而非人類數(shù)據(jù)科學(xué)家的完全自主替代品。

其次，人類專業(yè)知識(shí)仍然至關(guān)重要。來(lái)自競(jìng)賽的參與者報(bào)告揭示了一致模式：AI智能體加速了實(shí)施，但決定性能的決策是由人類做出的。報(bào)告突出了人類專業(yè)知識(shí)貢獻(xiàn)自主智能體無(wú)法復(fù)制的價(jià)值的四種具體機(jī)制。

人類專業(yè)知識(shí)提供無(wú)法從數(shù)據(jù)中揭示的編碼領(lǐng)域知識(shí)。參與者經(jīng)常構(gòu)建需要領(lǐng)域?qū)I(yè)知識(shí)而非僅從數(shù)據(jù)分布中可觀察模式的特征。在醫(yī)療保健領(lǐng)域，幾名參與者通過(guò)將生命體征與醫(yī)學(xué)定義的正常范圍進(jìn)行比較并工程化捕獲穩(wěn)定性、波動(dòng)性和恢復(fù)趨勢(shì)隨時(shí)間變化的指標(biāo)來(lái)導(dǎo)出特征。這些特征反映了無(wú)法直接從數(shù)據(jù)本身推斷的臨床協(xié)議。類似模式出現(xiàn)在其他領(lǐng)域：一些參與者納入了領(lǐng)域特定業(yè)務(wù)規(guī)則，如信用風(fēng)險(xiǎn)閾值和查詢計(jì)數(shù)條件，這些改善了模型性能，超越了標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)流程單獨(dú)能實(shí)現(xiàn)的效果。

第三，人機(jī)協(xié)作優(yōu)于單獨(dú)的任一方。AgentDS競(jìng)賽中的高性能方法有效結(jié)合了人類戰(zhàn)略判斷與AI計(jì)算支持。這種協(xié)作采取幾種形式：AI用于加速，人類用于方向，成功方法使用AI智能體處理常規(guī)任務(wù)，如數(shù)據(jù)加載、初始探索性分析、樣板代碼生成，而人類保持對(duì)戰(zhàn)略決策的控制：工程化哪些特征、比較哪些模型、如何解釋結(jié)果。這種分工利用了各方的優(yōu)勢(shì)。

迭代人機(jī)反饋循環(huán)也很重要。不是將AI視為完全自主的，有效協(xié)作涉及緊密反饋循環(huán)：人類提出方法，AI快速實(shí)施，人類評(píng)估結(jié)果并完善假設(shè)。重要的是，這些循環(huán)始終由人類發(fā)起。參與者描述了人類判斷結(jié)果不滿意、診斷可能原因并向AI制定下一指令的工作流程。智能體加速迭代，但每個(gè)周期的方向由人類推理確定。

互補(bǔ)性而非替代性是關(guān)鍵。人機(jī)團(tuán)隊(duì)通過(guò)互補(bǔ)性表現(xiàn)出色：人類提供領(lǐng)域基礎(chǔ)、因果推理和錯(cuò)誤糾正，AI提供計(jì)算能力、快速原型制作和詳盡搜索。兩者都不能單獨(dú)匹配其組合有效性。

這些發(fā)現(xiàn)與人機(jī)協(xié)作方面日益增長(zhǎng)的研究體系產(chǎn)生共鳴。核心洞察是協(xié)作質(zhì)量，即人類判斷和AI能力有效集成的程度，與任一方單獨(dú)的能力同樣重要。當(dāng)人機(jī)協(xié)作經(jīng)過(guò)深思熟慮設(shè)計(jì)時(shí)，由此產(chǎn)生的伙伴關(guān)系可以超越人類或AI單獨(dú)行動(dòng)的表現(xiàn)。

八、研究局限性與未來(lái)展望

研究團(tuán)隊(duì)對(duì)自己工作的局限性保持著清醒的認(rèn)識(shí)，這種坦誠(chéng)的態(tài)度實(shí)際上增強(qiáng)了研究的可信度。

首先是合成數(shù)據(jù)的限制。雖然數(shù)據(jù)生成過(guò)程反映真實(shí)世界關(guān)系，但它無(wú)法捕獲真正行業(yè)數(shù)據(jù)集的全部混亂性、模糊性和噪聲。真實(shí)世界的數(shù)據(jù)往往包含意想不到的異常值、不一致的數(shù)據(jù)錄入、系統(tǒng)性偏差等問(wèn)題，這些都會(huì)影響分析策略。未來(lái)迭代可能會(huì)在可行時(shí)納入真實(shí)（匿名化）數(shù)據(jù)集。

參與池的限制也是一個(gè)考慮因素。雖然首屆競(jìng)賽吸引了有價(jià)值的參與，但更大更多樣化的參與將加強(qiáng)發(fā)現(xiàn)。研究團(tuán)隊(duì)計(jì)劃在未來(lái)版本中擴(kuò)大外展范圍，吸引更多來(lái)自不同背景和經(jīng)驗(yàn)水平的參與者。

領(lǐng)域范圍的限制同樣存在。六個(gè)領(lǐng)域雖然多樣化，但并未窮盡應(yīng)用數(shù)據(jù)科學(xué)的景觀。未來(lái)工作可以擴(kuò)展到其他領(lǐng)域（如能源或金融的其他領(lǐng)域）以測(cè)試發(fā)現(xiàn)的泛化性。

AI能力的快速發(fā)展也是需要考慮的因素。AI系統(tǒng)改進(jìn)迅速，當(dāng)前競(jìng)賽的發(fā)現(xiàn)可能不反映未來(lái)能力。AgentDS被設(shè)計(jì)為持續(xù)基準(zhǔn)測(cè)試，研究團(tuán)隊(duì)將繼續(xù)跟蹤智能體系統(tǒng)進(jìn)步時(shí)的性能變化。

協(xié)作的觀察性分析是另一個(gè)限制。對(duì)人機(jī)協(xié)作的分析依賴參與者報(bào)告、代碼提交和工作流程的定性檢查。雖然這些來(lái)源為團(tuán)隊(duì)如何與AI工具互動(dòng)提供了豐富洞察，但競(jìng)賽設(shè)置不允許對(duì)協(xié)作策略進(jìn)行受控實(shí)驗(yàn)。未來(lái)工作可以設(shè)計(jì)受控研究，系統(tǒng)性地改變自主程度、提示策略或人類監(jiān)督以量化哪些協(xié)作模式產(chǎn)生最佳結(jié)果。

盡管存在這些限制，AgentDS為研究領(lǐng)域特定數(shù)據(jù)科學(xué)在現(xiàn)實(shí)條件下提供了寶貴的起點(diǎn)。基準(zhǔn)測(cè)試設(shè)計(jì)為持續(xù)評(píng)估，將隨著AI能力發(fā)展和更多研究團(tuán)隊(duì)貢獻(xiàn)見(jiàn)解而發(fā)展。

研究團(tuán)隊(duì)已經(jīng)為未來(lái)工作規(guī)劃了幾個(gè)方向。首先是擴(kuò)展基準(zhǔn)測(cè)試的規(guī)模和范圍，包括更多領(lǐng)域、更復(fù)雜的任務(wù)和更大的參與者群體。其次是深入研究最有效的人機(jī)協(xié)作模式，通過(guò)控制實(shí)驗(yàn)確定最佳協(xié)作策略。第三是開(kāi)發(fā)更先進(jìn)的評(píng)估指標(biāo)，不僅評(píng)估最終性能，還評(píng)估解決方案的可解釋性、魯棒性和實(shí)用性。

九、對(duì)數(shù)據(jù)科學(xué)未來(lái)的啟示

AgentDS的研究結(jié)果對(duì)數(shù)據(jù)科學(xué)的未來(lái)發(fā)展具有重要啟示意義，這些啟示遠(yuǎn)超出了學(xué)術(shù)研究的范疇，直接影響著行業(yè)實(shí)踐和技術(shù)發(fā)展方向。

首先，這項(xiàng)研究挑戰(zhàn)了AI將很快實(shí)現(xiàn)完全自主數(shù)據(jù)科學(xué)的假設(shè)。雖然AI在特定任務(wù)上表現(xiàn)出色，但在需要深度領(lǐng)域理解的復(fù)雜問(wèn)題上，仍然需要人類的指導(dǎo)和監(jiān)督。這并不意味著AI技術(shù)發(fā)展遇到了瓶頸，而是提示我們需要重新思考AI在數(shù)據(jù)科學(xué)中的角色定位。

未來(lái)的發(fā)展方向可能不是創(chuàng)造能夠完全取代人類數(shù)據(jù)科學(xué)家的AI系統(tǒng)，而是開(kāi)發(fā)能夠更好地支持人類推理、領(lǐng)域知識(shí)整合和迭代問(wèn)題解決的AI工具。這種轉(zhuǎn)變要求我們不僅改進(jìn)模型能力，還要設(shè)計(jì)能夠增強(qiáng)而非替代人類專業(yè)知識(shí)的AI系統(tǒng)。

對(duì)于數(shù)據(jù)科學(xué)從業(yè)者來(lái)說(shuō)，這些發(fā)現(xiàn)提供了實(shí)用的指導(dǎo)。成功的數(shù)據(jù)科學(xué)工作將越來(lái)越依賴于有效整合AI工具的能力，同時(shí)保持對(duì)領(lǐng)域知識(shí)和批判性思維的重視。從業(yè)者需要學(xué)會(huì)如何與AI協(xié)作，而不是簡(jiǎn)單地依賴AI或完全忽視AI的潛力。

對(duì)于組織和企業(yè)來(lái)說(shuō)，這項(xiàng)研究強(qiáng)調(diào)了在數(shù)據(jù)科學(xué)團(tuán)隊(duì)中保持人類專業(yè)知識(shí)的重要性。雖然AI可以大大提高效率和生產(chǎn)力，但關(guān)鍵決策仍然需要人類的判斷和領(lǐng)域理解。投資于員工的領(lǐng)域知識(shí)培訓(xùn)和AI工具使用技能，可能比簡(jiǎn)單地采購(gòu)更先進(jìn)的AI系統(tǒng)更有價(jià)值。

對(duì)于AI研究和開(kāi)發(fā)社區(qū)來(lái)說(shuō)，AgentDS提供了一個(gè)寶貴的基準(zhǔn)測(cè)試平臺(tái)，可以用來(lái)評(píng)估未來(lái)AI系統(tǒng)在實(shí)際應(yīng)用場(chǎng)景中的表現(xiàn)。隨著AI技術(shù)的不斷發(fā)展，持續(xù)使用這樣的基準(zhǔn)測(cè)試來(lái)跟蹤進(jìn)展和識(shí)別改進(jìn)方向?qū)⒆兊迷絹?lái)越重要。

說(shuō)到底，AgentDS的研究揭示了一個(gè)重要真相：在可預(yù)見(jiàn)的未來(lái)，最有效的數(shù)據(jù)科學(xué)方法將是人類智慧與人工智能的深度融合。人類帶來(lái)的領(lǐng)域洞察、創(chuàng)造性思維和判斷能力，與AI提供的計(jì)算能力、快速實(shí)驗(yàn)和模式識(shí)別能力相結(jié)合，形成了一種強(qiáng)大的協(xié)作模式。

這種協(xié)作并非簡(jiǎn)單的分工，而是一種動(dòng)態(tài)的、迭代的伙伴關(guān)系。在這種關(guān)系中，人類和AI相互學(xué)習(xí)、相互增強(qiáng)，共同解決那些任何一方都無(wú)法獨(dú)立處理的復(fù)雜問(wèn)題。這或許就是數(shù)據(jù)科學(xué)乃至更廣泛的AI應(yīng)用領(lǐng)域的未來(lái)：不是人類與機(jī)器的對(duì)抗或替代，而是兩者的深度協(xié)作與融合。

對(duì)于那些擔(dān)心被AI取代的數(shù)據(jù)科學(xué)從業(yè)者來(lái)說(shuō)，這項(xiàng)研究提供了一定的安慰，但同時(shí)也提出了新的要求。未來(lái)的數(shù)據(jù)科學(xué)家不僅需要掌握傳統(tǒng)的統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)技能，還需要學(xué)會(huì)如何有效地與AI工具協(xié)作，如何在AI提供的眾多選擇中做出明智判斷，如何將領(lǐng)域知識(shí)有效地傳達(dá)給AI系統(tǒng)。

對(duì)于AI技術(shù)的發(fā)展來(lái)說(shuō)，這項(xiàng)研究指出了一個(gè)重要的方向：不是追求完全自主的AI系統(tǒng)，而是開(kāi)發(fā)更好的協(xié)作AI。這類AI系統(tǒng)應(yīng)該能夠理解人類意圖，響應(yīng)人類指導(dǎo)，并在人類監(jiān)督下執(zhí)行復(fù)雜任務(wù)。它們應(yīng)該是增強(qiáng)人類能力的工具，而不是替代人類的競(jìng)爭(zhēng)者。

最終，AgentDS的研究成果提醒我們，技術(shù)進(jìn)步的真正價(jià)值不在于創(chuàng)造能夠完全獨(dú)立工作的機(jī)器，而在于建立能夠放大人類智慧和能力的系統(tǒng)。在數(shù)據(jù)科學(xué)這個(gè)日益重要的領(lǐng)域中，這種人機(jī)協(xié)作的模式可能將成為未來(lái)發(fā)展的主流方向。有興趣深入了解這項(xiàng)研究細(xì)節(jié)的讀者，可以通過(guò)arXiv預(yù)印本平臺(tái)查詢論文編號(hào)arXiv:2603.19005v1獲取完整的研究報(bào)告。

Q&A

Q1：AgentDS基準(zhǔn)測(cè)試是什么？

A：AgentDS是明尼蘇達(dá)大學(xué)開(kāi)發(fā)的專門(mén)評(píng)估AI智能體在專業(yè)數(shù)據(jù)科學(xué)任務(wù)中表現(xiàn)的測(cè)試平臺(tái)。它包含17個(gè)來(lái)自六個(gè)不同行業(yè)的挑戰(zhàn)任務(wù)，這些任務(wù)都需要專業(yè)領(lǐng)域知識(shí)才能取得好成績(jī)，單純使用通用機(jī)器學(xué)習(xí)方法很難獲得優(yōu)秀結(jié)果。

Q2：AI數(shù)據(jù)科學(xué)家能完全取代人類專家嗎？

A：目前還不能。研究發(fā)現(xiàn)，即使是最先進(jìn)的AI系統(tǒng)在需要專業(yè)領(lǐng)域知識(shí)的數(shù)據(jù)科學(xué)任務(wù)中表現(xiàn)也不理想，往往排名在參賽人類團(tuán)隊(duì)的中下游。AI在處理多模態(tài)數(shù)據(jù)和進(jìn)行領(lǐng)域特定推理方面仍有明顯短板。

Q3：什么樣的人機(jī)協(xié)作模式效果最好？

A：最成功的模式是人類負(fù)責(zé)戰(zhàn)略決策和問(wèn)題診斷，AI負(fù)責(zé)執(zhí)行和計(jì)算密集型任務(wù)。具體來(lái)說(shuō)，人類確定分析方向、設(shè)計(jì)特征、診斷問(wèn)題，然后指導(dǎo)AI快速實(shí)現(xiàn)和測(cè)試這些想法，形成一個(gè)人類主導(dǎo)的迭代反饋循環(huán)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.