![]()
這項(xiàng)由明尼蘇達(dá)大學(xué)統(tǒng)計(jì)學(xué)院、電氣與計(jì)算機(jī)工程系等多個(gè)院系聯(lián)合開(kāi)展的突破性研究,于2026年3月發(fā)表在arXiv預(yù)印本平臺(tái)上(論文編號(hào):arXiv:2603.19005v1)。研究團(tuán)隊(duì)通過(guò)創(chuàng)建AgentDS基準(zhǔn)測(cè)試平臺(tái),首次系統(tǒng)性地評(píng)估了AI智能體在專業(yè)數(shù)據(jù)科學(xué)任務(wù)中的真實(shí)表現(xiàn),并與人類專家進(jìn)行了直接對(duì)比。
當(dāng)我們打開(kāi)手機(jī)購(gòu)物軟件時(shí),系統(tǒng)會(huì)精準(zhǔn)推薦我們可能喜歡的商品;當(dāng)醫(yī)生為病人制定治療方案時(shí),背后有復(fù)雜的數(shù)據(jù)分析支撐決策;當(dāng)銀行審批貸款時(shí),風(fēng)險(xiǎn)評(píng)估模型在默默工作。這些看似簡(jiǎn)單的日常場(chǎng)景,背后都隱藏著數(shù)據(jù)科學(xué)的深刻應(yīng)用。數(shù)據(jù)科學(xué)就像一位無(wú)形的顧問(wèn),將海量復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為有用的洞察,幫助各行各業(yè)做出更明智的決定。
近年來(lái),人工智能的發(fā)展可謂突飛猛進(jìn)。大語(yǔ)言模型能夠流利地編寫(xiě)代碼,智能體系統(tǒng)可以自動(dòng)執(zhí)行復(fù)雜任務(wù),有些AI甚至在知名的數(shù)據(jù)競(jìng)賽平臺(tái)Kaggle上達(dá)到了大師級(jí)水平。這些令人矚目的成就讓很多人開(kāi)始思考:AI是否已經(jīng)可以完全取代人類數(shù)據(jù)科學(xué)家了?我們是否即將迎來(lái)一個(gè)完全由AI主導(dǎo)的數(shù)據(jù)分析時(shí)代?
然而,現(xiàn)實(shí)情況可能比我們想象的更復(fù)雜。雖然AI在處理標(biāo)準(zhǔn)化任務(wù)方面表現(xiàn)出色,但真實(shí)世界的數(shù)據(jù)科學(xué)工作遠(yuǎn)比標(biāo)準(zhǔn)測(cè)試更加微妙和復(fù)雜。每個(gè)行業(yè)都有其獨(dú)特的專業(yè)知識(shí)和潛規(guī)則,需要深度的領(lǐng)域理解才能做出正確的判斷。這就像烹飪一樣,雖然AI可能知道所有的食譜和烹飪技巧,但要做出一道真正美味的地方菜,還需要對(duì)當(dāng)?shù)厝说目谖镀谩⑹巢奶匦院臀幕尘坝猩羁痰睦斫狻?/p>
為了回答這個(gè)關(guān)鍵問(wèn)題,明尼蘇達(dá)大學(xué)的研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)名為AgentDS的全新基準(zhǔn)測(cè)試平臺(tái)。這個(gè)平臺(tái)就像一個(gè)精心設(shè)計(jì)的考試系統(tǒng),不同于以往那些相對(duì)簡(jiǎn)單的測(cè)試,它專門(mén)針對(duì)需要專業(yè)領(lǐng)域知識(shí)的復(fù)雜數(shù)據(jù)科學(xué)任務(wù)進(jìn)行評(píng)估。研究團(tuán)隊(duì)從六個(gè)重要的實(shí)際應(yīng)用領(lǐng)域中精心挑選了17個(gè)挑戰(zhàn)性任務(wù),包括電商購(gòu)物、食品生產(chǎn)、醫(yī)療健康、保險(xiǎn)業(yè)務(wù)、制造業(yè)和零售銀行等。每個(gè)任務(wù)都被巧妙設(shè)計(jì),確保僅憑通用的機(jī)器學(xué)習(xí)方法難以取得優(yōu)秀成績(jī),必須結(jié)合特定領(lǐng)域的專業(yè)知識(shí)才能獲得突破。
更有趣的是,研究團(tuán)隊(duì)還組織了一場(chǎng)為期十天的真實(shí)競(jìng)賽,吸引了29支隊(duì)伍共80名參與者。這些參與者可以自由使用任何AI工具,讓研究人員能夠觀察在真實(shí)條件下人類與AI如何協(xié)作解決復(fù)雜問(wèn)題。同時(shí),研究團(tuán)隊(duì)還設(shè)置了兩個(gè)純AI基線系統(tǒng)作為對(duì)照:一個(gè)是直接使用GPT-4o的簡(jiǎn)單提示系統(tǒng),另一個(gè)是使用Claude Code的更高級(jí)智能體系統(tǒng)。
一、AI智能體在專業(yè)領(lǐng)域的表現(xiàn)令人意外
當(dāng)研究結(jié)果公布時(shí),許多人感到意外。那些在一般任務(wù)中表現(xiàn)出色的AI系統(tǒng),在面對(duì)需要專業(yè)領(lǐng)域知識(shí)的數(shù)據(jù)科學(xué)任務(wù)時(shí),表現(xiàn)卻不盡如人意。
直接使用GPT-4o的基線系統(tǒng)獲得了0.143的總體量化得分,在29支參賽隊(duì)伍中排名第17位,甚至低于參賽者的中位數(shù)表現(xiàn)0.156。這就好比一個(gè)平時(shí)考試成績(jī)不錯(cuò)的學(xué)生,在面對(duì)專業(yè)性很強(qiáng)的職業(yè)技能考試時(shí)突然變得力不從心。相比之下,使用Claude Code的智能體系統(tǒng)表現(xiàn)要好得多,獲得了0.458的得分,排名第10位,但仍然遠(yuǎn)未達(dá)到頂尖人類專家的水平。
更細(xì)致的分析揭示了AI系統(tǒng)的具體短板。在不同領(lǐng)域中,GPT-4o的表現(xiàn)極不穩(wěn)定,在零售銀行領(lǐng)域得分為0,在電商領(lǐng)域僅得0.021分,這樣的表現(xiàn)確實(shí)令人擔(dān)憂。Claude Code雖然在所有領(lǐng)域都有所改善,在制造業(yè)、食品生產(chǎn)和零售銀行領(lǐng)域分別取得了0.573、0.532和0.553的相對(duì)較好成績(jī),但在每個(gè)領(lǐng)域仍然明顯落后于表現(xiàn)最優(yōu)秀的人類團(tuán)隊(duì)。
研究人員深入分析了AI系統(tǒng)失敗的具體原因,發(fā)現(xiàn)了幾個(gè)關(guān)鍵問(wèn)題。首先是多模態(tài)信號(hào)處理能力的不足。在現(xiàn)實(shí)的數(shù)據(jù)科學(xué)項(xiàng)目中,數(shù)據(jù)往往不僅僅是簡(jiǎn)單的表格,還包括圖片、文檔、音頻等多種形式。比如在保險(xiǎn)理賠中,可能需要分析事故現(xiàn)場(chǎng)照片;在食品質(zhì)量控制中,需要檢查產(chǎn)品外觀圖像;在電商推薦中,需要理解產(chǎn)品圖片特征。然而,AI系統(tǒng)在這些涉及圖像分析的任務(wù)中表現(xiàn)尤其糟糕,往往無(wú)法有效提取或利用視覺(jué)特征,而人類數(shù)據(jù)科學(xué)家卻能敏銳地意識(shí)到什么時(shí)候圖像信息是關(guān)鍵的,并采用合適的計(jì)算機(jī)視覺(jué)技術(shù)來(lái)處理。
其次是對(duì)通用流程的過(guò)度依賴。AI系統(tǒng)傾向于使用一套標(biāo)準(zhǔn)化的處理流程:加載數(shù)據(jù)、進(jìn)行標(biāo)準(zhǔn)預(yù)處理、然后訓(xùn)練梯度提升模型或隨機(jī)森林。這種方法就像按照固定食譜做菜,對(duì)于簡(jiǎn)單任務(wù)確實(shí)有效,但當(dāng)面對(duì)需要?jiǎng)?chuàng)新思維和專業(yè)判斷的復(fù)雜問(wèn)題時(shí),就顯得力不從心了。真正的數(shù)據(jù)科學(xué)工作往往需要根據(jù)具體問(wèn)題和領(lǐng)域特點(diǎn)來(lái)設(shè)計(jì)獨(dú)特的解決方案,而不是套用標(biāo)準(zhǔn)模板。
第三個(gè)問(wèn)題是完全自主智能體的局限性。研究中一個(gè)有趣的發(fā)現(xiàn)是,一些參賽團(tuán)隊(duì)最初嘗試使用完全自主的多智能體框架,希望AI能夠自動(dòng)完成整個(gè)分析流程。然而,這些團(tuán)隊(duì)后來(lái)都放棄了這種方法,轉(zhuǎn)而采用人類引導(dǎo)的交互式編程助手。原因很簡(jiǎn)單:完全自主的系統(tǒng)需要大量的提示工程調(diào)試,成本高昂且效果有限,而人類引導(dǎo)的方式既提高了效率,也顯著改善了解決方案的質(zhì)量。這表明,至少在目前的技術(shù)水平下,AI更適合作為協(xié)作工具而非完全獨(dú)立的替代品。
二、人類專業(yè)知識(shí)的不可替代價(jià)值
在整個(gè)競(jìng)賽過(guò)程中,研究人員收集了參賽者提交的代碼和報(bào)告,通過(guò)深入分析發(fā)現(xiàn),人類專家在數(shù)據(jù)科學(xué)工作中展現(xiàn)出了AI目前無(wú)法復(fù)制的幾種關(guān)鍵能力。
第一種能力是戰(zhàn)略性問(wèn)題診斷。最優(yōu)秀的參賽團(tuán)隊(duì)采用了一種明確的分工策略:人類負(fù)責(zé)診斷問(wèn)題,AI負(fù)責(zé)實(shí)施解決方案。這就像醫(yī)生看病一樣,診斷病因需要豐富的醫(yī)學(xué)知識(shí)和臨床經(jīng)驗(yàn),而具體的治療措施則可以按照標(biāo)準(zhǔn)流程執(zhí)行。一些參賽者描述了他們?nèi)绾巫R(shí)別當(dāng)前方法的結(jié)構(gòu)性問(wèn)題,比如模型校準(zhǔn)偏差、訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)之間的分布差異,或者特征交互規(guī)律的錯(cuò)誤設(shè)定。在發(fā)現(xiàn)這些問(wèn)題后,他們會(huì)制定具體的修正策略,然后指導(dǎo)AI來(lái)實(shí)現(xiàn)這些想法。這種從高層策略到具體實(shí)施的分層思考過(guò)程,是人類智慧的獨(dú)特體現(xiàn)。
第二種能力是領(lǐng)域知識(shí)的有效注入。數(shù)據(jù)本身往往無(wú)法告訴我們一切。就像閱讀一份體檢報(bào)告一樣,單純的數(shù)字可能意義有限,但結(jié)合醫(yī)學(xué)常識(shí)就能獲得有價(jià)值的洞察。參賽者們經(jīng)常構(gòu)建一些需要專業(yè)知識(shí)才能設(shè)計(jì)的特征。在醫(yī)療健康領(lǐng)域,一些團(tuán)隊(duì)將病人的生命體征與醫(yī)學(xué)上定義的正常范圍進(jìn)行對(duì)比,創(chuàng)建了捕捉生理穩(wěn)定性、波動(dòng)性和恢復(fù)趨勢(shì)的指標(biāo)。這些特征反映了臨床診療的實(shí)際流程,而這些知識(shí)是無(wú)法直接從數(shù)據(jù)分布中推斷出來(lái)的。類似地,在其他領(lǐng)域中,參賽者也運(yùn)用了信貸風(fēng)險(xiǎn)閾值、客戶咨詢次數(shù)條件等業(yè)務(wù)規(guī)則,這些規(guī)則的制定需要對(duì)相關(guān)行業(yè)有深入的理解。
第三種能力是對(duì)AI建議的批判性篩選。一個(gè)意想不到的發(fā)現(xiàn)是,那些無(wú)條件接受AI生成方案的團(tuán)隊(duì),表現(xiàn)反而不如預(yù)期。多個(gè)團(tuán)隊(duì)報(bào)告說(shuō),不同的前沿AI模型經(jīng)常提出過(guò)度復(fù)雜的特征工程流程,但當(dāng)他們實(shí)際驗(yàn)證時(shí),發(fā)現(xiàn)這些方案往往會(huì)降低模型的驗(yàn)證分?jǐn)?shù)。成功的團(tuán)隊(duì)學(xué)會(huì)了先獨(dú)立思考問(wèn)題,形成自己的假設(shè),然后再使用AI來(lái)實(shí)現(xiàn)具體方案。這種做法就像請(qǐng)教專家意見(jiàn)時(shí)仍要保持獨(dú)立判斷一樣。另一個(gè)團(tuán)隊(duì)在嘗試了所有17個(gè)挑戰(zhàn)后得出結(jié)論:基于領(lǐng)域知識(shí)的特征工程始終優(yōu)于盲目的自動(dòng)化處理,沒(méi)有任何AI生成的通用模板能夠在不經(jīng)過(guò)人類調(diào)整的情況下適用于所有任務(wù)。
第四種能力是超越驗(yàn)證分?jǐn)?shù)的綜合判斷。人類參賽者經(jīng)常做出一些看似"不理性"的決定:他們有時(shí)會(huì)選擇驗(yàn)證分?jǐn)?shù)略低的模型,因?yàn)樗麄兣袛囹?yàn)證分?jǐn)?shù)和測(cè)試分?jǐn)?shù)之間的差異暗示了潛在的過(guò)擬合風(fēng)險(xiǎn)。這種判斷能力體現(xiàn)了對(duì)泛化風(fēng)險(xiǎn)的深刻理解,這是單純的分?jǐn)?shù)優(yōu)化無(wú)法捕捉的。此外,參賽者在使用AI工具時(shí)也表現(xiàn)出了謹(jǐn)慎的態(tài)度:他們不是將所有控制權(quán)交給自主智能體,而是主要將大語(yǔ)言模型用作調(diào)試、解釋和頭腦風(fēng)暴的助手。這種工作流程反映了在充滿不確定性的情況下,人類如何保持最終判斷權(quán)的智慧。
這些發(fā)現(xiàn)表明,人類專業(yè)知識(shí)的價(jià)值不僅僅在于速度或知識(shí)廣度,更在于提供一種與AI互補(bǔ)的思維方式:在建模失誤出現(xiàn)在數(shù)據(jù)中之前就能診斷問(wèn)題,注入訓(xùn)練分布中不存在的領(lǐng)域知識(shí),以及在評(píng)估指標(biāo)無(wú)法完全反映真實(shí)情況時(shí)保持合理的懷疑態(tài)度。
三、人機(jī)協(xié)作展現(xiàn)出最佳效果
通過(guò)對(duì)競(jìng)賽結(jié)果的深入分析,研究人員發(fā)現(xiàn)最成功的解決方案都采用了人機(jī)協(xié)作的模式,而不是完全依賴人類或完全依賴AI。這種協(xié)作模式展現(xiàn)出了超越任一方獨(dú)立工作的效果。
在成功的協(xié)作模式中,AI和人類承擔(dān)著不同但互補(bǔ)的角色。AI主要負(fù)責(zé)處理那些重復(fù)性、計(jì)算密集型的任務(wù),比如數(shù)據(jù)加載、初步的探索性分析、樣板代碼生成等。這就像一個(gè)高效的助手,能夠快速執(zhí)行指令,處理繁重的基礎(chǔ)工作。而人類則專注于那些需要?jiǎng)?chuàng)造性思維和判斷力的核心決策:選擇哪些特征進(jìn)行工程化處理,采用什么樣的模型比較策略,如何解釋分析結(jié)果等。這種分工讓每一方都能發(fā)揮自己的長(zhǎng)處。
更重要的是,最有效的協(xié)作呈現(xiàn)出一種迭代性的反饋循環(huán)模式。人類提出方法論假設(shè),AI快速實(shí)現(xiàn)并測(cè)試這些想法,然后人類評(píng)估結(jié)果并改進(jìn)策略。這個(gè)過(guò)程中,人類始終保持著主導(dǎo)地位,決定著每個(gè)迭代周期的方向。參賽者描述了這樣的工作流程:當(dāng)他們判斷當(dāng)前結(jié)果不令人滿意時(shí),會(huì)診斷可能的原因,然后向AI提出下一步的改進(jìn)指令。AI能夠加速這個(gè)迭代過(guò)程,但每個(gè)周期的戰(zhàn)略方向都是由人類的推理能力確定的。
這種協(xié)作模式的成功,還體現(xiàn)在互補(bǔ)性而非替代性上。人類和AI各自貢獻(xiàn)著對(duì)方缺乏的能力:人類提供領(lǐng)域背景知識(shí)、因果推理能力和錯(cuò)誤識(shí)別直覺(jué),而AI提供計(jì)算能力、快速原型開(kāi)發(fā)和詳盡的搜索能力。兩者結(jié)合時(shí),產(chǎn)生的效果超過(guò)了任何一方單獨(dú)工作的結(jié)果。這種現(xiàn)象在越來(lái)越多的人工智能應(yīng)用領(lǐng)域中都有發(fā)現(xiàn),表明設(shè)計(jì)良好的人機(jī)協(xié)作系統(tǒng)可能是未來(lái)的發(fā)展方向。
研究結(jié)果與其他人機(jī)協(xié)作研究的發(fā)現(xiàn)產(chǎn)生了共鳴。核心觀點(diǎn)是協(xié)作質(zhì)量,也就是人類判斷和AI能力整合的有效程度,與單獨(dú)的能力水平同樣重要。當(dāng)人機(jī)協(xié)作經(jīng)過(guò)精心設(shè)計(jì)時(shí),這種伙伴關(guān)系能夠超越人類或AI獨(dú)立行動(dòng)的表現(xiàn)。
四、研究設(shè)計(jì)的精巧之處
為了確保研究結(jié)果的可信度和實(shí)用性,研究團(tuán)隊(duì)在設(shè)計(jì)AgentDS基準(zhǔn)測(cè)試時(shí)投入了大量心思,整個(gè)過(guò)程就像精心策劃一場(chǎng)既公平又具有挑戰(zhàn)性的考試。
基準(zhǔn)測(cè)試的設(shè)計(jì)遵循三個(gè)核心原則。第一個(gè)原則是領(lǐng)域特異性復(fù)雜度。研究團(tuán)隊(duì)刻意設(shè)計(jì)任務(wù),使得優(yōu)秀表現(xiàn)必須依賴領(lǐng)域?qū)I(yè)洞察。通用方法最多只能達(dá)到基線水平,要想取得有競(jìng)爭(zhēng)力的成績(jī),必須理解在每個(gè)特定環(huán)境中哪些特征是重要的,哪些處理步驟是合適的。這種設(shè)計(jì)選擇有意測(cè)試智能體是否能夠應(yīng)用真正的領(lǐng)域推理能力。
第二個(gè)原則是多模態(tài)整合。真實(shí)世界的數(shù)據(jù)科學(xué)很少只涉及單一的表格數(shù)據(jù)集。因此AgentDS不僅提供包含預(yù)測(cè)目標(biāo)的主要表格數(shù)據(jù)集,還包括額外的數(shù)據(jù)模態(tài),如圖像(產(chǎn)品照片或車(chē)輛狀況圖像)、文本(客戶評(píng)論或臨床筆記)和結(jié)構(gòu)化文件(JSON、PDF或與主數(shù)據(jù)集關(guān)聯(lián)的額外CSV文件)。這種設(shè)計(jì)引入了更貼近真實(shí)世界數(shù)據(jù)科學(xué)挑戰(zhàn)的領(lǐng)域特定復(fù)雜性。
第三個(gè)原則是現(xiàn)實(shí)世界的可信度。雖然使用的是合成數(shù)據(jù),但生成過(guò)程忠實(shí)地反映了實(shí)際行業(yè)數(shù)據(jù)中發(fā)現(xiàn)的真實(shí)關(guān)系。每個(gè)領(lǐng)域的數(shù)據(jù)集都包含了從業(yè)者會(huì)遇到的現(xiàn)實(shí)約束和相關(guān)性。研究團(tuán)隊(duì)咨詢了領(lǐng)域文獻(xiàn),包括學(xué)術(shù)論文、行業(yè)報(bào)告和從業(yè)者博客,以確保數(shù)據(jù)反映真實(shí)模式,不與既定的領(lǐng)域知識(shí)相矛盾。
在基準(zhǔn)測(cè)試的范圍選擇上,研究團(tuán)隊(duì)覆蓋了六個(gè)領(lǐng)域,每個(gè)領(lǐng)域都因其現(xiàn)實(shí)世界重要性、技術(shù)挑戰(zhàn)性和所需技能多樣性而被選中。這些領(lǐng)域涵蓋了預(yù)測(cè)建模發(fā)揮關(guān)鍵作用的行業(yè),其中領(lǐng)域知識(shí)、異構(gòu)數(shù)據(jù)模態(tài)和業(yè)務(wù)特定評(píng)估標(biāo)準(zhǔn)共同影響建模策略。
比如在電商領(lǐng)域,需求預(yù)測(cè)和優(yōu)惠券定向投放是高影響力問(wèn)題,行為和情境信號(hào)至關(guān)重要,而基于視覺(jué)目錄的產(chǎn)品推薦從將圖像嵌入與交互數(shù)據(jù)融合中受益匪淺。在食品生產(chǎn)中,保質(zhì)期估算需要將儲(chǔ)存條件與微生物生長(zhǎng)動(dòng)力學(xué)整合,而視覺(jué)質(zhì)量控制現(xiàn)在在結(jié)構(gòu)化缺陷檢測(cè)任務(wù)上接近人類檢查員的準(zhǔn)確性。
數(shù)據(jù)生成過(guò)程包含四個(gè)階段。首先是領(lǐng)域研究階段,研究團(tuán)隊(duì)為每個(gè)領(lǐng)域識(shí)別數(shù)據(jù)科學(xué)提供價(jià)值的關(guān)鍵問(wèn)題、常遇到的特征和數(shù)據(jù)類型、領(lǐng)域特定工具和特征工程實(shí)踐,以及預(yù)測(cè)變量和結(jié)果之間的合理關(guān)系。這項(xiàng)研究為數(shù)據(jù)集生成奠定了真實(shí)的領(lǐng)域知識(shí)基礎(chǔ),確保解決挑戰(zhàn)問(wèn)題反映了解決真實(shí)行業(yè)問(wèn)題的過(guò)程。
接著是數(shù)據(jù)生成階段。研究團(tuán)隊(duì)使用精心設(shè)計(jì)的數(shù)據(jù)生成過(guò)程來(lái)合成數(shù)據(jù),該過(guò)程尊重第一階段確定的領(lǐng)域約束。重要的是,生成過(guò)程確保強(qiáng)預(yù)測(cè)性能需要領(lǐng)域特定推理,而不是純粹的通用建模流程。為實(shí)現(xiàn)這一點(diǎn),研究團(tuán)隊(duì)將影響預(yù)測(cè)目標(biāo)的某些潛變量轉(zhuǎn)換為額外數(shù)據(jù)模態(tài)(如圖像),因此從這些模態(tài)進(jìn)行有效特征提取需要領(lǐng)域特定洞察。結(jié)果是,每個(gè)挑戰(zhàn)數(shù)據(jù)集都包含一個(gè)包含預(yù)測(cè)目標(biāo)的主要表格數(shù)據(jù)集,以及編碼互補(bǔ)信息的額外數(shù)據(jù)模態(tài)。研究團(tuán)隊(duì)反復(fù)測(cè)試基線方法(如僅將XGBoost應(yīng)用于表格數(shù)據(jù))以驗(yàn)證它們相對(duì)于適當(dāng)利用額外模態(tài)并具有領(lǐng)域特定洞察的方法表現(xiàn)不佳。
然后是性能邊界和難度校準(zhǔn)階段。由于控制數(shù)據(jù)生成過(guò)程,研究團(tuán)隊(duì)可以通過(guò)評(píng)估在完全了解數(shù)據(jù)生成機(jī)制下可達(dá)到的分?jǐn)?shù)來(lái)確定性能的理論上界。這使得他們能夠校準(zhǔn)挑戰(zhàn)難度,并區(qū)分基本限制和參與者方法中可能存在的差距。
最后是文檔和驗(yàn)證階段。每個(gè)領(lǐng)域都包含一個(gè)description.md文件,作為解釋領(lǐng)域術(shù)語(yǔ)、數(shù)據(jù)源和背景的綜合文檔。研究團(tuán)隊(duì)驗(yàn)證領(lǐng)域?qū)<艺J(rèn)為挑戰(zhàn)現(xiàn)實(shí)且記錄信息充分(雖然不是規(guī)定性的)以支持知情方法。最終,數(shù)據(jù)按領(lǐng)域準(zhǔn)備,意味著同一領(lǐng)域內(nèi)的所有挑戰(zhàn)都作為單一包組織在一起。
五、評(píng)估體系的科學(xué)性
為了確保不同挑戰(zhàn)和參與者之間的公平比較,研究團(tuán)隊(duì)設(shè)計(jì)了一套精密的評(píng)估框架,就像為多項(xiàng)全能比賽設(shè)計(jì)一套綜合計(jì)分系統(tǒng)。
評(píng)估主要基于留出測(cè)試數(shù)據(jù)的預(yù)測(cè)性能。每個(gè)挑戰(zhàn)都關(guān)聯(lián)一個(gè)領(lǐng)域特定的評(píng)估指標(biāo),遵循實(shí)踐中常用的指標(biāo)。比如分類任務(wù)使用Macro-F1分?jǐn)?shù),回歸任務(wù)使用RMSE或MAE,排序任務(wù)使用NDCG@10等。這些指標(biāo)的選擇不是隨意的,而是反映了各個(gè)領(lǐng)域中實(shí)際從業(yè)者最關(guān)心的性能維度。
為了實(shí)現(xiàn)跨具有異質(zhì)指標(biāo)和規(guī)模的挑戰(zhàn)的公平比較,AgentDS采用了基于分位數(shù)的評(píng)分方法,將性能標(biāo)準(zhǔn)化為通用的0到1量表。對(duì)于每個(gè)挑戰(zhàn),成功提交解決方案的參與者根據(jù)挑戰(zhàn)特定指標(biāo)進(jìn)行排名。假設(shè)參與者i在某個(gè)挑戰(zhàn)中的排名為ri(ri=1表示最佳性能),成功提交該挑戰(zhàn)的參與者總數(shù)為n,那么參與者i的分位數(shù)分?jǐn)?shù)計(jì)算為:qi = (n-ri)/(n-1)。
這種轉(zhuǎn)換確保頂級(jí)表現(xiàn)者獲得qi=1,最差表現(xiàn)者獲得qi=1/(n-1)>0,中間排名線性插值。未成功提交挑戰(zhàn)的參與者該挑戰(zhàn)得分為0,確保不參與總是導(dǎo)致最低可能分?jǐn)?shù)。這種設(shè)計(jì)鼓勵(lì)參與者至少嘗試每個(gè)挑戰(zhàn),而不是選擇性地只做有把握的任務(wù)。
在分?jǐn)?shù)聚合方面,每個(gè)領(lǐng)域包含兩到三個(gè)挑戰(zhàn)。參與者的領(lǐng)域分?jǐn)?shù)是他們?cè)谠擃I(lǐng)域所有挑戰(zhàn)上的分位數(shù)分?jǐn)?shù)的算術(shù)平均值。然后將總體分?jǐn)?shù)定義為六個(gè)領(lǐng)域分?jǐn)?shù)的平均值,產(chǎn)生跨領(lǐng)域數(shù)據(jù)科學(xué)能力的單一匯總度量。這種層次聚合(挑戰(zhàn)→領(lǐng)域→總體)確保每個(gè)挑戰(zhàn)對(duì)最終排名貢獻(xiàn)相等。
如果兩名參與者獲得相同的總體分?jǐn)?shù),會(huì)使用效率指標(biāo)打破平局:提交次數(shù)較少的參與者排名較高,如果平局仍然存在,最終提交較早的參與者排名較高。這種設(shè)計(jì)鼓勵(lì)參與者thoughtful地使用他們的提交機(jī)會(huì),而不是簡(jiǎn)單地通過(guò)大量試驗(yàn)來(lái)尋找最佳解決方案。
六、實(shí)際競(jìng)賽的組織與參與
AgentDS競(jìng)賽的實(shí)際運(yùn)行就像一場(chǎng)精心組織的馬拉松比賽,既要確保公平性,又要盡可能接近真實(shí)的工作環(huán)境。
競(jìng)賽為期十天,從2025年10月18日持續(xù)到10月27日。這個(gè)時(shí)間長(zhǎng)度的選擇很有講究:足夠長(zhǎng)以允許深思熟慮的方法開(kāi)發(fā)和多次迭代,但又不會(huì)太長(zhǎng)導(dǎo)致參與者失去興趣或面臨過(guò)度的時(shí)間壓力。參與者被允許組成最多四人的團(tuán)隊(duì),這反映了實(shí)際數(shù)據(jù)科學(xué)項(xiàng)目中常見(jiàn)的小團(tuán)隊(duì)協(xié)作模式。
競(jìng)賽收到了超過(guò)400份注冊(cè),最終有29支團(tuán)隊(duì)共80名參與者成功提交了解決方案。在競(jìng)賽期間,每個(gè)團(tuán)隊(duì)每個(gè)挑戰(zhàn)最多允許100次提交。這個(gè)限制旨在平衡探索自由和防止過(guò)度擬合:參與者有足夠的機(jī)會(huì)測(cè)試不同方法,但不能無(wú)限制地調(diào)優(yōu)。
競(jìng)賽結(jié)束后,研究團(tuán)隊(duì)從參與團(tuán)隊(duì)收集了代碼和報(bào)告,以驗(yàn)證可重現(xiàn)性并進(jìn)行進(jìn)一步分析。這個(gè)步驟至關(guān)重要,因?yàn)樗粌H確保了結(jié)果的可信度,還為理解不同方法的工作機(jī)制提供了寶貴材料。
在AI基線的設(shè)計(jì)上,研究團(tuán)隊(duì)創(chuàng)建了兩個(gè)代表不同自主程度水平的AI基線:直接提示基線和智能體編程基線。第一個(gè)基線使用GPT-4o,通過(guò)ChatGPT界面在直接提示設(shè)置中訪問(wèn)。對(duì)于每個(gè)挑戰(zhàn),模型被提供包含表格數(shù)據(jù)集、額外模態(tài)預(yù)覽樣本和描述文件的挑戰(zhàn)目錄。模型被提示生成端到端Python代碼,加載訓(xùn)練數(shù)據(jù)、訓(xùn)練預(yù)測(cè)模型、為測(cè)試集生成預(yù)測(cè)并輸出有效的提交文件。生成的代碼然后被執(zhí)行以產(chǎn)生提交,該提交通過(guò)AgentDS評(píng)估API上傳以獲得相應(yīng)分?jǐn)?shù)。在這個(gè)基線中,整個(gè)解決方案在與LLM的單次直接提示交互中生成。
第二個(gè)基線使用Claude Code CLI,采用claude-sonnet-4.5模型,在非交互式自主模式下運(yùn)行。對(duì)于每個(gè)挑戰(zhàn),智能體可以訪問(wèn)包含訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù)和描述文件的挑戰(zhàn)目錄。智能體被指示生成并提交有效的提交文件。與直接提示基線不同,Claude Code可以通過(guò)在運(yùn)行期間編寫(xiě)和執(zhí)行代碼來(lái)迭代改進(jìn)其方法。每個(gè)挑戰(zhàn)分配固定的10分鐘時(shí)間預(yù)算。同樣,執(zhí)行期間不發(fā)生人類干預(yù),整個(gè)建模和提交過(guò)程由智能體自主執(zhí)行。
七、研究發(fā)現(xiàn)的深層含義
通過(guò)AgentDS基準(zhǔn)測(cè)試和競(jìng)賽,研究團(tuán)隊(duì)得出了三個(gè)核心發(fā)現(xiàn),這些發(fā)現(xiàn)對(duì)理解AI在數(shù)據(jù)科學(xué)中的角色具有深遠(yuǎn)意義。
首先,智能體AI在領(lǐng)域特定推理方面面臨困難。盡管在代碼生成和數(shù)據(jù)操作方面表現(xiàn)流利,智能體AI在領(lǐng)域特定數(shù)據(jù)科學(xué)任務(wù)上持續(xù)表現(xiàn)不佳。幾種失效模式顯現(xiàn)出來(lái):無(wú)法利用多模態(tài)信號(hào),在涉及圖像的挑戰(zhàn)中,AI智能體無(wú)法提取或適當(dāng)利用視覺(jué)特征,而人類數(shù)據(jù)科學(xué)家相比之下能夠識(shí)別基于圖像的信號(hào)何時(shí)重要并采用領(lǐng)域特定計(jì)算機(jī)視覺(jué)技術(shù)。過(guò)度依賴通用流程,AI傾向于默認(rèn)熟悉模式:加載數(shù)據(jù),應(yīng)用標(biāo)準(zhǔn)預(yù)處理,使用梯度提升模型或隨機(jī)森林進(jìn)行訓(xùn)練。雖然這種基線方法可以產(chǎn)生可執(zhí)行流程并對(duì)簡(jiǎn)單任務(wù)效果合理,但當(dāng)領(lǐng)域特定洞察至關(guān)重要時(shí)表現(xiàn)不佳,正如AgentDS挑戰(zhàn)中的情況。
完全自主智能體的限制也很明顯。完全自主的智能體方法對(duì)復(fù)雜領(lǐng)域特定數(shù)據(jù)科學(xué)任務(wù)仍然無(wú)效。AgentDS中的幾個(gè)參與團(tuán)隊(duì)最初嘗試了完全自動(dòng)化的智能體框架,但后來(lái)放棄了它們,轉(zhuǎn)而采用交互式人機(jī)協(xié)作。一個(gè)團(tuán)隊(duì)報(bào)告說(shuō),使用多輪工具調(diào)用和多智能體編排的自主智能體的早期嘗試需要大量提示工程并產(chǎn)生顯著API成本,使其難以維持。他們最終轉(zhuǎn)向交互式編程智能體,其中人類引導(dǎo)問(wèn)題解決過(guò)程而AI執(zhí)行編程任務(wù)并探索想法。這種轉(zhuǎn)變提高了實(shí)際效率和解決方案質(zhì)量。這些經(jīng)驗(yàn)表明當(dāng)前智能體系統(tǒng)更適合用作協(xié)作工具而非人類數(shù)據(jù)科學(xué)家的完全自主替代品。
其次,人類專業(yè)知識(shí)仍然至關(guān)重要。來(lái)自競(jìng)賽的參與者報(bào)告揭示了一致模式:AI智能體加速了實(shí)施,但決定性能的決策是由人類做出的。報(bào)告突出了人類專業(yè)知識(shí)貢獻(xiàn)自主智能體無(wú)法復(fù)制的價(jià)值的四種具體機(jī)制。
人類專業(yè)知識(shí)提供無(wú)法從數(shù)據(jù)中揭示的編碼領(lǐng)域知識(shí)。參與者經(jīng)常構(gòu)建需要領(lǐng)域?qū)I(yè)知識(shí)而非僅從數(shù)據(jù)分布中可觀察模式的特征。在醫(yī)療保健領(lǐng)域,幾名參與者通過(guò)將生命體征與醫(yī)學(xué)定義的正常范圍進(jìn)行比較并工程化捕獲穩(wěn)定性、波動(dòng)性和恢復(fù)趨勢(shì)隨時(shí)間變化的指標(biāo)來(lái)導(dǎo)出特征。這些特征反映了無(wú)法直接從數(shù)據(jù)本身推斷的臨床協(xié)議。類似模式出現(xiàn)在其他領(lǐng)域:一些參與者納入了領(lǐng)域特定業(yè)務(wù)規(guī)則,如信用風(fēng)險(xiǎn)閾值和查詢計(jì)數(shù)條件,這些改善了模型性能,超越了標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)流程單獨(dú)能實(shí)現(xiàn)的效果。
第三,人機(jī)協(xié)作優(yōu)于單獨(dú)的任一方。AgentDS競(jìng)賽中的高性能方法有效結(jié)合了人類戰(zhàn)略判斷與AI計(jì)算支持。這種協(xié)作采取幾種形式:AI用于加速,人類用于方向,成功方法使用AI智能體處理常規(guī)任務(wù),如數(shù)據(jù)加載、初始探索性分析、樣板代碼生成,而人類保持對(duì)戰(zhàn)略決策的控制:工程化哪些特征、比較哪些模型、如何解釋結(jié)果。這種分工利用了各方的優(yōu)勢(shì)。
迭代人機(jī)反饋循環(huán)也很重要。不是將AI視為完全自主的,有效協(xié)作涉及緊密反饋循環(huán):人類提出方法,AI快速實(shí)施,人類評(píng)估結(jié)果并完善假設(shè)。重要的是,這些循環(huán)始終由人類發(fā)起。參與者描述了人類判斷結(jié)果不滿意、診斷可能原因并向AI制定下一指令的工作流程。智能體加速迭代,但每個(gè)周期的方向由人類推理確定。
互補(bǔ)性而非替代性是關(guān)鍵。人機(jī)團(tuán)隊(duì)通過(guò)互補(bǔ)性表現(xiàn)出色:人類提供領(lǐng)域基礎(chǔ)、因果推理和錯(cuò)誤糾正,AI提供計(jì)算能力、快速原型制作和詳盡搜索。兩者都不能單獨(dú)匹配其組合有效性。
這些發(fā)現(xiàn)與人機(jī)協(xié)作方面日益增長(zhǎng)的研究體系產(chǎn)生共鳴。核心洞察是協(xié)作質(zhì)量,即人類判斷和AI能力有效集成的程度,與任一方單獨(dú)的能力同樣重要。當(dāng)人機(jī)協(xié)作經(jīng)過(guò)深思熟慮設(shè)計(jì)時(shí),由此產(chǎn)生的伙伴關(guān)系可以超越人類或AI單獨(dú)行動(dòng)的表現(xiàn)。
八、研究局限性與未來(lái)展望
研究團(tuán)隊(duì)對(duì)自己工作的局限性保持著清醒的認(rèn)識(shí),這種坦誠(chéng)的態(tài)度實(shí)際上增強(qiáng)了研究的可信度。
首先是合成數(shù)據(jù)的限制。雖然數(shù)據(jù)生成過(guò)程反映真實(shí)世界關(guān)系,但它無(wú)法捕獲真正行業(yè)數(shù)據(jù)集的全部混亂性、模糊性和噪聲。真實(shí)世界的數(shù)據(jù)往往包含意想不到的異常值、不一致的數(shù)據(jù)錄入、系統(tǒng)性偏差等問(wèn)題,這些都會(huì)影響分析策略。未來(lái)迭代可能會(huì)在可行時(shí)納入真實(shí)(匿名化)數(shù)據(jù)集。
參與池的限制也是一個(gè)考慮因素。雖然首屆競(jìng)賽吸引了有價(jià)值的參與,但更大更多樣化的參與將加強(qiáng)發(fā)現(xiàn)。研究團(tuán)隊(duì)計(jì)劃在未來(lái)版本中擴(kuò)大外展范圍,吸引更多來(lái)自不同背景和經(jīng)驗(yàn)水平的參與者。
領(lǐng)域范圍的限制同樣存在。六個(gè)領(lǐng)域雖然多樣化,但并未窮盡應(yīng)用數(shù)據(jù)科學(xué)的景觀。未來(lái)工作可以擴(kuò)展到其他領(lǐng)域(如能源或金融的其他領(lǐng)域)以測(cè)試發(fā)現(xiàn)的泛化性。
AI能力的快速發(fā)展也是需要考慮的因素。AI系統(tǒng)改進(jìn)迅速,當(dāng)前競(jìng)賽的發(fā)現(xiàn)可能不反映未來(lái)能力。AgentDS被設(shè)計(jì)為持續(xù)基準(zhǔn)測(cè)試,研究團(tuán)隊(duì)將繼續(xù)跟蹤智能體系統(tǒng)進(jìn)步時(shí)的性能變化。
協(xié)作的觀察性分析是另一個(gè)限制。對(duì)人機(jī)協(xié)作的分析依賴參與者報(bào)告、代碼提交和工作流程的定性檢查。雖然這些來(lái)源為團(tuán)隊(duì)如何與AI工具互動(dòng)提供了豐富洞察,但競(jìng)賽設(shè)置不允許對(duì)協(xié)作策略進(jìn)行受控實(shí)驗(yàn)。未來(lái)工作可以設(shè)計(jì)受控研究,系統(tǒng)性地改變自主程度、提示策略或人類監(jiān)督以量化哪些協(xié)作模式產(chǎn)生最佳結(jié)果。
盡管存在這些限制,AgentDS為研究領(lǐng)域特定數(shù)據(jù)科學(xué)在現(xiàn)實(shí)條件下提供了寶貴的起點(diǎn)。基準(zhǔn)測(cè)試設(shè)計(jì)為持續(xù)評(píng)估,將隨著AI能力發(fā)展和更多研究團(tuán)隊(duì)貢獻(xiàn)見(jiàn)解而發(fā)展。
研究團(tuán)隊(duì)已經(jīng)為未來(lái)工作規(guī)劃了幾個(gè)方向。首先是擴(kuò)展基準(zhǔn)測(cè)試的規(guī)模和范圍,包括更多領(lǐng)域、更復(fù)雜的任務(wù)和更大的參與者群體。其次是深入研究最有效的人機(jī)協(xié)作模式,通過(guò)控制實(shí)驗(yàn)確定最佳協(xié)作策略。第三是開(kāi)發(fā)更先進(jìn)的評(píng)估指標(biāo),不僅評(píng)估最終性能,還評(píng)估解決方案的可解釋性、魯棒性和實(shí)用性。
九、對(duì)數(shù)據(jù)科學(xué)未來(lái)的啟示
AgentDS的研究結(jié)果對(duì)數(shù)據(jù)科學(xué)的未來(lái)發(fā)展具有重要啟示意義,這些啟示遠(yuǎn)超出了學(xué)術(shù)研究的范疇,直接影響著行業(yè)實(shí)踐和技術(shù)發(fā)展方向。
首先,這項(xiàng)研究挑戰(zhàn)了AI將很快實(shí)現(xiàn)完全自主數(shù)據(jù)科學(xué)的假設(shè)。雖然AI在特定任務(wù)上表現(xiàn)出色,但在需要深度領(lǐng)域理解的復(fù)雜問(wèn)題上,仍然需要人類的指導(dǎo)和監(jiān)督。這并不意味著AI技術(shù)發(fā)展遇到了瓶頸,而是提示我們需要重新思考AI在數(shù)據(jù)科學(xué)中的角色定位。
未來(lái)的發(fā)展方向可能不是創(chuàng)造能夠完全取代人類數(shù)據(jù)科學(xué)家的AI系統(tǒng),而是開(kāi)發(fā)能夠更好地支持人類推理、領(lǐng)域知識(shí)整合和迭代問(wèn)題解決的AI工具。這種轉(zhuǎn)變要求我們不僅改進(jìn)模型能力,還要設(shè)計(jì)能夠增強(qiáng)而非替代人類專業(yè)知識(shí)的AI系統(tǒng)。
對(duì)于數(shù)據(jù)科學(xué)從業(yè)者來(lái)說(shuō),這些發(fā)現(xiàn)提供了實(shí)用的指導(dǎo)。成功的數(shù)據(jù)科學(xué)工作將越來(lái)越依賴于有效整合AI工具的能力,同時(shí)保持對(duì)領(lǐng)域知識(shí)和批判性思維的重視。從業(yè)者需要學(xué)會(huì)如何與AI協(xié)作,而不是簡(jiǎn)單地依賴AI或完全忽視AI的潛力。
對(duì)于組織和企業(yè)來(lái)說(shuō),這項(xiàng)研究強(qiáng)調(diào)了在數(shù)據(jù)科學(xué)團(tuán)隊(duì)中保持人類專業(yè)知識(shí)的重要性。雖然AI可以大大提高效率和生產(chǎn)力,但關(guān)鍵決策仍然需要人類的判斷和領(lǐng)域理解。投資于員工的領(lǐng)域知識(shí)培訓(xùn)和AI工具使用技能,可能比簡(jiǎn)單地采購(gòu)更先進(jìn)的AI系統(tǒng)更有價(jià)值。
對(duì)于AI研究和開(kāi)發(fā)社區(qū)來(lái)說(shuō),AgentDS提供了一個(gè)寶貴的基準(zhǔn)測(cè)試平臺(tái),可以用來(lái)評(píng)估未來(lái)AI系統(tǒng)在實(shí)際應(yīng)用場(chǎng)景中的表現(xiàn)。隨著AI技術(shù)的不斷發(fā)展,持續(xù)使用這樣的基準(zhǔn)測(cè)試來(lái)跟蹤進(jìn)展和識(shí)別改進(jìn)方向?qū)⒆兊迷絹?lái)越重要。
說(shuō)到底,AgentDS的研究揭示了一個(gè)重要真相:在可預(yù)見(jiàn)的未來(lái),最有效的數(shù)據(jù)科學(xué)方法將是人類智慧與人工智能的深度融合。人類帶來(lái)的領(lǐng)域洞察、創(chuàng)造性思維和判斷能力,與AI提供的計(jì)算能力、快速實(shí)驗(yàn)和模式識(shí)別能力相結(jié)合,形成了一種強(qiáng)大的協(xié)作模式。
這種協(xié)作并非簡(jiǎn)單的分工,而是一種動(dòng)態(tài)的、迭代的伙伴關(guān)系。在這種關(guān)系中,人類和AI相互學(xué)習(xí)、相互增強(qiáng),共同解決那些任何一方都無(wú)法獨(dú)立處理的復(fù)雜問(wèn)題。這或許就是數(shù)據(jù)科學(xué)乃至更廣泛的AI應(yīng)用領(lǐng)域的未來(lái):不是人類與機(jī)器的對(duì)抗或替代,而是兩者的深度協(xié)作與融合。
對(duì)于那些擔(dān)心被AI取代的數(shù)據(jù)科學(xué)從業(yè)者來(lái)說(shuō),這項(xiàng)研究提供了一定的安慰,但同時(shí)也提出了新的要求。未來(lái)的數(shù)據(jù)科學(xué)家不僅需要掌握傳統(tǒng)的統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)技能,還需要學(xué)會(huì)如何有效地與AI工具協(xié)作,如何在AI提供的眾多選擇中做出明智判斷,如何將領(lǐng)域知識(shí)有效地傳達(dá)給AI系統(tǒng)。
對(duì)于AI技術(shù)的發(fā)展來(lái)說(shuō),這項(xiàng)研究指出了一個(gè)重要的方向:不是追求完全自主的AI系統(tǒng),而是開(kāi)發(fā)更好的協(xié)作AI。這類AI系統(tǒng)應(yīng)該能夠理解人類意圖,響應(yīng)人類指導(dǎo),并在人類監(jiān)督下執(zhí)行復(fù)雜任務(wù)。它們應(yīng)該是增強(qiáng)人類能力的工具,而不是替代人類的競(jìng)爭(zhēng)者。
最終,AgentDS的研究成果提醒我們,技術(shù)進(jìn)步的真正價(jià)值不在于創(chuàng)造能夠完全獨(dú)立工作的機(jī)器,而在于建立能夠放大人類智慧和能力的系統(tǒng)。在數(shù)據(jù)科學(xué)這個(gè)日益重要的領(lǐng)域中,這種人機(jī)協(xié)作的模式可能將成為未來(lái)發(fā)展的主流方向。有興趣深入了解這項(xiàng)研究細(xì)節(jié)的讀者,可以通過(guò)arXiv預(yù)印本平臺(tái)查詢論文編號(hào)arXiv:2603.19005v1獲取完整的研究報(bào)告。
Q&A
Q1:AgentDS基準(zhǔn)測(cè)試是什么?
A:AgentDS是明尼蘇達(dá)大學(xué)開(kāi)發(fā)的專門(mén)評(píng)估AI智能體在專業(yè)數(shù)據(jù)科學(xué)任務(wù)中表現(xiàn)的測(cè)試平臺(tái)。它包含17個(gè)來(lái)自六個(gè)不同行業(yè)的挑戰(zhàn)任務(wù),這些任務(wù)都需要專業(yè)領(lǐng)域知識(shí)才能取得好成績(jī),單純使用通用機(jī)器學(xué)習(xí)方法很難獲得優(yōu)秀結(jié)果。
Q2:AI數(shù)據(jù)科學(xué)家能完全取代人類專家嗎?
A:目前還不能。研究發(fā)現(xiàn),即使是最先進(jìn)的AI系統(tǒng)在需要專業(yè)領(lǐng)域知識(shí)的數(shù)據(jù)科學(xué)任務(wù)中表現(xiàn)也不理想,往往排名在參賽人類團(tuán)隊(duì)的中下游。AI在處理多模態(tài)數(shù)據(jù)和進(jìn)行領(lǐng)域特定推理方面仍有明顯短板。
Q3:什么樣的人機(jī)協(xié)作模式效果最好?
A:最成功的模式是人類負(fù)責(zé)戰(zhàn)略決策和問(wèn)題診斷,AI負(fù)責(zé)執(zhí)行和計(jì)算密集型任務(wù)。具體來(lái)說(shuō),人類確定分析方向、設(shè)計(jì)特征、診斷問(wèn)題,然后指導(dǎo)AI快速實(shí)現(xiàn)和測(cè)試這些想法,形成一個(gè)人類主導(dǎo)的迭代反饋循環(huán)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.