337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

別再迷信AI跑分了:考試成績好,工作干不了

0
分享至


(來源:麻省理工科技評論)

幾十年來,人類評估 AI 能力的方法論,都是圍繞著“機器能否超越人類”的思路展開的。從國際象棋到高等數學,從編程到寫作,AI 模型和應用的性能都是讓它和人類的表現水準做對比來檢驗的。

這種框架很有吸引力:在有明確對錯答案的獨立問題上做 AI 與人類的比較,容易標準化、容易比較、容易優化。它能生成排行榜和新聞標題。

但問題在于:AI 被使用的方法,和 AI 被測試的方法,是兩種完全不同的體系。雖然研究人員和行業已經開始改進基準測試,從靜態測試轉向更動態的評估方法,但這些創新只解決了部分問題。因為它們仍然在脫離人類團隊和組織工作流程的條件下評估 AI 的表現,而 AI 的真實性能恰恰是在這些環境中展現的。

AI 在真空中被逐項評估,但它的實際使用場景是混亂而復雜的,通常需要與不止一個人互動。它的表現(或表現不佳)只有經過長時間使用才能顯現。這種錯位讓我們誤判了 AI 的能力,忽視了系統性風險,也對其經濟和社會后果做出了錯誤估計。

為了改變這一狀況,是時候從狹隘的評估方法轉向一種新的基準測試了,這種測試應當評估 AI 系統在更長時間維度內、在人類團隊、工作流程和組織中的實際表現。自 2022 年以來,我研究了 AI 在英國、美國和亞洲的小型企業、醫療、人道主義、非營利和高等教育機構中的實際部署情況,也深入了解了倫敦和硅谷領先的 AI 設計生態。我提出了一種不同的方法,稱之為 HAIC 基準測試——即“人類-AI 場景化評估”(Human–AI, Context-Specific Evaluation)。



當前基準測試的盲區

對政府和企業而言,AI 基準分數看起來比供應商的自我宣傳更客觀。它們是判斷一個 AI 模型或應用是否“夠格”投入實際部署的關鍵依據。想象一個 AI 模型在最前沿的基準測試上取得了亮眼的技術分數——98% 的準確率、突破性的速度、令人信服的輸出。憑借這些成績,機構可能決定采用這個模型,投入大量財務和技術資源進行采購和集成。

但一旦投入使用,基準成績和真實表現之間的差距就迅速暴露出來了。以大量通過 FDA 批準的、能比放射科專家更快更準地判讀醫學影像的 AI 模型為例。在從加州腹地到倫敦郊區的醫院放射科,我親眼看到工作人員使用排名靠前的放射科 AI 應用。他們反復需要花額外時間將 AI 的輸出結果與醫院特定的報告標準和各國不同的監管要求進行對照解讀。一個在真空中測試時看似能提升生產力的 AI 工具,在實踐中反而帶來了延誤。

用來評估醫療 AI 模型的基準測試并沒有捕捉到醫療決策的真實過程。醫院依靠的是放射科醫生、腫瘤科醫生、物理師、護士等多學科團隊共同會診患者,治療方案很少取決于一個靜態的決定,它隨著幾天或幾周內出現的新信息不斷演進。決策往往產生于建設性的討論,需要在專業標準、患者偏好和患者長期健康這一共同目標之間做出權衡。難怪即使得分很高的 AI 模型,一旦遇到真實臨床診療中復雜的協作流程,就難以兌現承諾的表現。

我在其他行業的研究中也看到了同樣的模式:即使在標準化測試中表現出色的 AI 模型,一旦嵌入真實的工作環境,表現就達不到預期。

當高基準分數無法轉化為真實表現時,即使得分最高的 AI 也很快會被丟進 AI 墳場”。代價是巨大的:時間、精力和資金都打了水漂。長此以往,這種反復的經歷會侵蝕組織對 AI 的信心,在醫療等關鍵領域,還可能侵蝕公眾對這項技術的信任。

當現有的基準測試只能提供關于 AI 模型是否適合實際使用的片面甚至誤導性信號時,就會造成監管盲區:監管框架是基于不反映現實的指標來制定的。這也讓組織和政府承擔了在敏感的真實場景中測試 AI 的風險,而且往往缺乏資源和支持。



如何構建更好的測試

要彌合基準測試和真實表現之間的差距,我們必須關注 AI 模型實際使用的條件。核心問題是:AI 能否作為人類團隊中的一個有效參與者發揮作用?它能否產生持續的、集體性的價值?

通過我對多個行業 AI 部署的研究,我看到一些組織已經在有意識、實驗性地向我所倡導的 HAIC 基準測試方向邁進。

HAIC 基準測試從四個維度重構了現有的評估框架:

分析單元而言,應從個人單任務表現轉向團隊和工作流程表現;從時間指標角度,應從有標準答案的一次性測試轉向長期影響評估;從性能指標而言,應從正確性和速度轉向組織層面的成效、協作質量和錯誤可發現性;從系統效應而言,應從孤立的輸出轉向上下游連鎖效應(系統效應)。

在這套方法開始被應用的組織中,第一步是改變分析單元。

以 2021 年至 2024 年間英國一家醫院體系為例,他們把問題從“某個醫療 AI 應用是否提高了診斷準確率”擴展為“AI 在醫院多學科團隊中的存在如何影響準確率、協作和集體討論”。醫院專門評估了使用和未使用 AI 的人類團隊在協作和討論方面的差異。院內外的多方利益相關者共同確定了評估指標,比如 AI 如何影響集體推理、它是否能發現被忽略的考量、它是加強還是削弱了協作,以及它是否改變了已有的風險管控和合規實踐。

這一轉變具有根本性意義。在系統層面效應比單項任務準確率更重要的高風險場景中,這一點尤為關鍵。它可能有助于重新校正那些被夸大的生產力預期——這些預期迄今為止主要建立在提升個人任務表現的承諾之上。

在這個基礎建立之后,HAIC 基準測試才能開始納入時間維度。

今天的基準測試像學校考試,是一次性的、標準化的準確率測試。但真正的職業能力是以不同的方式來評估的。初級醫生和律師是在真實工作流程中被持續考核的,有督導、有反饋機制、有問責體系。能力評估是在一段時間內、在具體的環境中進行的,因為勝任力是關系性的。如果 AI 系統要與專業人士協同工作,它們的影響也應當以縱向視角來評判,反映其表現在反復互動中如何演變。

我在一個人道主義領域的案例研究中看到了 HAIC 這一維度的應用。在 18 個月的時間里,一個 AI 系統在真實工作流程中被持續評估,重點關注其錯誤的可發現性,也就是人類團隊能否方便地識別和糾正錯誤。這份長期的“錯誤可發現性記錄”讓相關組織能夠設計和測試針對具體場景的安全護欄,在 AI 不可避免會偶爾犯錯的前提下促進對系統的信任。

更長的時間維度還能揭示短期基準測試忽略的系統層面后果。一個 AI 應用可能在某個狹窄的診斷任務上超越單個醫生,但未能改善多學科決策。更糟糕的是,它可能引入系統性的扭曲:過早地讓團隊錨定在看似合理但并不完整的答案上,增加人們的認知負擔,或者在下游環節產生低效,抵消了 AI 使用點上的速度和效率收益。這些連鎖效應往往是現有基準測試看不到的,卻是理解真實影響的核心。

HAIC 方法確實會讓基準測試變得更復雜、更消耗資源、更難標準化。但如果我們繼續在脫離真實工作環境的無菌條件下評估 AI,就會一直誤解它真正能為我們做什么、不能做什么。要在真實場景中負責任地部署 AI,我們必須衡量真正重要的東西:不僅僅是一個模型獨自能做什么,而是當真實世界中的人和團隊與它協作時,它促成了什么,又破壞了什么。

https://www.technologyreview.com/2026/03/31/1134833/ai-benchmarks-are-broken-heres-what-we-need-instead/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
張雪機車奪冠前"一個子兒沒給",奪冠后給200畝地,網友贊:浙江國資賺翻了

張雪機車奪冠前"一個子兒沒給",奪冠后給200畝地,網友贊:浙江國資賺翻了

商悟社
2026-04-02 11:25:59
突發!伊朗10分鐘5波導彈襲擊以色列!特朗普開出停火條件,萬斯強力施壓談判“中間人”:總統已經“不耐煩了”

突發!伊朗10分鐘5波導彈襲擊以色列!特朗普開出停火條件,萬斯強力施壓談判“中間人”:總統已經“不耐煩了”

每日經濟新聞
2026-04-02 00:38:12
大瓜,特朗普稱中國富豪有56個美國孩子!各種猜測越來越離譜了!

大瓜,特朗普稱中國富豪有56個美國孩子!各種猜測越來越離譜了!

眼光很亮
2026-04-02 06:09:52
張雪師父發聲:奪冠后兩人通話泣不成聲;曾數十次借錢給張雪,建議他造車:是你成為世界冠軍的唯一可能

張雪師父發聲:奪冠后兩人通話泣不成聲;曾數十次借錢給張雪,建議他造車:是你成為世界冠軍的唯一可能

大風新聞
2026-04-02 14:31:06
美一架載286人客機起飛9分鐘發生爆炸,飛機碎片墜落引發火情

美一架載286人客機起飛9分鐘發生爆炸,飛機碎片墜落引發火情

傲傲講歷史
2026-04-01 05:21:55
直沖30℃!湖北大雨、暴雨、大暴雨來襲!

直沖30℃!湖北大雨、暴雨、大暴雨來襲!

環球網資訊
2026-04-02 16:47:09
廣州有小區從2.1萬跌到4700,天河卻有人在搶房

廣州有小區從2.1萬跌到4700,天河卻有人在搶房

科學發掘
2026-04-02 10:13:59
又一行業巨頭暴雷,拖欠數億貨款,創始人失聯甩鍋,百姓被坑慘了

又一行業巨頭暴雷,拖欠數億貨款,創始人失聯甩鍋,百姓被坑慘了

卷史
2026-04-02 14:17:39
綠豆立大功!中農大證實:綠豆降膽固醇、減肝脂肪,改善脂肪肝

綠豆立大功!中農大證實:綠豆降膽固醇、減肝脂肪,改善脂肪肝

思思夜話
2026-04-01 11:52:19
全文!特朗普發表對伊戰爭電視講話,將沖突歸咎德黑蘭,鼓動政權更迭

全文!特朗普發表對伊戰爭電視講話,將沖突歸咎德黑蘭,鼓動政權更迭

藍色海邊
2026-04-02 10:56:24
上海交大校慶宣傳片引爭議,校方緊急致歉!

上海交大校慶宣傳片引爭議,校方緊急致歉!

品牌新
2026-04-02 10:40:05
騰訊凈利潤2200億員工只有11萬 京東員工90萬凈利潤只有200億

騰訊凈利潤2200億員工只有11萬 京東員工90萬凈利潤只有200億

可達鴨面面觀
2026-04-02 11:31:39
別問為何怪病叢生,22.4噸中國雞肉被俄羅斯通報抗生素殘留超標

別問為何怪病叢生,22.4噸中國雞肉被俄羅斯通報抗生素殘留超標

廖保平
2026-04-01 11:03:12
去年離婚減少77萬對?被質疑統計口徑有差異,背后使用攤薄手法

去年離婚減少77萬對?被質疑統計口徑有差異,背后使用攤薄手法

六子吃涼粉
2026-04-02 12:25:04
4月1日,伊朗的“真實承諾”砸醒了誰呢

4月1日,伊朗的“真實承諾”砸醒了誰呢

民間胡扯老哥
2026-04-02 07:30:53
山東泰安一小學要求6:40前到校、遲到罰站,教體局先稱“不可能”后改口:已統一要求7點30分到校,將加強家校溝通,保障學生休息時間

山東泰安一小學要求6:40前到校、遲到罰站,教體局先稱“不可能”后改口:已統一要求7點30分到校,將加強家校溝通,保障學生休息時間

大風新聞
2026-04-02 16:03:10
恩師倒戈!前掘金主帥馬龍力挺亞歷山大奪MVP,無視約基奇

恩師倒戈!前掘金主帥馬龍力挺亞歷山大奪MVP,無視約基奇

仰臥撐FTUer
2026-04-02 16:21:03
168比4,中美罕見同聲,俄羅斯和朝鮮唱反調,兩個細節很重要

168比4,中美罕見同聲,俄羅斯和朝鮮唱反調,兩個細節很重要

近史博覽
2026-04-02 09:53:05
東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

番外行
2026-03-31 08:28:28
剛剛過去的一個小時 以色列遭開戰以來最大規模導彈襲擊

剛剛過去的一個小時 以色列遭開戰以來最大規模導彈襲擊

財聯社
2026-04-01 23:28:03
2026-04-02 17:27:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16524文章數 514828關注度
往期回顧 全部

科技要聞

三年虧20億,最新估值58億,Xreal沖刺港股

頭條要聞

外媒稱伊朗已向中國尋求安全保障 外交部回應

頭條要聞

外媒稱伊朗已向中國尋求安全保障 外交部回應

體育要聞

這六個字,代表了邵佳一的新國足

娛樂要聞

宋寧峰帶女兒出軌,張婉婷找董璇哭訴

財經要聞

電商售械三水光針 機構倒貨or假貨猖獗?

汽車要聞

三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

態度原創

家居
手機
房產
公開課
軍事航空

家居要聞

歲月靜好 典雅新章

手機要聞

一加首發魔改版天璣9500:直接修改GPU底層調度 性能大爆發

房產要聞

大反轉!海口今年首宗重磅江景地塊,拍賣突然終止!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗自殺無人機突進 逼退林肯號航母

無障礙瀏覽 進入關懷版