337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

刷榜風波驚動OpenAI后,這家中國團隊拿回Agent硬核榜單第一

0
分享至



編輯 | 澤南

2026 年 AI 領域最重要的概念,可能非 Harness 莫屬。

上個月底,Anthropic 的 AI 編程智能體 Claude Code 源代碼意外泄露,業(yè)界在圍觀之下無不發(fā)出感嘆:「Harness engineering 真是太難了。」



作為 AI 智能體(Agent)的兩大支柱之一,大模型就像基礎,Harness 則是上層建筑。具體來說,Harness Engineering 是指圍繞 AI 智能體設計系統(tǒng)、約束和反饋循環(huán),使其在生產(chǎn)環(huán)境中能夠可靠運行的工程學科。

在這其中,權(quán)限與安全護欄、記憶與狀態(tài)管理、工具與工作流編排,以及自我糾錯循環(huán)的機制缺一不可。AI 領域?qū)τ?Harness 的重視,意味著 AI 技術(shù)正在告別盲盒時代,邁向了工程學的范疇。

而在產(chǎn)業(yè)落地這個層面上,國內(nèi)的實踐走在了前面,還率先完成了第三方的實證。

近日,在由 OpenAI 主導設立的權(quán)威基準測試 MLE-Bench 上,企業(yè)級算法自主優(yōu)化智能體百度伐謀(Famou)擊敗了各路玩家登頂,并刷新了 SOTA 成績。





這是繼去年 10 月首次登頂后,百度伐謀的第二次領跑。這次拿下第一的是 2.0 版,預計于今年 5 月 13 日的 Create 2026 百度 AI 開發(fā)者大會上正式發(fā)布。

與那些考常識問答、寫代碼的常規(guī)評測不同,MLE-Bench 被業(yè)內(nèi)公認為是檢驗智能體「動手能力」的硬核考場。它挑選了 75 個來自頂尖數(shù)據(jù)科學平臺 Kaggle 競賽的真實工程難題,重點考察 AI 在模型訓練、數(shù)據(jù)準備、實驗運行等機器學習全流程中的端到端實戰(zhàn)能力。

簡單來說,MLE-Bench 不考「單選題」,它考的是工程項目開發(fā)的應用題,需要 AI 智能體能像一位經(jīng)驗豐富的人類算法工程師一樣,完成從需求理解到解法輸出的全鏈路設計,找出全局最優(yōu)解。

能在 MLE-Bench 上登頂,意味著伐謀已經(jīng)超越了做題家的范疇,在解決實際工程和算法優(yōu)化問題上的能力達到了頂尖水平。

而且這次的成績「來之不易」。

登榜風波:有關 AI 評測底線的較量

故事要先從一場榜單風波說起。

去年 10 月,百度伐謀團隊首次向 OpenAI 主導的 MLE-Bench 提交了 Famou Agent 的成績,以 43.56 分拿下當時的 SOTA(最優(yōu)水平)。在此之前,這個硬核的機器學習工程榜單提交者寥寥,伐謀的登頂瞬間讓榜單熱鬧了起來,陸續(xù)吸引了近 10 家頂尖團隊入場角逐。

到 12 月末,百度伐謀推出了 2.0 版本,并以 59.56 分再次登頂。

有意思的是在這次升級中,伐謀團隊做出了一個有些反直覺的決定:他們沒有使用當時最先進的基座模型,而是繼續(xù)使用上一代的模型作為基礎。他們希望單獨驗證智能體 Harness 自身的系統(tǒng)進步。

今年 2 月,在大家都還在 60 分區(qū)間苦苦掙扎時,一家名為 Disarray 的創(chuàng)業(yè)公司突然提交了一份 77.78 分的答卷。

但很快 AI 社區(qū)發(fā)現(xiàn)了異樣之處:Disarray 的智能體在某些任務(如 GPS 定位任務)上竟然跑出了「0.0 誤差」的成績,在另一些圖像任務中也拿到了低得離譜的分數(shù)。這種幾乎不可能的成績引爆了 GitHub 討論區(qū)。

有研究者發(fā)現(xiàn),Disarray 的智能體在運行過程中會利用 MLE-Bench 機制的漏洞接收來自「私有測試集」的二值反饋信號,智能體在還沒交卷的時候,就已經(jīng)提前知道了考試答案的大致方向。同時,它甚至在某些任務中直接調(diào)用了外部網(wǎng)絡數(shù)據(jù)。



爭議之外,伐謀團隊決定出手,他們換上了最新 SOTA 模型作為基礎模型進行提交,最終得分:64.44 分。雖然絕對分數(shù)沒有超過利用了漏洞的 Disarray,但這個成績沒有使用私有測試集的反饋信號,也沒有使用外部網(wǎng)絡數(shù)據(jù)。

3 月 23 日,MLE-Bench 官方終于做出決定,新增一個專屬的清潔賽道(No Private LB),將所有具有數(shù)據(jù)泄漏嫌疑的方法(包括 Disarray)隔離,并打上警示標簽。

排除了干擾項后,一直堅守實驗原則、拒絕走捷徑的百度伐謀 2.0 以無可爭議的分數(shù)重回主榜榜首。

這場榜單名次的更迭,似乎也隱喻了 AI 工程化的核心命題:在有研究團隊不斷刷分的同時,也有探索者正在踐行 Harness 的工程化思路,一步步攻克真實世界任務的壁壘。

伐謀 2.0 為什么能贏?

百度能夠在全球頂尖智能體的角逐中拔得頭籌并非偶然,答案就藏在那個讓整個硅谷都在熱烈討論的新詞里:Harness Engineering(系統(tǒng)編排工程)。

過去幾年,AI 行業(yè)的競爭焦點集中在基礎模型上。但人們發(fā)現(xiàn),在處理真實世界復雜的工程問題時,再聰明的模型如果沒有合理的系統(tǒng)編排與約束,還是會在長鏈條任務中失去方向,陷入死循環(huán),或者產(chǎn)出無法落地的錯誤代碼。

Harness Engineering 因此逐漸受人重視,其目標非常明確:從手工構(gòu)建 AI 轉(zhuǎn)向框架驅(qū)動的演化。

基于大模型這個「發(fā)動機」,Harness 負責管理任務的拆解、記憶存儲、試錯反饋、工具調(diào)用以及安全邊界。已有不少 AI 專業(yè)人士認為,在未來的 AI 競賽中,誰能構(gòu)建出最優(yōu)秀的 Harness 框架,誰就能真正把大模型的智力轉(zhuǎn)化為生產(chǎn)力。



這個前沿議題也正是百度伐謀一直以來努力的方向。

伐謀是一個讓 AI 算法自主進化、尋找全局最優(yōu)解的多智能體系統(tǒng),旨在高效率地解決高難度的問題。它結(jié)合了大語言模型和進化搜索算法,能夠解決復雜的現(xiàn)實世界問題。去年 11 月的百度世界大會上,我們已經(jīng)見證了百度伐謀的技術(shù)框架和實踐成果。



李彥宏曾表示,「只要問題的解法是明確可驗證的,伐謀就可以模擬甚至超越頂尖的算法專家。」

在伐謀 2.0 版本上,演化策略、長程記憶機制、底層基礎設施等層面又獲得了全面優(yōu)化。

首先,伐謀執(zhí)行的是多智能體并行探索模式。在面對一個新任務時,系統(tǒng)首先會通過多智能體并發(fā)生成多個「初始算法解」,將它們分發(fā)到不同的「島嶼」形成初始種群。隨后進入自演化階段,在分布式集群上利用大規(guī)模并行的變異與交叉機制持續(xù)迭代,不斷向全局最優(yōu)解逼近。它不需要工程師手工構(gòu)建每一層能力,而是讓智能體在演化中自主尋優(yōu)。

其次,伐謀升級了長程記憶機制,能讓智能體像人類工程師一樣在長鏈條任務中保持思路清晰、邏輯一致。該機制解決了大模型「做著后面忘了前面」的痛點,讓智能體能在真實世界復雜的工程任務中記住此前的分析、決策和中間結(jié)果。

最后,通過底層基礎設施優(yōu)化,伐謀實現(xiàn)了算法演化迭代效率的顯著提升。依托百度智能云的全棧 AI 云優(yōu)化,伐謀在計算資源調(diào)度、任務并行執(zhí)行、容錯恢復等方面做到了極致。底層的夯實,讓整個龐大的系統(tǒng)能夠「跑得穩(wěn)、跑得快、跑得可靠」。

榜單是驗證,產(chǎn)業(yè)是答案

MLE-Bench 榜單的成績只是技術(shù)驗證的一角,百度伐謀其實已經(jīng)在真實物理世界里解決了很多產(chǎn)業(yè)難題,其中不乏一些我們想象不到的案例。

在汽車研發(fā)中,風阻系數(shù)很大程度上決定了新能源車的續(xù)航水平,但氣動驗證是一個困難的任務。傳統(tǒng)方法依賴于仿真軟件求解復雜的偏微分方程,單次驗證可能需要耗時 10 個小時。設計師畫完草圖,只能像「開盲盒」一樣等待工程師的反饋。

亞洲最大的獨立汽車設計公司阿爾特,將其 AI 核心平臺與百度伐謀進行了深度結(jié)合,通過伐謀的自我演化能力,訓練出了「御風」智能預測系統(tǒng)。



原本需要 10 小時的分析驗證,現(xiàn)在僅需數(shù)分鐘就能輸出可視化的壓力云圖及風阻系數(shù),預測誤差被控制在 5% 以內(nèi)。這種降維打擊,直接將傳統(tǒng)的「設計 - 驗證 - 修改」串行循環(huán),升級成「邊設計、邊驗證」的并行協(xié)同,整車研發(fā)周期直接縮短了 25%。

數(shù)字銀行的核心護城河是風控,而風控的生命線在于「特征挖掘」。中信百信銀行將伐謀智能體引入了核心風控體系。在這里,伐謀作為一位不知疲倦的「策略演化大師」,利用高維數(shù)據(jù)感知能力,7×24 小時在海量數(shù)據(jù)中挖掘風險特征,在極短時間內(nèi)達到了專業(yè)數(shù)據(jù)工程師的水平。

實戰(zhàn)結(jié)果令人矚目:伐謀不僅將特征挖掘效率提升了 100%,還精準抓取到了人類極易忽略的高價值特征,使風控模型的風險區(qū)分度提升了 2.41%。這意味著銀行能在可控風險內(nèi)更精準地篩選出優(yōu)質(zhì)客戶,拓寬普惠金融的邊界。

更進一步,伐謀解決復雜問題的能力不僅落地在工業(yè)上,也在推動前沿科研范式的升級。

北京工業(yè)大學將百度伐謀引入到了中國空間站微型空氣質(zhì)量監(jiān)測設備的研發(fā)中。面對核心部件「氣相色譜柱」的流場均勻性難題,伐謀通過自我演化打破了人類常規(guī)的設計極限,找出了更小構(gòu)型、更緊密排列的最優(yōu)解,極大提升了氣體分離效率。

天津大學則將其應用于災害預測與預警模型選優(yōu)(如滑坡位移預測、結(jié)構(gòu)面巖爆)。過去依賴人工串行試驗、動輒以「周」為單位的選優(yōu)周期,被伐謀直接壓縮到了 6 個小時。

通過 AI 的幫助,人類專家終于得以從枯燥的手動試錯中解放出來,回歸科研的本質(zhì) —— 定義科學問題、產(chǎn)出新規(guī)律。而那些最困難、最耗時的算法演化與龐雜計算,正在全面交由智能體去完成。

結(jié)語

從百度伐謀的實踐我們或許可以看出,Harness Engineering 正在成為下一代 AI 工程化的分水嶺。

通過大量實際任務的驗證,伐謀證明了一套完整的 AI 智能體架構(gòu),不再需要人類工程師去手工編寫每一層規(guī)則,而是可以放手讓其在自我演化中尋找最優(yōu)解。

當 AI 競賽從模型層卷向框架層,國內(nèi) AI 團隊在實踐領域的持續(xù)深耕正在定義工程化的范式。新一代的生產(chǎn)力,正在真實戰(zhàn)場上解決「最難的問題」。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
震撼!曾精確預言911的盲眼神婆預測今年8大事件,有一條暗指中國

震撼!曾精確預言911的盲眼神婆預測今年8大事件,有一條暗指中國

刀刃故事
2024-11-22 01:55:03
68歲女子不顧家人反對,執(zhí)意尋找50年前初戀,發(fā)現(xiàn)對方為她終身未娶,初戀:我等你等得頭發(fā)都白了!

68歲女子不顧家人反對,執(zhí)意尋找50年前初戀,發(fā)現(xiàn)對方為她終身未娶,初戀:我等你等得頭發(fā)都白了!

勵職派
2026-04-03 12:45:44
常規(guī)賽打完!NBA單項王誕生!約基奇成歷史首人,MVP還有懸念

常規(guī)賽打完!NBA單項王誕生!約基奇成歷史首人,MVP還有懸念

籃球掃地僧
2026-04-13 13:58:48
老人在珠寶店摔碎手鐲賠28萬,爽快付款轉(zhuǎn)身就走,老板:糟糕,快追

老人在珠寶店摔碎手鐲賠28萬,爽快付款轉(zhuǎn)身就走,老板:糟糕,快追

燦爛夏天
2025-06-06 12:24:12
歐爾班下臺,日媒稱“中國失去歐盟最好的朋友”,卻忽略重要一點

歐爾班下臺,日媒稱“中國失去歐盟最好的朋友”,卻忽略重要一點

DS北風
2026-04-13 18:40:05
體育局正式宣布,王曼昱亮相上海新崗位,薪酬曝光,馬琳發(fā)聲支持

體育局正式宣布,王曼昱亮相上海新崗位,薪酬曝光,馬琳發(fā)聲支持

云景侃記
2026-04-13 17:08:15
50年的風水先生談陰宅:給祖墳添土的時候,這3個忌諱千萬別犯

50年的風水先生談陰宅:給祖墳添土的時候,這3個忌諱千萬別犯

千秋文化
2026-04-05 18:57:53
中國女足迎戰(zhàn)決賽,CCTV5直播東亞四強對決

中國女足迎戰(zhàn)決賽,CCTV5直播東亞四強對決

二爺臺球解說
2026-04-13 16:18:11
卡塔爾宣布:12日,波斯灣全面恢復海上航行

卡塔爾宣布:12日,波斯灣全面恢復海上航行

南方都市報
2026-04-12 16:09:26
470億遺產(chǎn)落定!73歲唐僧的后路太絕了

470億遺產(chǎn)落定!73歲唐僧的后路太絕了

科學發(fā)掘
2026-04-12 16:34:35
爆紅的莫氏雞煲決定賣貨,一切都反轉(zhuǎn)了

爆紅的莫氏雞煲決定賣貨,一切都反轉(zhuǎn)了

首席品牌觀察
2026-04-13 18:11:53
具俊曄瘦的不成樣子!去玫瑰園看望大S被偶遇,背影就像干巴老頭

具俊曄瘦的不成樣子!去玫瑰園看望大S被偶遇,背影就像干巴老頭

以茶帶書
2026-04-12 16:59:16
四川4名中學生合謀違規(guī)騎行共享電單車,致其中1名女孩終身殘疾,誰的責任?法院判了

四川4名中學生合謀違規(guī)騎行共享電單車,致其中1名女孩終身殘疾,誰的責任?法院判了

環(huán)球網(wǎng)資訊
2026-04-13 18:35:31
云南一位男子,因曬朋友“蒲公英老樁”走紅,網(wǎng)友:養(yǎng)成仙草了

云南一位男子,因曬朋友“蒲公英老樁”走紅,網(wǎng)友:養(yǎng)成仙草了

觀察鑒娛
2026-04-13 10:03:31
真膈應啊!一老人走了,鄰居發(fā)帖稱家門被貼了塊紅布,又懵又火大

真膈應啊!一老人走了,鄰居發(fā)帖稱家門被貼了塊紅布,又懵又火大

火山詩話
2026-04-13 10:40:34
杜月笙在茶館喝茶,三個地痞問他要保護費,杜月笙:嫌命長嗎?

杜月笙在茶館喝茶,三個地痞問他要保護費,杜月笙:嫌命長嗎?

千秋文化
2026-04-10 20:14:28
今夜開始!天津3天降雨!然后直沖......

今夜開始!天津3天降雨!然后直沖......

魯中晨報
2026-04-13 18:12:09
蘋果贏麻了!iPhone17國內(nèi)銷量突破2700萬臺,是Mate80的五倍不止

蘋果贏麻了!iPhone17國內(nèi)銷量突破2700萬臺,是Mate80的五倍不止

互聯(lián)魚
2026-04-12 18:13:54
難以置信!上海一大爺在山姆會員店,拿在售剃須刀剃頭引發(fā)熱議

難以置信!上海一大爺在山姆會員店,拿在售剃須刀剃頭引發(fā)熱議

火山詩話
2026-04-13 06:39:17
掀掉洋蔥頂,整治宗教泛濫的第一步

掀掉洋蔥頂,整治宗教泛濫的第一步

黑哥講現(xiàn)代史
2026-03-14 15:46:38
2026-04-13 23:47:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12751文章數(shù) 142624關注度
往期回顧 全部

科技要聞

"抄作業(yè)"近四年,馬斯克版微信周五上線

頭條要聞

上海女子2個月內(nèi)結(jié)2次婚 生下的孩子卻是第3個男人的

頭條要聞

上海女子2個月內(nèi)結(jié)2次婚 生下的孩子卻是第3個男人的

體育要聞

一支球隊不夠爛,也是一種悲哀

娛樂要聞

初代“跑男團”合體,鄧超、鹿晗缺席

財經(jīng)要聞

談判未完全關閉?3國力促美伊重啟談判

汽車要聞

不止命名更純粹 領克10/10+要做純電操控新王

態(tài)度原創(chuàng)

健康
房產(chǎn)
游戲
家居
公開課

干細胞抗衰4大誤區(qū),90%的人都中招

房產(chǎn)要聞

6000億投資盛宴,全球巨頭齊聚,海南又要干件大事!

炸裂!男子用15個風扇造超級穹頂 打游戲爆降20℃

家居要聞

復古風格 自然簡約

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版