337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

UCSD 推出 AIBuildAI 智能體,斬獲OpenAI MLE-Bench榜單第一

0
分享至



近日,加州大學圣地亞哥分校的研究團隊開發了 AIBuildAI 智能體,可以全自動構建 AI 模型(包括模型設計,代碼實現,模型訓練,調參,性能評估,迭代優化)。團隊成員包括博士生 Ruiyi Zhang,Peijia Qin,Qi Cao,Li Zhang,以及該校副教授 Pengtao Xie。



視頻地址:https://mp.weixin.qq.com/s/8sb5CpBLb3PEQ7IGY6A5ug?click_id=35

開發一個高性能 AI 模型非常耗時費力,工程師需要反復設計模型、寫代碼實現模型、構建訓練流水線、執行超參數搜索,并根據實驗結果對模型進行迭代優化。這一過程對專業知識的依賴程度極高,人力成本也居高不下,非常耗費時間。為了解決這一問題,UCSD 的研究團隊開發了 AIBuildAI 智能體,充當虛擬的 AI 工程師或 AI 科學家,全自動構建 AI 模型。用戶無需編程,只需要用自然語言對任務進行描述,AIBuildAI 自動設計模型,寫代碼實現模型,訓練模型,調節超參數,評估模型性能,并根據實驗結果對模型進行迭代優化。

AIBuildAI 在 OpenAI MLE-Bench 基準測試的 75 個任務上以 63.1% 的獲獎率位居榜首(截至 2026 年 3 月 6 日),其表現可媲美經驗豐富的 AI 工程師,實現了從任務描述到可部署模型的端到端自動化。







  • 論文標題:AIBuildAI:An AI agent that automatically builds AI models
  • 項目地址:https://github.com/aibuildai/AI-Build-AI
  • 論文鏈接:https://github.com/aibuildai/AIBuildAI/blob/main/AIBuildAI_Tech_Report.pdf
  • OpenAI MLE-Bench 測評結果:https://github.com/openai/mle-bench/pull/126

AIBuildAI 的設計靈感來源于真實的 AI 研究團隊的工作流程。在典型的 AI 項目中,技術負責人統籌多條并行探索路線,研究員提出建模策略,工程師實現訓練流水線,負責人定期評審結果、分配資源。AIBuildAI 將這一工作流抽象為一個多智能體搜索過程:將整個開發周期分解為多個專職智能體協作執行,并通過集中化的管理器進行統一調度。



技術核心

管理智能體(Manager Agent)

扮演項目運行負責人的角色,全程不直接寫代碼或執行訓練任務,而是通過讀取磁盤上的實驗記錄來做出下一步決策。他在兩種模式之間切換:協調模式下決定下一步應該調用哪一個子智能體;篩選模式下依據訓練信號保留有潛力的候選方案并終止無效方案來節約時間以及計算成本,并在進展停滯時觸發修訂或者終止。

研究員智能體(Designer Agent)

負責想方案和改方案兩項核心任務。在設計模式下,他直接探索數據集特征,提出多個差異化、可行性強的建模計劃;在修訂模式下,他仔細診斷失敗原因(過擬合、欠擬合、收斂問題或者數據異常),并提出具體的改進方案供編碼智能體重新實現。

編碼智能體(Coder Agent)

將設計方案轉化為可運行的訓練與推理流水線。編碼智能體的目標是確保代碼正確完整,而非追求最終性能。他會在寫完代碼后執行一次短時驗證運行以確保流水線可以端到端運行,隨后將完整訓練交由調優器處理。

調優器智能體(Tuner Agent)

接管訓練過程,在已有代碼基礎上專注于性能提升。它采用先快速校準、再決定是否投入的策略:先跑一段簡短的熱身訓練觀察學習曲線,再決定是延長當前方案還是進行超參數調整。整個過程在固定計算預算內完成。

系統設計

AIBuildAI 在系統層面還具備三項關鍵特征:

  • 并行效率:多條解決方案軌跡在獨立工作空間中并發運行,避免互相干擾,允許系統同時探索多個方法并將資源集中于表現好的候選方案。
  • 可復現性:所有智能體通過存儲于磁盤中產出物(方案文檔、配置文件、日志、檢查點)進行協調,而非依賴內存中的臨時信息,確保每一步操作均可事后審查與復現。
  • 安全性:智能體僅被允許寫入自身軌跡目錄,數據集以只讀方式掛載,每次調用均生成可審計的操作日志。

實驗結果



AIBuildAI 在 OpenAI MLE-Bench 基準測試上進行了評估 (https://github.com/openai/mle-bench/pull/126)。MLE-Bench 包含了來自 Kaggle 競賽的真實任務,涵蓋圖像分類,目標檢測 / 分割、自然語言理解與生成、時序信號建模以及結構化表格預測等多個類別,共 75 個任務,要求系統完成從原始數據到可提交模型的全流程開發。

截止 2026 年 3 月 6 號的榜單,AIBuildAI 以 63.1% 的綜合獲獎率位居 MLE-Bench 總榜第一。上圖展示了 AIBuildAI(橙條)的綜合性能在所有的對比方法中實現了性能最佳。



上圖展示了 AIBuildAI 在語言理解與生成任務上的詳細結果。上半部分以 Billion Word Imputation 為例,完整呈現了 AIBuildAI 各智能體的運行軌跡:Manager 依次調度 Setup、Designer(提出 6 個候選方案)、Coder(實現流水線)和 Tuner(迭代調參),最終 Aggregator 以 RoBERTa-large 為基礎生成提交文件,取得 5.5060 的最優分數。下半部分對比了 AIBuildAI 與 AIRA-dojo、MLEvolve 在 10 個具體語言任務上的性能表現。AIBuildAI(紫色)在 chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza 等多個任務上均取得最優成績,充分驗證了 AIBuildAI 在多樣化語言任務上的泛化能力。

總結

AIBuildAI 通過將 AI 開發流程分配到包括設計、編碼、調優與協調等任務的專職智能體,并以基于產出物的狀態管理將各個智能體緊密協同,實現了端到端自動化 AI 工程。不同于以往將代碼生成作為核心范式的單體系統,AIBuildAI 顯示建模了訓練動態監控、早停機制與超參數調整等關鍵環節,更貼近真實工程師團隊的工作方式。AIBuildAI 在 MLE-Bench 的 75 個任務上,以 63.1% 的獲獎率位居第一,證明了結構化多智能體協作在復雜工程工作自動化上的可行性,也為邁向媲美人類專業工程師的自動 AI 系統提供了清晰的技術路線。

作者簡介:

謝澎濤,UCSD 副教授,研究受人類學習啟發的機器學習及其在 LLM、基礎模型與生物醫學的應用。張睿一,UCSD 博士生,關注 LLM 效率、安全與測試時計算擴展。秦佩嘉,UCSD 博士生,聚焦獎勵模型與多智能體系統。曹啟,UCSD 博士生,主攻 LLM 推理。張力,UCSD 博士生,研究方向為機器視覺與視覺大模型。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
龐麥郎轉發李榮浩維權微博并提及華晨宇,疑似重提《我的滑板鞋》版權糾紛,華晨宇工作室發布歷史聲明:冷飯又炒,不再回應

龐麥郎轉發李榮浩維權微博并提及華晨宇,疑似重提《我的滑板鞋》版權糾紛,華晨宇工作室發布歷史聲明:冷飯又炒,不再回應

瀟湘晨報
2026-03-30 13:42:12
6月1號起,車管所跟你關系不大了

6月1號起,車管所跟你關系不大了

音樂時光的娛樂
2026-03-30 15:57:27
為什么年輕人不愛繳社保?陸銘:要理解他們的現實需求

為什么年輕人不愛繳社保?陸銘:要理解他們的現實需求

中國經濟網
2026-03-30 15:07:08
曝托納利提出加盟曼聯條件!不會為轉會施壓紐卡,最少也要7000萬

曝托納利提出加盟曼聯條件!不會為轉會施壓紐卡,最少也要7000萬

羅米的曼聯博客
2026-03-30 11:45:33
張雪峰生前最后一瓶水有問題!?

張雪峰生前最后一瓶水有問題!?

八卦瘋叔
2026-03-27 11:25:06
特朗普宣布訪華新日期,不到48小時,中方不留情面,連續反制

特朗普宣布訪華新日期,不到48小時,中方不留情面,連續反制

知鑒明史
2026-03-29 13:23:26
快訊!以色列傳來新消息!

快訊!以色列傳來新消息!

做個平凡的軒友
2026-03-30 13:47:37
差6093分!韋德斷言杜蘭特必拿歷史第二,算完場次球迷懂了

差6093分!韋德斷言杜蘭特必拿歷史第二,算完場次球迷懂了

林子說事
2026-03-30 15:58:47
“白天800晚上900元”,女子陪爬泰山時,被一男子“白嫖”800元

“白天800晚上900元”,女子陪爬泰山時,被一男子“白嫖”800元

江山揮筆
2026-03-28 16:50:15
上海這家老字號的小餛飩,我以后是不會再去吃了……

上海這家老字號的小餛飩,我以后是不會再去吃了……

阿萊美食匯
2026-03-30 16:07:42
52歲李乃文天津被偶遇,站在救護車旁神情緊張,網友紛紛表示擔憂

52歲李乃文天津被偶遇,站在救護車旁神情緊張,網友紛紛表示擔憂

樂悠悠娛樂
2026-03-30 11:17:49
32歲女生自述得艾滋病過程,原因是見了一次網友,如今十分后悔

32歲女生自述得艾滋病過程,原因是見了一次網友,如今十分后悔

千秋文化
2026-03-29 20:59:49
美媒定論:特朗普已無法恢復政治地位,他的總統任期實質上已結束

美媒定論:特朗普已無法恢復政治地位,他的總統任期實質上已結束

蘭妮搞笑分享
2026-03-30 13:28:47
我是廣東人,在香港打工12年,發現香港人愛吃這3道菜,喝這2款酒

我是廣東人,在香港打工12年,發現香港人愛吃這3道菜,喝這2款酒

濤哥美食匯
2026-03-30 09:10:37
張雪峰曾評價單依純翻唱的《李白》!欣賞不了,無法理解這歌能火

張雪峰曾評價單依純翻唱的《李白》!欣賞不了,無法理解這歌能火

談史論天地
2026-03-30 07:33:27
黑色星期一,原油跳空大漲,日韓股市重挫,港股大跌,A股跟跌!

黑色星期一,原油跳空大漲,日韓股市重挫,港股大跌,A股跟跌!

丁丁鯉史紀
2026-03-30 12:16:05
凈利潤暴跌90%!理想的銷量神話破滅

凈利潤暴跌90%!理想的銷量神話破滅

大佬灼見
2026-03-13 12:23:26
鄭麗文得到大陸邀請,訪陸日期已定,朱、盧傻眼,賴清德慌了

鄭麗文得到大陸邀請,訪陸日期已定,朱、盧傻眼,賴清德慌了

墜入二次元的海洋
2026-03-30 11:15:59
軍號被粉底液將軍粉絲圍攻,編劇汪海林發聲:真是無法無天

軍號被粉底液將軍粉絲圍攻,編劇汪海林發聲:真是無法無天

往史過眼云煙
2026-03-28 14:32:07
鳳凰傳奇沖上熱搜!玲花暴雨中睜不開眼,評論區都在問一個問題

鳳凰傳奇沖上熱搜!玲花暴雨中睜不開眼,評論區都在問一個問題

潮鹿逐夢
2026-03-30 11:43:44
2026-03-30 18:32:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12640文章數 142599關注度
往期回顧 全部

科技要聞

一句謊言引發的硅谷血案

頭條要聞

尹正發文恭喜張雪奪冠 張雪:沒錢請您做代言人 送臺車

頭條要聞

尹正發文恭喜張雪奪冠 張雪:沒錢請您做代言人 送臺車

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態度原創

房產
教育
數碼
游戲
手機

房產要聞

32億,三開三罄!誰在硬控海口樓市高端局?

教育要聞

五年級狀元題,求面積,會的不多

數碼要聞

雙塔合一,酷凜推出FROZN A620 SLK風冷散熱器

2025年的神作有中文了!M站92分 IGN9分超好評

手機要聞

小米澎湃OS 3上新密碼App!自動抓取、一鍵填充:跨設備加密同步

無障礙瀏覽 進入關懷版