337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

AI自己寫代碼做科研還跑贏了前沿算法?清華團隊開源Alchemy框架

0
分享至



本項目由清華大學人工智能學院李佳助理教授課題組完成,課題組主要研究方向是 AI Agent、智能化軟件工程等,其中,李樂暉為項目的主要貢獻者,主導了框架設計與核心開發;蔡立一參與了部分關鍵工作。項目已在 GitHub 開源。

AI 驅動的自動化科研正從概念走向真實系統。近期受到廣泛關注的 FARS,以及 Karpathy 開源的 autoresearch,都在不同程度上展示了 AI Scientist 自動進行 AI 領域研究的可行性。

但真正限制自動化 AI 科研規模擴展的,不僅僅是「能否提出一個新想法」,同時「能否把這個想法穩定、高效、持續地跑起來」也同樣重要。在現有系統中,科學發現過程與工程實現仍然高度耦合:AI Scientist 在進行算法創新之外,還不得不處理數據預處理、訓練流程、資源調度、并發執行、評測協議等大量工程細節。結果是,寶貴的上下文窗口、推理預算與硬件資源,被浪費在非科研核心環節上,從而抑制了自動化科研真正應有的規模與效率。

在這一背景下,清華大學人工智能學院團隊提出了Alchemy——一個面向自動化 AI 科研的標準化研究環境。它像一座為 AI Scientist 預先搭建好的「煉丹爐」,將復雜異構的 AI 工程統一接口,使 AI Scientist 可以從工程負擔中抽身,專注于算法創新本身。

  • 代碼開源:https://github.com/TsinghuaISE/Alchemy



研究背景與問題

隨著大語言模型在代碼生成、實驗組織與科研文獻理解等方面持續進步,LLM 驅動的自動化科研正在快速從概念驗證走向真實系統。尤其在 AI for AI 方向,AI-Researcher、FARS、autoresearch 等一系列工作已經表明:AI Scientist 不僅能夠生成算法原型,還能夠結合實驗反饋進行初步的迭代優化。

然而,前沿 AI 研究作為一項長周期、高度依賴資源的復雜科學活動,不僅依賴算法創新,還依賴數據處理、訓練流程、評測協議、資源調度、并發執行等工程環節,同樣決定了科研探索能否真正推進。這也帶來了當前自動化 AI 科研系統的一個核心矛盾:AI Scientist 已經開始具備「提出方法」的能力,卻仍缺乏「高效開展大規模實驗」的基礎設施支撐。在現有系統中,工程實現與科學發現往往仍然緊密耦合,AI Scientist 不得不在生成算法之外,同時處理大量實驗細節。結果是,大量上下文預算、推理能力與計算資源被消耗在非核心科研環節中,限制了自動化科研的規模與效率。

如何釋放 AI Scientist 的科研能力?近期爆火的工作(如 autoresearch)嘗試優化自動化科研系統的工程組件,但仍存在明顯局限:

  • 領域受限:局限于特定領域與單一任務,難以持續集成多領域、跨任務的大規模自動化科研場景。
  • 基礎設施薄弱:異構算力調度、高并發控制等關鍵工程需求被普遍忽略,實驗規模的擴展受到嚴重制約。

針對以上挑戰,清華大學人工智能學院團隊提出了 Alchemy——一個面向自動化 AI 科研的標準化研究環境。Alchemy 預先搭建好科研實驗所需的全部工程基礎設施,AI Scientist 只需投入算法實現(一個.py文件)及其超參數(一個.yaml文件),即可驅動完整的科研實驗。同時,工程基礎設施與任務管線的分層設計,使其天然支持新領域、新任務的持續集成。下面具體介紹 Alchemy 的關鍵特性。

框架特性

Alchemy 的設計圍繞一個核心問題:如何讓 AI Scientist 完全擺脫工程負擔,專注于算法創新?為此,Alchemy 進行了以下針對性設計:

  • 標準化實驗接口:Alchemy 為所有 AI 研究任務提供統一的實驗接口,屏蔽不同任務之間的工程差異,和任務內如數據加載、評測、資源調度等工程細節。AI Scientist 只需提交算法實現(一個.py文件)和超參數配置(一個.yaml文件),即可運行完整實驗。
  • 可持續擴展的任務體系:框架與任務解耦,新領域或新任務只需新增實驗管線即可接入。目前已覆蓋推薦系統、時間序列與圖學習 3 個領域,16 個任務。
  • 異構算力統一執行:不同用戶的算力環境差異巨大,從單機 GPU 到多節點 HPC 集群不等。Alchemy 通過可插拔執行器統一調度方式,使 AI Scientist 無需關心實驗具體運行在哪臺機器或哪張 GPU 上。
  • 面向大規模實驗的并發控制:Alchemy 支持多任務、多算法、多超參數和多數據集的高并發實驗,并提供實時進度跟蹤與結果可視化。系統還可根據實驗反饋自動淘汰表現不佳的算法,將算力集中到更具潛力的探索方向。

開箱即用,自動研究

以多模態推薦任務為例,下面展示 Alchemy 的易用性與自動化科研能力。

用戶首先可以在名為domain_knowledge的 Markdown 文檔中,為 AI Scientist 提供任務相關的領域知識,提升其科學發現的能力。但是不用擔心,即使用戶沒有手動撰寫任何領域知識,Alchemy 依然可以正常運行。在大規模實驗推進過程中,AI Scientist 會結合實驗反饋,逐步歸納并沉淀出完成該任務所需的關鍵領域知識。

下面展示的,便是 Alchemy 在連續生成 100 個推薦算法之后自動總結出的領域知識。可以看到,這些總結并非停留在表層描述,而是已經呈現出相當有價值的研究洞察。



除了領域知識之外,用戶還需要為 Alchemy 提供一個 Seed Baseline,作為 AI Scientist 進行科學假設生成與方法演化的起點。這個 Seed Baseline 可以是人類研究者提出的前沿算法。在本例中,我們選擇的是 AAAI 2025 的工作《Mind Individual Information! Principal Graph Learning for Multimedia Recommendation》(PGL)。為了進一步降低使用門檻,Alchemy 已經為現有支持的所有任務預先配置了 Seed Baseline,并且每個任務至少提供 3 個可選 Seed Baseline,方便用戶開箱即用。



在此基礎上,AI Scientist 會圍繞當前算法不斷開展自動化科研循環:提出科學假設,生成新算法實現,并依據實驗反饋持續迭代優化。

如下圖所示,AI Scientist 首先提出了這樣一個科研假設:在主圖傳播過程中引入模態感知的邊權重重加權機制,使交互圖中的消息傳播強度能夠根據物品間的模態相似性動態調整,從而在協同信號傳播過程中顯式融入模態語義信息。

隨后,AI Scientist 基于這一假設生成了算法實現。起初,這份代碼尚不能直接運行:由于對超參數加載的數據格式理解不準確,其生成的.yaml文件出現問題。Alchemy 則會將具體、可執行的報錯信息反饋給 AI Scientist,使其進行多輪迭代,修正實現細節。系統最終生成了可正常運行的代碼實現。





接下來,在長達一天的持續實驗過程中,Alchemy 中的 AI Scientist 在完全無人類干預的條件下,依托實驗反饋不斷調整實現、修正設計并優化性能。令人驚喜的是,最終得到的模型成功超越了初始的 Seed Baseline——PGL。





進一步分析可以發現,這一改進的關鍵在于:AI Scientist 為 PGL 引入了模態感知的用戶—物品邊重加權機制。其核心思想是,不改變 PGL 的訓練機制,而是在推理時加上一個輕量的 Modality Aware Graph Adaption 機制,讓那些與用戶歷史偏好在模態空間中更一致的邊,將被賦予更強的傳播權重,從而更充分地放大模態語義信息與 User-Item 協同信息之間的關聯作用。







特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
張雪峰,死得其所!

張雪峰,死得其所!

周一叨
2026-03-26 10:20:52
老板娘說她屁股太大了,我該怎么回答?

老板娘說她屁股太大了,我該怎么回答?

太急張三瘋
2026-03-19 09:16:16
贏球不到24小時,薩巴倫卡銳評鄭欽文,只字不提球技,卻字字珠璣

贏球不到24小時,薩巴倫卡銳評鄭欽文,只字不提球技,卻字字珠璣

林子說事
2026-03-26 14:10:10
我56歲絕經了,做住家保姆,那晚雇主讓我陪酒,我第一次喝到斷片

我56歲絕經了,做住家保姆,那晚雇主讓我陪酒,我第一次喝到斷片

匹夫來搞笑
2026-03-27 06:59:18
一種玄學提醒:經常睡覺的房間,盡量別放這三樣東西,并非迷信

一種玄學提醒:經常睡覺的房間,盡量別放這三樣東西,并非迷信

洞讀君
2026-03-16 10:36:55
法國回應撤回南非G7峰會邀請:未向任何壓力屈服

法國回應撤回南非G7峰會邀請:未向任何壓力屈服

界面新聞
2026-03-27 14:20:07
江蘇一老板用0.75元,救活了自己瀕臨倒閉的小店,銷量從20萬暴沖到500萬!還勸大家“理性消費”

江蘇一老板用0.75元,救活了自己瀕臨倒閉的小店,銷量從20萬暴沖到500萬!還勸大家“理性消費”

大象新聞
2026-03-26 21:45:10
政治正確大作Steam特別好評!簡中好評率100%

政治正確大作Steam特別好評!簡中好評率100%

游民星空
2026-03-27 11:20:29
淺析:DS-39機槍為何沒有成為蘇聯的MG34?捷格加廖夫承認不足

淺析:DS-39機槍為何沒有成為蘇聯的MG34?捷格加廖夫承認不足

hawk26講武堂
2026-03-26 13:40:18
壽命與大便次數有關?研究發現:壽命長的人,每天排便在這個次數

壽命與大便次數有關?研究發現:壽命長的人,每天排便在這個次數

DrX說
2025-10-24 14:15:19
深夜把女領導誤當老婆,發了句想你了,她秒回:來我辦公室

深夜把女領導誤當老婆,發了句想你了,她秒回:來我辦公室

溫情故事匣
2026-03-20 17:02:38
中伊外長剛掛電話不到24小時,中方宣布通航,美媒:美國徹底輸了

中伊外長剛掛電話不到24小時,中方宣布通航,美媒:美國徹底輸了

青煙小先生
2026-03-27 10:15:06
何潤東15年前談項羽的采訪火了,他的侃侃而談,夠小鮮肉學一輩子

何潤東15年前談項羽的采訪火了,他的侃侃而談,夠小鮮肉學一輩子

大鐵貓娛樂
2026-03-27 14:20:03
一季就封神的6部神級美劇,哪部讓你意猶未盡?

一季就封神的6部神級美劇,哪部讓你意猶未盡?

小Q侃電影
2026-03-27 14:23:09
空軍飛行員駕機叛逃臺灣,晚年回國投案自首,被安排工作和住房

空軍飛行員駕機叛逃臺灣,晚年回國投案自首,被安排工作和住房

輿圖看世界
2026-02-07 11:15:03
醫生發現:經常走路的糖尿病患者,用不了多久,身體會有7大改善

醫生發現:經常走路的糖尿病患者,用不了多久,身體會有7大改善

醫學科普匯
2026-03-25 19:15:06
“高鐵小少爺”事件曝光后,我才懂:道明寺媽為啥看不上杉菜

“高鐵小少爺”事件曝光后,我才懂:道明寺媽為啥看不上杉菜

小羽叨叨叨
2026-03-27 12:12:16
高市沒料到,俄給日本下最后通牒,不到24小時,國內又傳來壞消息

高市沒料到,俄給日本下最后通牒,不到24小時,國內又傳來壞消息

小小科普員
2026-03-27 13:53:15
女子赴發小婚禮穿瑜伽褲,打扮過于火辣,網友直呼跟沒穿似的

女子赴發小婚禮穿瑜伽褲,打扮過于火辣,網友直呼跟沒穿似的

一盅情懷
2026-03-16 17:28:45
反超美國,改變戰爭模式,中國機器狼群為何讓人感到驚艷?

反超美國,改變戰爭模式,中國機器狼群為何讓人感到驚艷?

體育小柚
2026-03-27 12:30:35
2026-03-27 15:04:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12615文章數 142595關注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產力

頭條要聞

媒體:和張雪峰一樣 還有多位名人也因猝死驟然離世

頭條要聞

媒體:和張雪峰一樣 還有多位名人也因猝死驟然離世

體育要聞

邵佳一:足球就像一場馬拉松

娛樂要聞

張雪峰靈堂內景曝光,四周擺滿了鮮花

財經要聞

很反常!油價向上,黃金向下

汽車要聞

與眾08,金標大眾不能輸的一戰

態度原創

健康
游戲
親子
公開課
軍事航空

轉頭就暈的耳石癥,能開車上班嗎?

《極限競速6》公布系統新情報 汽車文化及活動事件

親子要聞

我柜子動了!這兒童樂園里有臟東西

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:已組織超100萬人為地面戰斗做準備

無障礙瀏覽 進入關懷版