337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

專訪OpenAI首席科學家:我們離“AI自己做研究”有多遠?

0
分享至

OpenAI 正在重新聚焦其研究方向,將資源集中投入一項新的宏大目標。這家公司瞄準的是“AI 研究員”——一個完全自動化的、基于智能體的系統,能夠獨立處理復雜問題。OpenAI 表示,這個新目標將成為公司未來幾年的“北極星”,它將把推理模型、智能體和可解釋性方面的工作整合在一起。

并且,項目已經提上了日程。OpenAI 計劃在 9 月前打造出“自主 AI 研究實習生”——一個能夠獨立承擔少量特定研究問題的系統。該系統計劃于 2028 年推出,這個 AI 實習生將是全自動多智能體研究系統的前身。OpenAI 稱,它將能處理人類難以應對的復雜問題。

這些任務可能涉及數學和物理,比如提出新的證明或猜想,也可能涉及生物學和化學等生命科學,甚至是商業和政策難題。從理論來說,可以將任何能用文本、代碼或白板草圖表述的問題丟給這個工具,而這覆蓋的范圍非常廣泛。

最近幾年,OpenAI 被視為引領 AI 行業的風向標。它憑借大語言模型建立的早期主導地位,塑造了如今數億人每天使用的技術。但是現在,它面臨來自 Anthropic 和 Google DeepMind 等競爭對手的激烈挑戰。OpenAI 接下來決定造什么,對它自己和 AI 的未來都很重要。


(來源:麻省理工科技評論)

這個決定很大程度上取決于 OpenAI 的首席科學家雅庫布·帕喬基(Jakub Pachocki),他負責制定公司的長期研究目標。帕喬基在 GPT-4 和推理模型的開發中都扮演了關鍵角色,前者是 2023 年發布的一款改變行業格局的大語言模型,后者是 2024 年首次出現的一項技術,如今已成為所有主流聊天機器人和智能體系統的基礎。

在本周的獨家專訪中,帕喬基向《麻省理工科技評論》詳細介紹了 OpenAI 的最新愿景。“我認為我們正在接近一個節點,屆時模型將能夠像人一樣,以連貫的方式無限期地工作。”他說,“當然,你仍然需要人來掌控全局、設定目標。但我認為我們會達到一種狀態——一個數據中心就相當于一整座研究實驗室。”

通往“AI 研究員”的技術路徑

事實上,這類宏大愿景并不新鮮。通過解決世界上最困難的問題來拯救世界,是所有頂尖 AI 公司的公開使命。德米斯·哈薩比斯(Demis Hassabis)2022 年就告訴過《麻省理工科技評論》,這是他創辦 DeepMind 的初衷。Anthropic 的 CEO 達里奧·阿莫迪(Dario Amodei)說,他正在數據中心里打造一個“天才之國”。OpenAI 的 CEO 山姆·奧特曼(Sam Altman)想攻克癌癥,對此帕喬基表示,OpenAI 現在已經具備了實現目標所需的大部分條件。

今年 1 月,OpenAI 發布了 Codex,一款基于智能體的應用,可在本地或云環境中生成并執行代碼任務。它具有分析文檔、生成圖表、制作收件箱和社交媒體的每日摘要等功能。(其他公司也發布了類似工具,比如 Anthropic 的 Claude Code 和 Claude Cowork。)

OpenAI 稱,公司大多數技術人員現在工作中都在使用 Codex。帕喬基認為,可以將 Codex 看作 AI 研究員的一個非常早期的版本,他預計 Codex 會有根本性的提升。

關鍵是讓系統能在更長的時間內運行,同時減少對人類指導的依賴。“我們對自動化研究實習生的真正期待是,你可以把那些一個人需要花幾天時間完成的任務交給它。”帕喬基說。

“很多人都對構建能進行更長周期科學研究的系統感到興奮,”艾倫人工智能研究院的研究科學家道格·唐尼(Doug Downey)認為,這主要是受到代碼智能體成功經驗的驅動。“你能把相當復雜的編程任務交給 Codex 這樣的工具,這非常有用,也令人印象深刻。與此同時,這也帶來了一個更大的問題:我們是否能將這種能力拓展到編程之外,在更廣泛的科學領域做到類似的事情?”

對帕喬基來說,答案顯然是“能”。他認為,這只是沿著我們已有的路徑繼續往前走,全面能力的提升也會讓模型在沒有幫助的情況下工作更久。他以 2020 年 GPT-3 到 2023 年 GPT-4 的飛躍作為例子。他指出,GPT-4 在處理問題時的持續能力遠超前代,即使沒有專門訓練也是如此。

推理模型帶來了又一次飛躍。訓練大語言模型逐步解題、在犯錯或走入死胡同里時回溯,也讓模型在更長時間段內的工作能力得到了提升。帕喬基相信,OpenAI 的推理模型還會繼續進步。

與此同時,OpenAI 也在通過給系統喂入特定的復雜任務樣本來訓練它們更長時間地獨立工作,比如數學和編程競賽中的高難度題目。這些題目迫使模型學會追蹤超長文本,將問題拆分成多個子任務并加以管理。

但他們的目的不是造出一個只會贏數學競賽的模型。帕喬基說,這其實是在把技術推向真實世界之前,先驗證它的可行性。“如果我們真的想做,我們可以造出一個出色的 AI 數學家。但這不是我們現在要優先做的事,因為到了你相信自己能做到的時候,有更緊迫的事情要做。我們現在更專注于在真實世界中有意義的研究。”

目前的工作方向是把 Codex 在編程方面的能力推廣到通用問題解決上。“編程領域正在發生巨大的變化,”他說,“我們的工作方式和一年前完全不同了。沒有人還在一直手動編輯代碼。取而代之的是,你管理一組 Codex 智能體。”按照這個邏輯,如果 Codex 能解決編程問題,它就能解決任何問題。

加速拐點已經出現

過去幾個月,OpenAI 確實取得了一些重要成果。在若干未解數學問題上,研究人員利用 GPT-5 系列模型(驅動 Codex 的大語言模型)發現了新解法,并在一些生物學、化學和物理學難題中突破了看似走不通的困境。

“看著這些模型提出大多數博士生至少要花好幾周才能想到的點子,我預計這項技術在不久的將來會帶來更多加速。”帕喬基說。

但帕喬基承認,事情還沒有塵埃落定,他也理解為什么有些人仍然懷疑這項技術究竟能帶來哪些變革。他認為,這取決于每個人的工作方式和需求。“我能理解有些人覺得它目前還不太有用。”他說。

他告訴《麻省理工科技評論》,一年前他甚至不用自動補全——這是生成式編程技術最基礎的版本。“我對自己的代碼非常挑剔,”他說,“能自己在 vim 里敲出來,我就自己敲。”(vim 是一款深受硬核程序員喜愛的文本編輯器,使用大量鍵盤快捷鍵而非鼠標來操作。)

但當他看到最新模型的表現后,想法改變了。他仍然不會把復雜的設計任務交出去,但當他只是想快速驗證幾個想法時,它是個省時利器。“一個周末就能讓它跑完以前我需要花一周寫代碼才能做的實驗。”他說。

“我還沒覺得它到了可以放手讓它主導整個設計的程度,”他補充道,“但當你看到它做出了一件需要花一周時間才能完成的事,這很難反駁。”

帕喬基的計劃是把 Codex 這類工具現有的問題解決能力大幅增強,然后推廣到各個科學領域。唐尼也認為自動化研究員的構想非常酷:“如果明天早上回來,發現智能體干了一堆活,有新結果可以看,那會非常令人興奮。”

但他提醒,構建這樣一個系統可能比帕喬基描述的要難。去年夏天,唐尼和同事們在一系列科學任務上測試了幾個頂尖大語言模型。OpenAI 最新的模型 GPT-5 名列前茅,盡管它仍然會犯很多錯誤。

“如果你需要把多個任務串聯在一起,連續做對好幾個的概率往往會下降。”他說。唐尼承認這個領域進展很快,他還沒有測試最新版本的 GPT-5(OpenAI 兩周前發布了 GPT-5.4)。“所以那些結果可能已經過時了。”他說。


安全性與治理的關鍵未解問題

那么,一個在幾乎沒有人類監督的情況下能獨立解決復雜問題的系統,可能帶來哪些風險?帕喬基告訴《麻省理工科技評論》,OpenAI 內部一直在討論這些風險。

“如果你相信 AI 即將顯著加速研究,包括 AI 自身的研究,這對世界來說是一個巨大的變化,這是一件大事。”他告訴《麻省理工科技評論》,“而且,伴隨著一些嚴肅的未解問題。如果它這么聰明、這么能干,能運行整個研究項目,萬一它做了壞事呢?”

在帕喬基看來,這種情況可能以多種方式發生:系統可能失控,可能被黑客入侵,也可能只是誤解了指令。

目前 OpenAI 應對這些問題的最主要技術手段,是訓練推理模型在工作過程中分享它們正在做什么的細節。這種監控大語言模型的方法被稱為“思維鏈監控”(chain-of-thought monitoring)。

簡單來說,大語言模型在逐步執行任務時,會被訓練在一種“草稿本”上記錄自己正在做的事情。研究人員可以通過這些筆記,在一定程度上用于分析和評估模型行為。近日,OpenAI 發布了關于如何在內部使用思維鏈監控來研究 Codex 的新細節。

“一旦系統開始在大型數據中心里長時間自主運行,我認為思維鏈監控將成為我們真正依賴的東西。”帕喬基說。

其設想是用其他大語言模型來監控 AI 研究員的草稿本,在不良行為成為問題之前就識別到它,而不是試圖從一開始就阻止不良行為的發生。人類對大語言模型的理解還不夠深入,無法做到完全控制。

“我覺得要真正說‘好了,這個問題解決了’,還需要很長時間,”他說,“在你能真正信任這些系統之前,你肯定需要有限制措施。”帕喬基認為,強大的模型應該部署在沙箱環境中,與任何它們可能破壞或利用來造成傷害的東西隔離開。

現在,AI 工具已經被用于發起新型網絡攻擊,有人擔心它們會被用來設計合成病原體作為生物武器。“這將是一件非常奇異的事情。這是一種在某些方面前所未有的高度集中的權力,”帕喬基說,“想象一下,你進入一個世界,一個數據中心就能完成 OpenAI 或 Google 能做的全部工作。過去需要大型組織才能完成的事情,現在幾個人就夠了。”他認為,這對各國政府來說是一個巨大的挑戰。

但有些人會說,政府本身就是問題的一部分。比如,美國政府想在戰場上使用 AI。Anthropic 與五角大樓最近的對峙表明,社會各界對于這項技術應該和不應該被如何使用遠未達成共識,更不用說由誰來劃定紅線。在那場爭端的緊接著,OpenAI 就站出來與五角大樓簽了協議,取代了競爭對手。局面仍然混沌不明。

《麻省理工科技評論》就此追問帕喬基:是真的相信其他人能解決這些問題,還是作為未來的關鍵設計者,感受到了個人責任?“我確實感受到了個人責任,”他說,“但我不認為 OpenAI 僅憑自己就能解決這個問題,無論是把技術推向某個特定方向還是以某種特定方式設計產品。我們肯定需要政策制定者的大量參與。”

那么,我們現在身處何處?真的走在通往帕喬基所描繪的那種 AI 的道路上嗎?“我在這個領域待了二十多年了,我已經不敢相信自己對某些能力到底還有多遠的預判了。”他說。

OpenAI 的公開使命是確保通用 AI(一種假想的未來技術,許多 AI 樂觀派相信它將能在大多數認知任務上與人類匹敵)造福全人類。OpenAI 計劃通過率先造出它來實現這一目標。但帕喬基在與《麻省理工科技評論》的對話中只提到過一次 AGI,而且他很快就用“具有經濟變革性的技術”這個說法進行了替代。

大語言模型和人腦不一樣,他說:“它們在某些方面和人類表面上相似,因為它們基本上是在人類語言上訓練的。但它們不是通過進化形成的,不像人類那樣高效。”

“即使到 2028 年,我也不預期我們會得到在所有方面都和人一樣聰明的系統。”他補充道,“我不認為它會發生,但我不認為那是絕對必要的。有趣的是,你不需要在所有方面都和人一樣聰明,就能產生巨大的變革力量。”

https://www.technologyreview.com/2026/03/20/1134438/openai-is-throwing-everything-into-building-a-fully-automated-researcher/

排版:劉雅坤

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
想拿中國尿素救春耕?先把欠中企的百億欠款還了!否則一粒不售

想拿中國尿素救春耕?先把欠中企的百億欠款還了!否則一粒不售

阿七說史
2026-03-27 15:24:58
一場96:100讓季后賽格局重新洗牌!遼寧運氣太好,青島坐穩前8

一場96:100讓季后賽格局重新洗牌!遼寧運氣太好,青島坐穩前8

后仰大風車
2026-03-30 06:38:16
楊振寧離世5個月,翁帆遠赴英國真相曝光,藏21年的秘密瞞不住了

楊振寧離世5個月,翁帆遠赴英國真相曝光,藏21年的秘密瞞不住了

離離言幾許
2026-03-13 22:38:05
放棄保級專家!熱刺鎖定失業主帥,只為激活 6000 萬水貨標王

放棄保級專家!熱刺鎖定失業主帥,只為激活 6000 萬水貨標王

奶蓋熊本熊
2026-03-30 03:18:52
里夫斯怒了:東契奇還要得多少分才能拿MVP?難道要場均砍60分?

里夫斯怒了:東契奇還要得多少分才能拿MVP?難道要場均砍60分?

仰臥撐FTUer
2026-03-29 09:54:02
一句顧客像狗,羅技兩天蒸發5.7億:毀掉深耕30年的中國市場!

一句顧客像狗,羅技兩天蒸發5.7億:毀掉深耕30年的中國市場!

有范又有料
2026-03-28 18:38:15
馬航370憑空消失,一位美國中情局退休特工說出真相,后來被滅口

馬航370憑空消失,一位美國中情局退休特工說出真相,后來被滅口

文史達觀
2024-08-10 13:53:48
辛納2-0奪冠,ATP積分更新:逼近阿卡,萊赫奇卡升至第15

辛納2-0奪冠,ATP積分更新:逼近阿卡,萊赫奇卡升至第15

老骾體育解說
2026-03-30 07:59:25
票房從7.19億暴跌至490萬,金字招牌已崩塌

票房從7.19億暴跌至490萬,金字招牌已崩塌

最美的筆觸
2026-03-29 15:19:58
我剛從印度回來,談談一些可能讓人不太舒服的真話,句句扎心

我剛從印度回來,談談一些可能讓人不太舒服的真話,句句扎心

千秋文化
2026-03-27 20:33:46
越南成品油價格大幅下調

越南成品油價格大幅下調

緬甸中文網
2026-03-27 13:37:49
我做兇宅試睡員10年,我見過上百套兇宅,最終栽在了一套江景房里

我做兇宅試睡員10年,我見過上百套兇宅,最終栽在了一套江景房里

千秋文化
2026-03-28 21:31:38
10億播放的“玉芬”神曲,憑什么火遍全網

10億播放的“玉芬”神曲,憑什么火遍全網

情感大頭說說
2026-03-28 11:59:18
網紅暗諷張雪峰引人民日報批評終自食惡果

網紅暗諷張雪峰引人民日報批評終自食惡果

楓塵余往逝
2026-03-29 09:07:25
馬刺崛起!瓦塞爾自信攤牌:我們天賦滿滿,全聯盟都要小心了!

馬刺崛起!瓦塞爾自信攤牌:我們天賦滿滿,全聯盟都要小心了!

仰臥撐FTUer
2026-03-30 09:44:04
規劃圖曝光!南市食品街將開工!市中心版的“唐山宴”要來了?

規劃圖曝光!南市食品街將開工!市中心版的“唐山宴”要來了?

天津人
2026-03-30 07:04:05
96比100負于上海隊,山西男籃雖敗猶榮

96比100負于上海隊,山西男籃雖敗猶榮

錦繡太原
2026-03-30 09:22:08
“329上凱道討公道”人數不如預期?港媒:群眾熱情減退,柯文哲警訊

“329上凱道討公道”人數不如預期?港媒:群眾熱情減退,柯文哲警訊

海峽導報社
2026-03-30 07:25:08
別想再回國!中國體壇 4 大叛徒,奪冠后否認是國人,如今遭報應

別想再回國!中國體壇 4 大叛徒,奪冠后否認是國人,如今遭報應

姩姩有娛
2026-03-28 15:00:25
美國收到中國商務部反制通知,24小時內特朗普白宮贊華

美國收到中國商務部反制通知,24小時內特朗普白宮贊華

魔法污
2026-03-29 11:49:43
2026-03-30 10:07:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16505文章數 514812關注度
往期回顧 全部

科技要聞

DeepSeek“崩了”一夜,仍無法正常使用

頭條要聞

牛彈琴:開戰30天后 一場更猛烈的風暴即將到來

頭條要聞

牛彈琴:開戰30天后 一場更猛烈的風暴即將到來

體育要聞

絕殺衛冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

汪峰定律再現!李榮浩喊話單依純侵權

財經要聞

油價沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態度原創

旅游
本地
教育
藝術
健康

旅游要聞

香江四季繁花盛,灣區共促“賞花經濟”正當時

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

教育要聞

被焦慮壓垮的童年:中小學心理問題的系統性反思

藝術要聞

毛主席的草案遭吐槽!退休前能否再創輝煌?

干細胞抗衰4大誤區,90%的人都中招

無障礙瀏覽 進入關懷版