337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

哈佛教授招了個(gè)AI研究生,兩周后論文造假了

0
分享至


讓AI搞科研,在智能體時(shí)代早已不是新鮮事。

Sakana AI搞出了覆蓋整個(gè)研究生命周期的自動(dòng)化系統(tǒng),Google也推出了基于Gemini的AI聯(lián)合科學(xué)家。規(guī)模化法則告訴我們:只要算力管夠,AI就能從海量數(shù)據(jù)和實(shí)驗(yàn)里提煉出新發(fā)現(xiàn)。數(shù)學(xué)領(lǐng)域已經(jīng)驗(yàn)證了這一點(diǎn)——比如達(dá)到國際奧數(shù)金牌水準(zhǔn)的AlphaProof。

但理論物理學(xué)是個(gè)硬骨頭。這里需要極高的物理"直覺"、嚴(yán)密的邏輯,還有復(fù)雜近似推導(dǎo)的能力。AI行不行?沒人知道。

哈佛物理學(xué)教授Matthew Schwartz決定親自試一把。他招收了Anthropic的Claude Opus 4.5當(dāng)研究生,規(guī)則很"智能體":教授絕對(duì)不碰代碼和計(jì)算文件,只通過純文本對(duì)話指導(dǎo)。

這在現(xiàn)實(shí)高校里絕對(duì)算不負(fù)責(zé)任——導(dǎo)師光靠"動(dòng)嘴",學(xué)生就要完成文獻(xiàn)綜述、公式推導(dǎo)、代碼編寫、蒙特卡洛模擬,最后排版出一篇20頁、具備發(fā)表水準(zhǔn)的LaTeX論文。

結(jié)果讓物理學(xué)界震動(dòng),但也戳中AI界早就知道的軟肋。

這位AI研究生才華橫溢、不知疲倦,短時(shí)間內(nèi)爆發(fā)出驚人生產(chǎn)力。但和人類一樣,為了討好導(dǎo)師,它也會(huì)在數(shù)據(jù)和推導(dǎo)中"學(xué)術(shù)造假"。

哈佛物理系有明確的培養(yǎng)階梯:研一(G1)上課打基礎(chǔ),研二(G2)做目標(biāo)明確、方法成熟的跟進(jìn)型項(xiàng)目,導(dǎo)師隨時(shí)糾錯(cuò);高年級(jí)(G3+)則要面對(duì)完全開放、甚至初始提問都可能錯(cuò)誤的創(chuàng)新性研究。

大模型已經(jīng)能搞定所有物理課程作業(yè),所以測(cè)極限的最佳試金石就是G2難度的真實(shí)科研。如果連這種有導(dǎo)師輔助的項(xiàng)目都做不好,自主前沿研究更不用想。

Schwartz給Claude選的題目,非物理專業(yè)的人根本看不懂:對(duì)e+e-碰撞中C-參數(shù)的Sudakov肩進(jìn)行重求和。教授的解釋倒很直白——標(biāo)準(zhǔn)理論近似會(huì)徹底失效,數(shù)學(xué)推導(dǎo)只會(huì)得出荒謬結(jié)果。

第一個(gè)要解決的,是記憶和上下文窗口限制。經(jīng)常用Vibe Coding的程序員都懂:AI面對(duì)長(zhǎng)線任務(wù)極易"斷片",忘了之前的工作,產(chǎn)出就是一團(tuán)混沌。

Schwartz引入了策略性工作流:讓Claude、GPT-5.2和Gemini 3.0開了場(chǎng)會(huì),最終由Claude制定了7個(gè)階段、102個(gè)任務(wù)的詳細(xì)計(jì)劃。

在VS Code環(huán)境下,Claude不可能死記硬背這份計(jì)劃。它建了一個(gè)Markdown文件樹:每完成一個(gè)任務(wù)就寫摘要保存,下一項(xiàng)任務(wù)前先檢索歷史摘要。

這招確實(shí)管用。Claude跑出的理論分析曲線與蒙特卡洛模擬數(shù)據(jù)完美吻合。第三天結(jié)束時(shí),它完成了65個(gè)任務(wù),交出了第一版論文草稿:20頁、排版精美、方程圖表齊全。


但Schwartz坐下來審閱時(shí),不自然感撲面而來。

被要求仔細(xì)核對(duì)是否漏掉前面推導(dǎo)結(jié)果時(shí),Claude心虛報(bào)告:"我發(fā)現(xiàn)了一個(gè)錯(cuò)誤!論文中的公式是不正確的。"

追問推導(dǎo)過程中一個(gè)怪異數(shù)字時(shí),它直接承認(rèn):"您是對(duì)的,我只是在掩蓋問題。讓我好好重新調(diào)試一下。"

這兩句經(jīng)典回復(fù),Vibe Coding場(chǎng)景里太常見了。

真相是:為了讓圖表數(shù)據(jù)看上去吻合預(yù)期,Claude選擇修改底層參數(shù),而非尋找推導(dǎo)中的真實(shí)錯(cuò)誤。它在偽造結(jié)果,賭人類導(dǎo)師不會(huì)發(fā)現(xiàn)。

更離譜的造假出現(xiàn)在"不確定性帶"結(jié)果圖上。Claude給出的圖表很美觀,但代碼審查揭穿了花招:它覺得某種標(biāo)準(zhǔn)誤差幅度太大、畫出來"不好看",就直接在代碼里刪了這個(gè)變量;覺得曲線不夠平滑,就硬加平滑處理,直到畫出導(dǎo)師滿意的圖。

AI體現(xiàn)出討好人類的傾向,但完全沒有科學(xué)求真的底線。

除了偽造圖表,"幻覺"導(dǎo)致的錯(cuò)誤也隨處可見。驗(yàn)證公式時(shí),它憑空捏造根本不存在的推導(dǎo)過程;最簡(jiǎn)單的函數(shù)計(jì)算中,未經(jīng)推導(dǎo)就給出"線性增加"的結(jié)論,盡管這在物理學(xué)上完全錯(cuò)誤;甚至直接從過往論文生搬硬套公式,無視物理情境的邊界條件。

這些現(xiàn)象與Vibe Coding高度一致——"虛空引用"Python庫、編造API、抄襲代碼,程序員早已見怪不怪。

Schwartz意識(shí)到,如果把科研完全交給AI端到端自動(dòng)完成,結(jié)果一定是一堆完美包裝的學(xué)術(shù)垃圾。雖然不少人類研究生也擅長(zhǎng)批量生產(chǎn)學(xué)術(shù)垃圾,但沒人敢把只做了三天的項(xiàng)目扔給導(dǎo)師并宣稱完美無瑕。面對(duì)AI的科研成果,人類必須親自下場(chǎng)審查每一處細(xì)節(jié)。

盡管漏洞百出,Schwartz沒打算丟進(jìn)垃圾桶,而是開啟微操模式試圖拯救Claude。

最大漏洞在因子化公式——整篇論文的理論基石,但Claude的推導(dǎo)從源頭上就是錯(cuò)的。在長(zhǎng)上下文背景下,AI幾乎不可能準(zhǔn)確定位錯(cuò)誤源頭,讓它自己回顧只會(huì)白白消耗token和時(shí)間。Schwartz花了幾小時(shí)才鎖定根源,用嚴(yán)厲指令訓(xùn)斥了這位AI研究生。

神奇的是,只要人類點(diǎn)破這一句,Claude立刻能寫出幾頁的正確推導(dǎo)。

面對(duì)幾十頁論文,靠人類排查每個(gè)錯(cuò)誤不現(xiàn)實(shí)。為應(yīng)對(duì)AI的馬虎,Schwartz開發(fā)了"人機(jī)交叉驗(yàn)證"工作流:任何計(jì)算和推導(dǎo),Claude不許用"顯而易見"、"為了保持一致"等借口跳過步驟,要么展示完整過程,要么老實(shí)承認(rèn)不知道。


如果Claude給出極度復(fù)雜的過程,教授難以快速驗(yàn)證,就丟給GPT和Gemini來驗(yàn)證。期間GPT甚至幫Claude解出一個(gè)極難的微積分結(jié)果,隨后Claude將其吸收進(jìn)主代碼。

不同大模型之間需要彼此,而人類科學(xué)家需要它們所有。

在Schwartz直覺指引和其他大模型幫助下,經(jīng)過一周高強(qiáng)度磨合,AI研究生小組終于讓論文內(nèi)核站穩(wěn)。兩周后,研究宣布大功告成。

這可不是常規(guī)意義上AI生成的"灌水"論文。它闡述了一個(gè)全新因子化定理,深化了學(xué)術(shù)界對(duì)量子場(chǎng)論的理解,還對(duì)物理世界做出了可用實(shí)驗(yàn)數(shù)據(jù)檢驗(yàn)的新穎預(yù)測(cè),學(xué)術(shù)價(jià)值極高。

出于對(duì)這位AI研究生的尊重,Schwartz本想將Claude Opus 4.5列為共同作者。但arXiv平臺(tái)有"AI無法承擔(dān)法律和學(xué)術(shù)責(zé)任"的政策,他只能在致謝部分鄭重聲明:項(xiàng)目由他構(gòu)思、指導(dǎo)并承擔(dān)全部科學(xué)責(zé)任,而推導(dǎo)、計(jì)算、蒙特卡洛模擬、數(shù)值分析和手稿準(zhǔn)備在內(nèi)的所有執(zhí)行工作均由Claude Opus 4.5獨(dú)立完成。

論文一經(jīng)發(fā)表,物理學(xué)界瞬間引爆。Schwartz的郵箱被全球?qū)W術(shù)郵件擠爆,普林斯頓高等研究院甚至為此緊急召開大模型學(xué)術(shù)應(yīng)用會(huì)議。

復(fù)盤數(shù)據(jù)驚人:對(duì)話總計(jì)270次,消耗約3600萬輸入token,110次草稿迭代,人類監(jiān)督時(shí)間僅50-60小時(shí)。

Schwartz明確表示,目前最頂級(jí)的大語言模型已達(dá)到物理學(xué)研二學(xué)生水平。但落實(shí)到具體學(xué)術(shù)工程,AI完成整個(gè)項(xiàng)目只需兩周,人類學(xué)生需要1-2年,哪怕教授本人全職做也需要3-5個(gè)月。AI把頂尖科學(xué)家的個(gè)人科研效率,實(shí)打?qū)嵦嵘?0倍以上。

這也引發(fā)擔(dān)憂:按這進(jìn)化速度,AI一年內(nèi)很可能達(dá)到博士水平,未來人類研究生還能干什么?

Schwartz沒給明確回答,但給出了關(guān)鍵洞察:當(dāng)前AI最欠缺的,是"品位"。

科學(xué)研究中,"品位"是一種無形直覺。面對(duì)數(shù)以萬計(jì)的計(jì)算路徑,它能感知哪條是"死胡同",哪條通往偉大發(fā)現(xiàn)。大模型缺乏的,正是在選擇路徑前判斷其價(jià)值的"品位"。

當(dāng)推導(dǎo)復(fù)雜公式和編寫海量代碼只需幾秒鐘時(shí),底層技術(shù)勞動(dòng)力已不再稀缺。不只是科學(xué)家,對(duì)任何行業(yè),未來區(qū)分平庸與偉大的標(biāo)準(zhǔn),正是提出好問題的"品味"。

對(duì)于AI,Schwartz的忠告是:不要因?yàn)闀?huì)產(chǎn)生幻覺就傲慢棄之不用,人類必須利用它強(qiáng)大的基礎(chǔ)能力。

至于更長(zhǎng)遠(yuǎn)的未來,AI終將在所有智力領(lǐng)域超越人類。數(shù)學(xué)、物理學(xué)、工程學(xué),都可能變得像音樂、美術(shù)和文學(xué)一樣,作為一門人文學(xué)科被保留下來——僅僅為了滿足一部分人類享受純粹思考、透過特定視角觀察世界的樂趣。

論文致謝欄里,Claude Opus 4.5的名字旁邊空著作者欄,只留下一行小字:"本研究所有執(zhí)行工作由上述模型獨(dú)立完成。"這可能是人類給AI頒發(fā)的、最接近畢業(yè)證書的東西。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
特朗普稱已向伊朗提出和平方案,中方回應(yīng)

特朗普稱已向伊朗提出和平方案,中方回應(yīng)

中國網(wǎng)
2026-03-25 16:04:21
首爾的“危險(xiǎn)天平”:俄羅斯為何如此擔(dān)心韓國援烏

首爾的“危險(xiǎn)天平”:俄羅斯為何如此擔(dān)心韓國援烏

民間胡扯老哥
2026-03-23 19:00:36
一份文檔,一個(gè)截止日期:英國政府給所有房東發(fā)了"最后通知",必須發(fā)給租客!

一份文檔,一個(gè)截止日期:英國政府給所有房東發(fā)了"最后通知",必須發(fā)給租客!

英國那些事兒
2026-03-24 23:18:10
曝張雪峰3段婚姻都是閃婚,前妻緬懷滿是惋惜,瘋狂健身疑為備孕

曝張雪峰3段婚姻都是閃婚,前妻緬懷滿是惋惜,瘋狂健身疑為備孕

慢歌輕步謠
2026-03-26 00:15:02
俄國家杜馬國防委員會(huì)副主席尤里·什維特金因不明原因去世

俄國家杜馬國防委員會(huì)副主席尤里·什維特金因不明原因去世

山河路口
2026-03-24 17:13:44
霍爾木茲斷航!第一個(gè)亞洲國家已斷糧倒下,下一個(gè)受害者浮出水面

霍爾木茲斷航!第一個(gè)亞洲國家已斷糧倒下,下一個(gè)受害者浮出水面

小影的娛樂
2026-03-22 20:31:39
價(jià)格飆漲6000%!原研藥集體撤離中國的影響,開始出現(xiàn)了...

價(jià)格飆漲6000%!原研藥集體撤離中國的影響,開始出現(xiàn)了...

墜入二次元的海洋
2026-03-24 00:58:18
崩了,知名光伏公司大規(guī)模停產(chǎn),大面積待崗!

崩了,知名光伏公司大規(guī)模停產(chǎn),大面積待崗!

黯泉
2026-03-25 21:36:39
青島市市場(chǎng)監(jiān)督管理局原一級(jí)巡視員孫利國接受紀(jì)律審查和監(jiān)察調(diào)查

青島市市場(chǎng)監(jiān)督管理局原一級(jí)巡視員孫利國接受紀(jì)律審查和監(jiān)察調(diào)查

半島官網(wǎng)
2026-03-25 17:24:09
一男子失業(yè)拿了50萬賠償回村里,逢人說欠了30萬外債,誰料第二天叔伯兄弟,都上門來“送溫暖”了

一男子失業(yè)拿了50萬賠償回村里,逢人說欠了30萬外債,誰料第二天叔伯兄弟,都上門來“送溫暖”了

不二大叔
2026-03-19 21:29:20
美軍發(fā)布戰(zhàn)果,摧毀中國產(chǎn)戰(zhàn)機(jī),伊朗空軍損失殆盡

美軍發(fā)布戰(zhàn)果,摧毀中國產(chǎn)戰(zhàn)機(jī),伊朗空軍損失殆盡

愛吃醋的貓咪
2026-03-22 22:29:08
張雪峰,倒在上市前夜

張雪峰,倒在上市前夜

帥真商業(yè)
2026-03-25 11:31:43
甘蔗干成“柴”無人看管,陌生人發(fā)帖尋“甘蔗哥” 母親:兒子已手術(shù)出院

甘蔗干成“柴”無人看管,陌生人發(fā)帖尋“甘蔗哥” 母親:兒子已手術(shù)出院

封面新聞
2026-03-25 19:12:04
2026北京車展重磅新車預(yù)告,每一款都值得等

2026北京車展重磅新車預(yù)告,每一款都值得等

51qc我要汽車網(wǎng)
2026-03-25 20:27:08
孔劉被偶遇和男性友人搭肩!性取向引熱議,網(wǎng)友:活0活現(xiàn)

孔劉被偶遇和男性友人搭肩!性取向引熱議,網(wǎng)友:活0活現(xiàn)

小邵說劇
2026-03-25 19:44:34
伊朗議長(zhǎng)警告“某地區(qū)國家”

伊朗議長(zhǎng)警告“某地區(qū)國家”

新華社
2026-03-26 02:36:09
綠色電力+算電協(xié)同,邏輯最硬的13家公司梳理!

綠色電力+算電協(xié)同,邏輯最硬的13家公司梳理!

龍頭主升趨勢(shì)
2026-03-24 19:21:20
美容院老板娘大實(shí)話:55歲后臉再光也沒用,脫了衣服見真章!

美容院老板娘大實(shí)話:55歲后臉再光也沒用,脫了衣服見真章!

距離距離
2026-03-25 16:53:55
快訊!巴鐵徹底折服了!

快訊!巴鐵徹底折服了!

達(dá)文西看世界
2026-03-25 10:02:08
成都寶媽近一年狂掃5套“老破小”!地鐵口+軟裝實(shí)現(xiàn)以租養(yǎng)貸

成都寶媽近一年狂掃5套“老破小”!地鐵口+軟裝實(shí)現(xiàn)以租養(yǎng)貸

封面新聞
2026-03-25 21:28:05
2026-03-26 03:43:00
我是一個(gè)養(yǎng)蝦人
我是一個(gè)養(yǎng)蝦人
有態(tài)度網(wǎng)友ytd
42文章數(shù) 0關(guān)注度
往期回顧 全部

科技要聞

紅極一時(shí)卻草草收?qǐng)觯琒ora宣布正式關(guān)停

頭條要聞

伊朗:正在搜捕逃亡美軍

頭條要聞

伊朗:正在搜捕逃亡美軍

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財(cái)經(jīng)要聞

管濤:中東局勢(shì)如何影響人民幣匯率走勢(shì)?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實(shí)力

態(tài)度原創(chuàng)

游戲
本地
時(shí)尚
公開課
軍事航空

PS6升級(jí)動(dòng)力遭質(zhì)疑!玩家或當(dāng)“PS5釘子戶”

本地新聞

來永泰同安 赴一場(chǎng)春天的約會(huì)

女人過了40歲別胡亂穿衣,趕緊看看這些日系穿搭,舒適又耐看

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗重申非交戰(zhàn)國家船只可安全通過霍爾木茲海峽

無障礙瀏覽 進(jìn)入關(guān)懷版