網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

毀三觀！被中國(guó)研究員扒出AI 論文造假后，蘋(píng)果竟然直接刪庫(kù)跑路了！

2025-12-01 18:40:30　來(lái)源: AI先鋒官

北京舉報(bào)

分享至

ICLR 2026 （國(guó)際學(xué)術(shù)表征會(huì)議）將于明年 4 月在巴西里約熱內(nèi)盧召開(kāi)。目前（11 月11 日—12月3 日）為論文的作者-評(píng)審階段。

最近，這個(gè)國(guó)際頂級(jí) AI 會(huì)議，爆出了個(gè)“讓業(yè)界都震驚了”的大丑聞。

征集階段，蘋(píng)果研究團(tuán)隊(duì)提交了一篇論文，標(biāo)題為《推理究竟哪里出錯(cuò)了？》（Where Did the Reasoning Go Wrong?）。

這篇論文提出名為 PRISM-Bench 的基準(zhǔn)測(cè)試，稱(chēng)能專(zhuān)門(mén)檢測(cè)多模態(tài)大模型在推理時(shí)的第一處錯(cuò)誤。

論文被上海“階躍星辰”研究員 Lei yang看到后，他把階躍星辰模型適配到 Benchmark 上做了實(shí)驗(yàn)。

結(jié)果，他發(fā)現(xiàn)自家模型跑分，低得離譜。

于是，他開(kāi)始排查自己的集成方式，但在查閱 Apple 官方代碼時(shí)，他看到了一個(gè)震碎三觀的低級(jí) Bug。

在調(diào)用視覺(jué)語(yǔ)言模型進(jìn)行推理時(shí)，本該傳入圖片像素?cái)?shù)據(jù)，代碼卻錯(cuò)誤地只傳了圖片的存儲(chǔ)路徑字符串。

也就是說(shuō)，模型壓根沒(méi)看到圖，只是讀到了一行類(lèi)似“D盤(pán)/圖片/01.jpg”的文字。

于是， Lei Yang 順手改了 Bug，還把真正的圖片傳了進(jìn)去。

結(jié)果，分?jǐn)?shù)反而更低了。

這意味著，在蘋(píng)果公司提交的這個(gè) Benchmark 里，模型瞎蒙的效果，比實(shí)際看圖還要好。

也就是說(shuō)，其數(shù)據(jù)集本身存在巨大的邏輯漏洞，或者更可能的是，純粹是為了湊數(shù)的擺設(shè)。

帶著這個(gè)懷疑， Lei Yang 決定放棄代碼，直接人工檢查數(shù)據(jù)。

他隨機(jī)選擇了模型答錯(cuò)的前20道題，結(jié)果，有 6 個(gè)題的標(biāo)準(zhǔn)答案本身就是錯(cuò)的。

真是震碎了三觀！

就此， Lei Yang在 GitHub 上認(rèn)真提交了一個(gè)問(wèn)題反饋。

沒(méi)想到，接下來(lái) Apple 作者團(tuán)隊(duì)的操作，讓人大跌眼鏡。

6 天后，他們敷衍的給出了一個(gè)簡(jiǎn)短回復(fù)，然后，然后，就連夜撤稿，刪庫(kù)跑路了！

之后，Lei Yang 提出強(qiáng)烈抗議，他們才又不得不重新恢復(fù)。

被蘋(píng)果式傲慢激怒的Lei Yang，最后選擇了將這一丑聞公之于眾。

他用“可怕的錯(cuò)誤”來(lái)形容蘋(píng)果論文的 bug，公布了 20 道題的測(cè)試文件，還表示，這些示例的“真實(shí)推理過(guò)程”也包含大量幻覺(jué)和錯(cuò)誤。

比如，在論文附錄的 Figure 11 里，題目要求找一條直線和一條曲線，圖里明明是相切，AI 生成的“正確推理”，卻說(shuō)這一步錯(cuò)了，理由是“這圖里展示的是相交” 。

更吊詭的是，有網(wǎng)友查詢(xún)蘋(píng)果論文原文發(fā)現(xiàn)，在第 4 頁(yè)上煞有介事的寫(xiě)著，“所有的思維鏈都經(jīng)過(guò)標(biāo)注員審查，以確保……錯(cuò)誤位置清晰明確”。

簡(jiǎn)直是自欺欺人！

還有更恐怖的。在該論文的 Table 2 中，作者列出了一大堆模型在這個(gè) Benchmark 上的跑分。比如，GPT-5 跑了 52.6%，Qwen2.5-VL 跑了 57.0%。

這些精確到小數(shù)點(diǎn)后一位的分?jǐn)?shù)，到底是怎么跑出來(lái)的？！！！

除了蘋(píng)果公司本身的不靠譜，還可以繼續(xù)追問(wèn)的是，這篇論文有 5 位審稿人，而論文發(fā)表的場(chǎng)合 ICLR，更是AI 界的頂級(jí)會(huì)議。這些評(píng)審都在做啥？

我們來(lái)看看審稿人們的評(píng)價(jià)。

這位審稿人評(píng)價(jià)為Soundness: 4 excellent（可靠性：極佳）的評(píng)價(jià)。

這位審稿人的評(píng)價(jià)是Soundness: 3 good（可靠性：3 良好），并稱(chēng)其“提供了詳細(xì)的復(fù)現(xiàn)細(xì)節(jié)”。

這顯然與Lei Yang的復(fù)現(xiàn)結(jié)果大相徑庭，這位評(píng)審真的去認(rèn)真復(fù)現(xiàn)了么？

有網(wǎng)友揭秘稱(chēng)，蘋(píng)果從2023年開(kāi)始，每年發(fā)一篇實(shí)際上并不靠譜的論文，詆毀大模型。

比如，2023 年的《ReLU 強(qiáng)勢(shì)回歸：利用大語(yǔ)言模型的激活稀疏性》，2024 年的

《GSM?Symbolic：理解大語(yǔ)言模型在數(shù)學(xué)推理中的局限性》。

開(kāi)始時(shí)，還有很多人叫好，去年開(kāi)始受到不少質(zhì)疑，沒(méi)想到今年就翻車(chē)了，而且還這么徹底。

沒(méi)想到高大上的蘋(píng)果公司，還有 AI 頂級(jí)學(xué)術(shù)界，也會(huì)“草臺(tái)班子”如此。

但幸好還有來(lái)自中國(guó)上海 AI 公司階躍星辰的這位較真的Lei Yang！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

Nature重磅：AI寫(xiě)的論文，在頂會(huì)同行評(píng)審擊敗55%人類(lèi)，單篇15美元

新智元 2026-03-28 14:07:45
34 跟貼 34
接陌生電話不要先出聲

大象新聞 2026-03-29 07:29:10
865 跟貼 865

315曝光GEO投毒產(chǎn)業(yè)鏈？別慌！CMU首提無(wú)毒的合作式AutoGEO

新智元 2026-03-28 14:07:34
0 跟貼 0

行業(yè)最大規(guī)模具身數(shù)據(jù)集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
科氪 | 變革傳統(tǒng)同傳設(shè)備，亮亮視野推出全球首創(chuàng)AR+AI會(huì)議翻譯系統(tǒng)，部署中關(guān)村論壇

36氪 2026-03-29 18:10:23
0 跟貼 0

行業(yè)最大規(guī)模具身數(shù)據(jù)集！出自簡(jiǎn)智機(jī)器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0

專(zhuān)訪國(guó)務(wù)院參事劉遠(yuǎn)立：在某些領(lǐng)域，AI全科醫(yī)生能力不遜色于受過(guò)正規(guī)訓(xùn)練的醫(yī)生

每日經(jīng)濟(jì)新聞 2026-03-29 17:12:02
0 跟貼 0
高校密集發(fā)文規(guī)范“借助AI寫(xiě)論文”，學(xué)術(shù)造假邊界在哪？｜封面深鏡

封面新聞 2026-03-27 20:57:02
43 跟貼 43

教育產(chǎn)業(yè)日?qǐng)?bào)(03.28) : 谷歌學(xué)術(shù)造假風(fēng)波

億歐 2026-03-29 11:53:51
0 跟貼 0
詳細(xì)盤(pán)點(diǎn)！各大高校法學(xué)博士的畢業(yè)條件（含論文發(fā)表要求）

北大法律信息網(wǎng) 2026-03-29 10:07:04
0 跟貼 0
谷歌一夜塌房！干崩內(nèi)存股論文被曝抄襲，華人學(xué)者血淚控訴

新智元 2026-03-28 15:36:22
16 跟貼 16
蘋(píng)果用實(shí)力回?fù)?GB內(nèi)存不夠用！實(shí)測(cè)MacBook Neo打開(kāi)60個(gè)應(yīng)用仍流暢

快科技 2026-03-25 05:45:49
16 跟貼 16
蘋(píng)果別瞎買(mǎi)！10種常見(jiàn)蘋(píng)果全攻略。第一款和最后一款最受歡迎！

辣爸食堂 2026-03-29 12:00:33
1 跟貼 1
售價(jià)1.5萬(wàn)起？蘋(píng)果折疊屏發(fā)貨延期，網(wǎng)友：供應(yīng)商技術(shù)還沒(méi)搞定？

極果酷玩 2026-03-28 03:50:12
0 跟貼 0
曝PS6成本約760美元定價(jià)可能接近1000美元

3DM游戲 2026-03-29 20:26:09
1 跟貼 1
蘋(píng)果CEO庫(kù)克為什么發(fā)文感謝這位黃浦設(shè)計(jì)師？她把十周年首秀放在上海新天地！

上海黃浦 2026-03-29 19:04:12
1 跟貼 1
假如給你一萬(wàn)塊，你會(huì)買(mǎi)蘋(píng)果還是安卓？

小喵說(shuō)科技 2026-03-25 16:19:50
5 跟貼 5
世貿(mào)天階拆了？實(shí)為煥新升級(jí)，籃球中心謝幕，4K天幕將登場(chǎng)

新京報(bào) 2026-03-29 17:11:22
149 跟貼 149
蘋(píng)果正式回應(yīng)iPhone半夜偷打電話bug，iOS 26.3已修復(fù)

快科技 2026-03-27 12:03:42
0 跟貼 0
小伙公然教人造假，違反大自然生長(zhǎng)規(guī)律，否則拍攝周期太長(zhǎng)！

三熊愛(ài)搞笑 2026-03-27 10:57:36
1 跟貼 1
1810四年級(jí)：看著題目很難，一畫(huà)圖就簡(jiǎn)單多了

我服子佩 2026-03-26 15:21:27
1 跟貼 1
蘋(píng)果供應(yīng)鏈要變天！4家供應(yīng)商赴美建廠

快科技 2026-03-28 15:25:43
0 跟貼 0
113瓜六寫(xiě)作能力很強(qiáng)可無(wú)奈她看錯(cuò)題目押錯(cuò)題

美姐電影 2026-03-27 17:34:33
1 跟貼 1
蘋(píng)果真能助眠嗎

迷你科普知識(shí) 2026-03-28 09:01:06
1 跟貼 1
東阿阿膠同仁堂等中藥品牌入場(chǎng) 跨界圍獵千億露酒市場(chǎng)|直擊糖酒會(huì)

財(cái)聯(lián)社 2026-03-29 21:52:27
0 跟貼 0
學(xué)術(shù)界的「上帝視角」來(lái)了全人類(lèi)科研版圖第一次被鋪開(kāi)

新智元 2026-03-16 21:48:19
0 跟貼 0
思格新能源通過(guò)港交所聆訊

每日經(jīng)濟(jì)新聞 2026-03-29 20:58:05
0 跟貼 0
《逐玉》全集泄露引熱議，全流程造假遭群嘲，投資方股價(jià)創(chuàng)新低

木木愛(ài)講事兒 2026-03-27 00:49:48
1 跟貼 1
為啥越來(lái)越多人開(kāi)始懷疑學(xué)歷？上世紀(jì)70年代的諾獎(jiǎng)?wù)撐脑缇驼f(shuō)清了

知識(shí)圈 2026-03-29 13:10:14
0 跟貼 0
“愛(ài)醫(yī)時(shí)空臨床研究及論文發(fā)表精進(jìn)工作坊”蘭州站將于3月28日拉開(kāi)帷幕

新浪財(cái)經(jīng) 2026-03-27 19:40:49
0 跟貼 0
俄警告韓國(guó)勿向?yàn)跆峁┲旅晕淦?/a>

財(cái)聯(lián)社 2026-03-29 09:30:26
20744 跟貼 20744
美兩棲攻擊艦載3500名增援到達(dá)

每日經(jīng)濟(jì)新聞 2026-03-29 08:11:32
7135 跟貼 7135
上海爺叔在家"打傘做飯" 自嘲掏空三代400萬(wàn)買(mǎi)了個(gè)啥

新聞坊 2026-03-29 07:30:02
14 跟貼 14
1837四年級(jí)：只要是計(jì)算課一般都會(huì)出現(xiàn)這個(gè)類(lèi)型的題目，分析后很

我服子佩 2026-03-28 10:29:45
1 跟貼 1
黑心廠家為了掙錢(qián)連水管也造假，我很難想象這不是真的PPR管

勇敢De永 2026-03-25 04:29:53
0 跟貼 0
1847五年級(jí)提高：孩子看到題目就懵了，其實(shí)很簡(jiǎn)單，轉(zhuǎn)化之后秒懂

我服子佩 2026-03-29 15:51:16
1 跟貼 1
三年級(jí)的競(jìng)賽題目，難倒了不少尖子生啊

公考客棧店小二 2026-03-29 16:00:00
0 跟貼 0
頂尖科學(xué)家，全職加入西湖大學(xué)

TOP大學(xué)來(lái)了 2026-03-29 19:47:10
0 跟貼 0
排超總決賽：“全華班”江蘇女排贏下首回合，上海女排外援為何不靈了？

上觀新聞 2026-03-29 04:46:09
737 跟貼 737
8.68萬(wàn)新車(chē)普及車(chē)位到車(chē)位，世界模型不吃高算力！零跑夯爆了

量子位 2026-03-28 14:13:32
0 跟貼 0

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

毀三觀！被中國(guó)研究員扒出AI 論文造假后，蘋(píng)果竟然直接刪庫(kù)跑路了！

馬斯克承認(rèn)xAI"建錯(cuò)了"，11位創(chuàng)始人均離職

動(dòng)車(chē)被困隧道內(nèi)停車(chē)斷電4個(gè)小時(shí) 乘客：有人緊張暈倒

動(dòng)車(chē)被困隧道內(nèi)停車(chē)斷電4個(gè)小時(shí) 乘客：有人緊張暈倒

絕殺衛(wèi)冕冠軍后，他單手指天把勝利獻(xiàn)給父親

張凌赫事件持續(xù)升級(jí)！官方點(diǎn)名怒批

Kimi、Minimax 們的算力荒

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

孩子見(jiàn)老師躲著走？這是“權(quán)威恐懼癥”，希望娃大膽記住這幾點(diǎn)

曲線華爾茲 現(xiàn)代簡(jiǎn)約

在濰坊待了三天，沒(méi)遇到一個(gè)“濰坊人”

伊姐周日熱推：電視劇《冬去春來(lái)》；電視劇《你是遲來(lái)的歡喜》......

外網(wǎng)熱議JKL與Tian回歸TES：2024版陣容重聚，期待與爭(zhēng)議并存

嵐圖泰山X8配置曝光四激光雷達(dá)/華為新一代座艙

曲線華爾茲現(xiàn)代簡(jiǎn)約