ICLR 2026 (國(guó)際學(xué)術(shù)表征會(huì)議)將于明年 4 月在巴西里約熱內(nèi)盧召開(kāi)。目前(11 月11 日—12月3 日 )為論文的作者-評(píng)審階段。
最近,這個(gè)國(guó)際頂級(jí) AI 會(huì)議,爆出了個(gè)“讓業(yè)界都震驚了”的大丑聞。
征集階段,蘋(píng)果研究團(tuán)隊(duì)提交了一篇論文,標(biāo)題為《推理究竟哪里出錯(cuò)了?》(Where Did the Reasoning Go Wrong?) 。
![]()
這篇論文提出名為 PRISM-Bench 的基準(zhǔn)測(cè)試,稱(chēng)能專(zhuān)門(mén)檢測(cè)多模態(tài)大模型在推理時(shí)的第一處錯(cuò)誤。
![]()
論文被上海“階躍星辰”研究員 Lei yang看到后,他把階躍星辰模型適配到 Benchmark 上做了實(shí)驗(yàn)。
結(jié)果,他發(fā)現(xiàn)自家模型跑分,低得離譜。
于是,他開(kāi)始排查自己的集成方式,但在查閱 Apple 官方代碼時(shí),他看到了一個(gè)震碎三觀的低級(jí) Bug。
在調(diào)用視覺(jué)語(yǔ)言模型進(jìn)行推理時(shí),本該傳入圖片像素?cái)?shù)據(jù),代碼卻錯(cuò)誤地只傳了圖片的存儲(chǔ)路徑字符串。
也就是說(shuō),模型壓根沒(méi)看到圖,只是讀到了一行類(lèi)似“D盤(pán)/圖片/01.jpg”的文字。
![]()
于是, Lei Yang 順手改了 Bug,還把真正的圖片傳了進(jìn)去。
結(jié)果,分?jǐn)?shù)反而更低了。
這意味著,在蘋(píng)果公司提交的這個(gè) Benchmark 里,模型瞎蒙的效果,比實(shí)際看圖還要好。
也就是說(shuō),其數(shù)據(jù)集本身存在巨大的邏輯漏洞,或者更可能的是,純粹是為了湊數(shù)的擺設(shè)。
帶著這個(gè)懷疑, Lei Yang 決定放棄代碼,直接人工檢查數(shù)據(jù)。
他隨機(jī)選擇了模型答錯(cuò)的前20道題,結(jié)果,有 6 個(gè)題的標(biāo)準(zhǔn)答案本身就是錯(cuò)的。
真是震碎了三觀!
就此, Lei Yang在 GitHub 上認(rèn)真提交了一個(gè)問(wèn)題反饋。
沒(méi)想到,接下來(lái) Apple 作者團(tuán)隊(duì)的操作,讓人大跌眼鏡。
6 天后,他們敷衍的給出了一個(gè)簡(jiǎn)短回復(fù),然后,然后,就連夜撤稿,刪庫(kù)跑路了!
![]()
![]()
之后,Lei Yang 提出強(qiáng)烈抗議,他們才又不得不重新恢復(fù)。
被蘋(píng)果式傲慢激怒的Lei Yang,最后選擇了將這一丑聞公之于眾。
![]()
他用“可怕的錯(cuò)誤”來(lái)形容蘋(píng)果論文的 bug,公布了 20 道題的測(cè)試文件,還表示,這些示例的“真實(shí)推理過(guò)程”也包含大量幻覺(jué)和錯(cuò)誤。
比如,在論文附錄的 Figure 11 里,題目要求找一條直線和一條曲線,圖里明明是相切,AI 生成的“正確推理”,卻說(shuō)這一步錯(cuò)了,理由是“這圖里展示的是相交” 。
![]()
更吊詭的是,有網(wǎng)友查詢(xún)蘋(píng)果論文原文發(fā)現(xiàn),在第 4 頁(yè)上煞有介事的寫(xiě)著,“所有的思維鏈都經(jīng)過(guò)標(biāo)注員審查,以確保……錯(cuò)誤位置清晰明確”。
![]()
簡(jiǎn)直是自欺欺人!
還有更恐怖的。在該論文的 Table 2 中,作者列出了一大堆模型在這個(gè) Benchmark 上的跑分。比如,GPT-5 跑了 52.6%,Qwen2.5-VL 跑了 57.0%。
![]()
這些精確到小數(shù)點(diǎn)后一位的分?jǐn)?shù),到底是怎么跑出來(lái)的?!!!
除了蘋(píng)果公司本身的不靠譜,還可以繼續(xù)追問(wèn)的是,這篇論文有 5 位審稿人,而論文發(fā)表的場(chǎng)合 ICLR,更是AI 界的頂級(jí)會(huì)議。這些評(píng)審都在做啥?
我們來(lái)看看審稿人們的評(píng)價(jià)。
![]()
這位審稿人評(píng)價(jià)為Soundness: 4 excellent(可靠性:極佳)的評(píng)價(jià)。
![]()
這位審稿人的評(píng)價(jià)是Soundness: 3 good(可靠性:3 良好),并稱(chēng)其“提供了詳細(xì)的復(fù)現(xiàn)細(xì)節(jié)”。
這顯然與Lei Yang的復(fù)現(xiàn)結(jié)果大相徑庭,這位評(píng)審真的去認(rèn)真復(fù)現(xiàn)了么?
有網(wǎng)友揭秘稱(chēng),蘋(píng)果從2023年開(kāi)始,每年發(fā)一篇實(shí)際上并不靠譜的論文,詆毀大模型。
比如,2023 年的《ReLU 強(qiáng)勢(shì)回歸:利用大語(yǔ)言模型的激活稀疏性》,2024 年的
《GSM?Symbolic:理解大語(yǔ)言模型在數(shù)學(xué)推理中的局限性》。
開(kāi)始時(shí),還有很多人叫好,去年開(kāi)始受到不少質(zhì)疑,沒(méi)想到今年就翻車(chē)了,而且還這么徹底。
沒(méi)想到高大上的蘋(píng)果公司,還有 AI 頂級(jí)學(xué)術(shù)界,也會(huì)“草臺(tái)班子”如此。
但幸好還有來(lái)自中國(guó)上海 AI 公司階躍星辰的這位較真的Lei Yang!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.