網易首頁 > 網易號 > 正文申請入駐

一天審完兩萬篇！AAAI 2026首次實裝AI審稿，單篇成本不到1美元

2026-04-20 11:17:46　來源: 機器之心Pro

河北舉報

分享至

編輯｜Panda

AI 評審論文，到底靠譜不？

不同的人可能會有不同的答案，但毫無疑問，人們對于 AI 評審的接受度正在慢慢提升，一些頂級會議也在巨大論文投稿量壓力下開始推進此事。舉個例子，ICML 2026 就已經放寬了 AI 評審的要求，只是還不允許完全由 AI 執行評審，參閱報道《評審用不用 AI，作者說了算？ICML 2026 全新評審政策出爐》。

前兩天，另一個同樣曾被巨量投稿壓得喘不過氣來的頂級會議 AAAI 2026 也給出了自己的嘗試。要知道，該會議 Main Technical Track 共接收將近 3 萬篇投稿，評審工程量非常大。參閱報道《AAAI-26 投稿量爆炸：近 3 萬篇論文，2 萬來自中國，評審系統都快崩了》。

具體來說，AAAI 官方聯合多所大學和研究機構開展了一份試點研究：為 AAAI-26 會議的每一篇 main-track 投稿都生成了一個 AI 評審結果。

至于結果，可能在很多人的意料之中：AI 的整體表現已經勝過了人類。或者按 AAAI 官方的說法是：「對 AAAI-26 作者和程序委員會成員的大規模調查顯示，參與者不僅認為 AI 評審有用，而且在技術準確性和研究建議等關鍵維度上，實際上更偏好 AI 評審。」

報告標題：AI-Assisted Peer Review at Scale: The AAAI-26 AI Review Pilot
報告地址：https://arxiv.org/abs/2604.13940

下面我們就來具體看看這份「AAAI-26 AI 評審試點」研究報告。

當前 AI 領域面臨的評審難題

隨著 AI 技術的飛速演進，傳統的科學同行評審制度正面臨著前所未有的負荷。無論是 Nature 還是 NeurIPS 等頂尖學術殿堂，近年來的投稿數量都在以驚人的速度激增。

然而，學術界賴以生存的評審機制卻幾乎停滯不前，重度依賴著人類專家們無償投入大量的心血與時間。

在審稿人資源日益緊缺、資深學者分身乏術的窘境下，維持論文評審的高質量、評判標準的統一性以及出結果的時效性，變得越發捉襟見肘。

為了應對 AAAI 2026 創紀錄的海量投稿，大會組委會甚至迫不得已招募了超過 28000 名程序委員會成員，這一規模甚至達到了上一屆會議的三倍之多！

史無前例的大規模部署：一天內完成兩萬份深層評審

在這樣一個亟需破局的時刻，AAAI 2026 AI 評審試點項目來了，其長篇報告事無巨細地披露了他們如何在真實的頂級學術會議高壓環境中，利用前沿 LLM 對22977篇進入全面評審階段的論文執行了徹底的 AI 審查。

在此前的相關探索中，研究團隊往往只能在隔離的模擬環境里，或者是挑選少量已經發表的成熟論文來測試 AI 的審稿水平。

而這一次的 AAAI 2026 試點計劃，是整個學術界歷史上第一次在大型會議嚴苛的真實雙盲投稿流程中，直接引入且官方部署的 AI 生成式評審體系。

只要是順利進入 AAAI 2026 評審第一階段的 22977 篇主流賽道論文，其作者和評委都會收到一份帶有明確 AI 標識的評審意見。

會議組委會在實施該計劃時非常謹慎地確立了紅線：引入 AI 只是為了給整個流程提供更多維度的附加輸入，在此過程中沒有任何一位人類專家的審稿資格被算法所取代。此外，AI 生成的最終文檔里絕對不包含具體的評分數值，也不會給出諸如「接收」或「拒稿」的硬性推薦判定。相反，高級程序委員會成員（SPC）以及領域主席（AC）在做裁決時，被鼓勵將 AI 挖掘出的問題與人類專家的意見相互印證，綜合把控論文的質量并決定是否將其推進到第二階段。

令人深感震撼的是這套 AI 平臺展現出的超高效率與成本控制。

報告給出了明確的算賬結果：在頂級會議的體量下全面鋪開 AI 評審在工程操作上是完全可行且輕松的，平攤到每一篇長篇學術論文上的計算成本居然不到 1 美元。

值得一提的是，作為此次大會的重要后援，OpenAI 為該項目無償提供了支撐全局的 API 資源贊助。在包含復雜代碼沙箱與外部搜索接口的多進程工作流中，利用當前處于一流水準的 GPT-5 模型引擎，整個底層系統在短短不到 24 個小時內就處理完畢了全部兩萬多篇論文的閱讀與批改。

AAAI-26 AI 評審系統和評審生成時間線

架構解析：摒棄端到端生成，引入嚴苛的五步驗證循環

早期的對比研究已經敲響了警鐘，如果開發者圖省事，只是簡單地把長篇學術文檔丟給大模型并祈禱它直接吐出一份詳盡的審稿意見，得到的通常是浮于表面的廢話或者滿篇的幻覺。

汲取了這些教訓后，研發團隊精心構建了一條結構繁復、多環節嵌套的 LLM 工業級流水線。

考慮到頂級語言模型在處理超高分辨率像素圖像或異構多模態文檔時存在吞吐限制，系統的前置節點會對每一份 PDF 稿件進行統一的標準化預處理。其中所有的插圖均會被重新采樣至 250 DPI 以適應顯存。由于之前的壓力測試暴露出純文本提取模式常常會導致模型災難性地曲解深奧的數學公式與多級表格，技術團隊引入了針對性的 olmOCR，強行將原版 PDF 剝離并轉換為內嵌精準 LaTeX 數學符號以及結構化表格信息的 Markdown 文件。

在同時掌握了 PDF 視覺線索與 Markdown 文本之后，AI 評審系統便開始在五個核心科學審查艙內同時運作：

故事脈絡審視（Story）：嚴格考量作者的問題設定是否成立、文獻斷層的聲明是否真實、核心貢獻是否站得住腳，并判斷文中的證據鏈條是否能夠自圓其說。
表達與結構掃描（Presentation）：對行文的清晰度、章節連貫性、語法可讀性進行判別，審核復雜的技術語境是否易于同行理解。
實驗評估核對（Evaluations）：激活內嵌的 Python 代碼解釋器，像挑刺一樣審查文章選用的對標基線、測試集、統計顯著性指標，排查支撐核心主張的實驗是否存在數據漏洞，并專門針對可重復性進行拷問。
正確性推演（Correctness）：同樣依賴代碼沙箱的算力，強行推演并驗證復雜的數理公式、邏輯證明、算法偽代碼以及圖表映射數據的絕對正確性。
意義與行業定位（Significance）：授權大模型連入定制的廣域網搜索引擎進行跨庫文獻追蹤。為了防止信息污染，檢索權限被死死限定在相關頂會的正式發表文獻之中，排除一切非同行評審的預印本干擾，借此無情地評估文章的真實創新幅度并搜尋作者故意回避的對比實驗。

當這五大考驗結束后，系統會將散落的見解重組，排版生成一份格式規整、結構詳盡的初始審稿草稿。緊接著最關鍵的一步出現了：系統會啟動「自我反省批判」模塊。

大模型會被命令轉變身份，死盯著自己剛剛寫出的草稿尋找毫無依據的指責、事實層面的誤判或者是與原論文自相矛盾的段落。最后，基于自我批判生成的修正清單，大模型會重寫并輸出最終定稿的 AI 評審報告。所有的底層對話日志、中間狀態檢查點以及調試報告均被永久留存，以備人類審計。

在報告最終推送給作者之前，還有一道基于 GPT-4o-mini 的質量過濾網在靜默攔截。它專門負責篩查文本中是否由于大模型的疏忽而意外泄露了匿名的作者身份、是否存在侮辱性詞匯、是否夾帶了針對性別與地域的系統性偏見，或者結構本身遭到了破壞。只有經受住這樣的打磨，報告才能重見天日。

在六項關鍵對比中，人類被 AI 正面擊敗

無論系統的參數有多么華麗，真正的裁決權永遠掌握在社區的廣大研究者手中。為了探明這場耗資巨大的試點的實際效用，研究團隊向會議的所有利益相關方下發了追蹤問卷，最終成功回收了 5834 份反饋數據。

問卷內置了九大衡量評審質量的硬性黃金標準，受訪者需要在 5 分制的李克特量表上給出他們的評判。

最終的統計圖表揭示了一個令傳統學者略感不適的現實：在整整九項對照組中，AI 評審在其中六個維度上的均分無情地超越了由人類學者撰寫的報告。

更有趣的是，相較于挑剔的評審委員，那些被審稿的論文作者群體展現出了對 AI 審查結果更強烈的偏愛。

調查回復：AI 與人工審核對比分析 (a) 及 AI 審核問題 (b)

具體而言，AI 在以下維度展現了壓倒性的優勢（各項數據的 p-value 均展示出強悍的統計學差異）：

在精準鎖定深層技術性錯誤方面，AI 極其敏銳（均分領先幅度達到全場最高的 +0.67）。
拋出了作者在撰寫時陷入思維盲區、完全未曾顧及的重要反證（+0.61）。
為調整論述架構和優化論文圖表表達貢獻了實打實的改進指南（+0.54）。
就如何修補實驗邏輯與強化研究設計輸出了建設性的技術意見（+0.49）。
對于 AAAI 這種級別的頂會而言，AI 產出報告的詳盡與徹底程度讓人類相形見絀（+0.48）。

當然，機器目前絕非不可戰勝的完人。在剩余的三項考量中，受訪者依舊堅持人類評委的卓越性。

數據表明，AI 往往容易陷入死胡同，把微不足道的細枝末節放大成致命問題（落后幅度為 -0.36）；在長篇大論中，大模型本身也存在一定的概率寫出存在技術漏洞的審稿詞（-0.22）；并且時不時會給出讓人啼笑皆非、毫無執行價值的虛空建議（-0.11）。

最終，高達 53.9% 的受訪者認為 AI 在此次史詩級的審稿環節中起到了十分有益的作用，而覺得機器在幫倒忙的人數僅占總體的 20.2%。更有 61.5% 的從業者表示，他們期待在未來漫長的學術生涯里繼續讓 AI 參與同行評審。

值得回味的是，盡管大家在測試前就有心理預期，依然有 55.6% 的參與者坦承，機器所展現出的技術穿透力已經遠遠擊穿了他們認知中的 AI 天花板。

輿情聚類洞察：優勢與痛點的直接碰撞

跳脫出冷冰冰的打分，研究組還動用高階大模型對回收的 320 份純文本主觀感言進行了自然語言聚類解析，提煉出了當前學界對于全面引入 AI 的最集中的五條贊譽以及五大詬病。

最受追捧的五項正面反饋：

直擊痛點的修改方略（5.3%）：AI 并不只是一味地開炮，它極為擅長將尖銳的抨擊就地轉化為邏輯嚴密、上手可操作的修改綱要。
驚人的閱讀廣度與細致度（5.2%）：機器不存在疲勞期，它全方位覆蓋每個邊角料細節的狂熱分析讓人類自嘆弗如。
技術漏洞捕獲器（5.0%）：頻繁從密密麻麻的推導中精準揪出被幾位人類同行接連忽略的公式謬誤。
冰冷的絕對客觀（4.3%）：AI 不存在學術門派之爭，情緒絕對穩定，它的介入猶如一道護城河，有效稀釋了由于個別審稿人帶有主觀偏見或故意打壓異己而造成的不公。
語法與版式優化（4.2%）：對各種拼寫隱患、時態錯亂以及圖片排版的不規整進行降維打擊。

備受指責的五項主要短板：

宏觀格局與科學嗅覺極其缺失（9.1%）：這是當前機器不可逾越的鴻溝。它們在判定一項研究是否具備劃時代的行業破壞力或者隱秘的巨大科學收益時，常常顯得笨拙。
鉆牛角尖與吹毛求疵（8.5%）：經常會因為幾處不規范的格式而寫下長篇大論，導致審稿報告主次顛倒，讓真正重要的邏輯瑕疵被掩蓋。
信息量溢出引發大腦宕機（8.3%）：一份長達數頁、包含了幾十項細微質疑的報告，實際上極大地增加了被審稿人和審閱主席的處理負擔。
災難性的事實誤讀（7.7%）：在面臨最前沿的未解領域或者處理繁復的多級張量方程式時，LLM 依然會徹底弄反原本的意思。
淺嘗輒止的領域底蘊（7.6%）：無法做到像在這個狹窄細分領域苦熬了十多年的專家那樣，一針見血地指出文章與十年前某項不起眼技術的潛在關聯。

一位選擇匿名的研究者在反饋框中敲下了這樣一段話：「我對這套系統的徹底性感到戰栗。它找到了那些容易被人類視覺過濾掉的深層技術空洞，并且毫不費力地甩出了最為對口的參考引用。它的冷酷保證了沒有主觀成見。然而，它缺乏一種直覺，一種只有在實驗室里泡了無數個日夜的學者才能擁有的靈氣。面對那些稍微偏離了正統范式但蘊含著驚人潛力的奇思妙想時，AI 只會呆板地打壓。」

這位學者最后建議，在未來，應該把文獻海選、技術合理性普查這種「臟活累活」全權剝離給機器，從而讓人類評委能夠專注去品鑒論文的靈魂與對真實世界的沖擊力。

為了確保大模型不是在信口雌黃，團隊還抽查了 100 份 AI 生成的報告，利用 GPTZero 追查其中的 1356 處外部學術文獻引用。

令人咋舌的是，經過嚴苛對比，高達 1346 處引用被證實完美存在，精準匹配了發表渠道、掛名作者及原始標題，戳破了所謂 AI 必然瘋狂產生引用幻覺的坊間傳聞。

其中那 2 個被檢測工具判為偽造的孤例，經人類排查后證實，一個只是引用了企業級未公開說明書而非學術刊物，另一個則僅僅是模型搞混了首發的會議縮寫。

創立 SPECS 基準：給機器做一場學術級「病理切片」

光靠問卷發聲還不夠硬氣。為了用鐵證說明這套復雜的多引擎流水線確實秒殺了直接套殼大模型的普通做法，專家組耗費巨資打造了一個名為 SPECS 的變態級科研測謊基準。

想要通過傳統的文本相似度來衡量上萬字的開放式審稿質量無異于癡人說夢。于是，團隊參考了曾經的 FLAWS 思路，采取了主動投毒的策略。他們將目光鎖定了上一屆 AAAI 2025 那些已經大放異彩的優秀論文，從中挑選出能在本地通過底層編譯的 LaTeX 原始項目。緊接著，研究員命令另一個大模型作為「黑客」，往這些完美的論文源碼里惡意下毒，精準注入了涵蓋故事破裂、文字排版災難、實驗作假缺失、邏輯公式篡改以及刻意拔高意義這五大維度的「隱性學術癌細胞」。經過重編譯后，這批攜帶著致病基因的偽裝 PDF 被當做絕密試卷分發了下來。

在這張布滿陷阱的試卷上，一頭是只有簡陋提示詞的通用大模型，另一頭則是部署了 AAAI 2026 全套武庫的多階段 AI 系統。作為裁判的更強力模型死死盯著它們交上來的審稿書：只有在密密麻麻的文字中精準點名道姓地揪出被注入的特定隱患，并且截取出了對應原文作為確鑿證據，才算有效得分。

結果毫無懸念：單薄的通用基線模型像無頭蒼蠅一樣，在各項漏洞檢測上的平均召回率僅有可憐的 0.4291。而那套武裝到牙齒的最終流水線以碾壓之勢取得了 0.6386 的驚人戰績，查錯效能凈提升了 0.20 以上。

特別是在拆穿「虛假的故事線」以及挖出「實驗評估漏報」這兩大重災區，新系統更是如同開了透視外掛，得分狂飆了 0.3203 與 0.2390。這些數據證明：只有依靠解構、深潛、驗證再重塑的高能工作流，才能真正逼出 LLM 的科學推理極限。

結語

通讀這份 AAAI 2026 AI 評審試點總結，我們能夠捕捉到一個明確信號：利用當前位居行業頂點的多模態大模型矩陣來協管繁重的科學文獻評審，在技術執行面上不僅綽綽有余，并且確實能夠以更低成本為陷入泥潭的學術圈帶來巨大的杠桿效應。

當然，這絕不意味著我們可以肆無忌憚地交出方向盤。

在激烈的爭論中，一部分學者基于原則發出了最嚴厲的警告。他們憂慮地指出，如果對這種力量不加節制，AI 的過度滲透將會不可逆轉地腐蝕掉同行評審這一制度背后最寶貴的人性溫度與學界信任契約。

更有從業者預言，這種便利可能會溫水煮青蛙一般，使得新一代評審委員退化掉本該敏銳的學術嗅覺；同時這也將倒逼論文作者們拋棄追求真理的初衷，轉而花費大把精力去鉆研如何修改排版以諂媚 AI 的隱性偏好。

更有甚者擔憂，大模型長篇大論的報告極具魅惑力，極易讓那些想要偷懶的主席在沒有親自下場閱讀的情況做出無可挽回的錯誤裁決。

但歷史的車輪滾滾向前。問卷數據以及龐大的開發者日志都在反復佐證一個事實：機器的硅基心智與人類的碳基智慧，注定要在未來的科學前沿更加密不可分。

你的 AAAI 2026 論文收到了怎樣的 AI 評審？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.