網易首頁 > 網易號 > 正文申請入駐

皇后大學揭秘：AI機器人與人類程序員的代碼審查大作戰

2026-03-31 16:25:19　來源: 科技行者

天津舉報

分享至

當你寫完一段代碼，準備提交到項目中時，通常會有同事幫你檢查一遍——這個過程叫做代碼審查，就像文章發表前的編輯校對一樣重要。不過現在情況有了變化：越來越多的AI機器人也開始參與代碼審查工作，它們能自動發現bug、提出改進建議，甚至與人類開發者展開討論。這引發了一個有趣的問題：AI審查員和人類審查員到底誰更厲害？它們的合作效果如何？

加拿大皇后大學的研究團隊最近完成了一項大規模研究，分析了278,790次代碼審查對話，涵蓋300個開源GitHub項目，時間跨度從2022年到2025年。這項研究發表于2026年3月的arXiv預印本平臺，論文編號為arXiv:2603.15911v1。研究團隊深入探討了AI機器人審查員與人類審查員在反饋質量、互動模式和建議采納率方面的差異，為我們揭示了人機協作審查的真實面貌。

研究發現，AI機器人的表現確實令人印象深刻，但也暴露出明顯的局限性。AI機器人生成的評論比人類長得多，平均每行代碼產生29.6個詞匯，而人類只需要4.1個詞匯。更有趣的是，AI機器人幾乎完全專注于代碼改進和錯誤檢測，超過95%的評論都集中在這兩個方面。相比之下，人類審查員的反饋更加多樣化，不僅關注技術問題，還會進行理解確認、知識傳授和測試建議。

在實際應用效果方面，研究揭示了一個令人意外的現象：雖然AI機器人提出的代碼建議數量是人類的三倍多（88,011個對比25,673個），但它們的建議被采納率卻顯著偏低，只有16.6%，而人類審查員的建議采納率高達56.5%。更值得注意的是，當AI機器人的建議被采納后，往往會增加代碼的復雜性和體積，這與良好的編程實踐相矛盾。

一、AI機器人審查員：話多但精準度有限的助手

當我們把AI機器人比作一位勤奮但經驗不足的新員工時，就能更好地理解它們的工作特點。這位"新員工"非常努力，總是寫很長很詳細的報告，但往往抓不住重點，有時還會犯一些基礎錯誤。

研究團隊通過分析發現，AI機器人審查員有著鮮明的工作風格特征。它們就像那種做事特別認真、報告寫得特別詳細的同事，每次都要把所有細節說得清清楚楚。當人類審查員只需要簡單指出"這里有個小問題"時，AI機器人會寫一大段話，不僅指出問題，還要解釋原因、引用相關規則、列出需要修改的文件清單，甚至給出嚴重性等級。

這種差異就像兩種不同的溝通方式：人類審查員更像經驗豐富的老師，能夠一針見血地指出核心問題；而AI機器人更像剛入職的實習生，什么都想說，生怕遺漏重要信息。雖然詳細程度高，但這種冗長的表達方式往往會增加閱讀負擔，讓開發者需要花更多時間理解建議的核心內容。

更重要的是，AI機器人的關注點相當有限。研究顯示，它們幾乎把所有注意力都集中在兩個方面：發現代碼錯誤和提出改進建議。這就像一個只會查語法錯誤和標點符號的校對軟件，雖然在這些方面很專業，但完全不會考慮文章的邏輯結構、讀者感受或者寫作目的。

相比之下，人類審查員的反饋就豐富多了。除了技術問題，他們還會問"你為什么要這樣實現？"、"這個設計考慮了哪些場景？"或者"我建議你看看項目中的其他類似實現"。這些問題反映了人類審查員不僅關注代碼本身，還關注背后的設計思路、團隊知識共享和項目一致性。

研究還發現了一個有趣現象：當涉及理解和澄清的討論時，人類主導的對話往往會產生更多輪次的交流。平均來說，理解類反饋會引發2.1到2.3輪討論，而AI機器人的反饋基本上都是"一次性消費"，很少引發深入對話。這就像AI機器人更適合做標準化檢查工作，而人類更擅長進行深度交流和知識傳遞。

二、人機對話模式：誰說話、何時說、如何結束

代碼審查中的人機互動就像一場精心編排的對話劇，每個角色都有自己的臺詞和出場時機。研究團隊通過分析這些對話模式，發現了一些令人意外的規律。

當人類審查員遇到AI生成的代碼時，對話變得格外"活躍"。數據顯示，人類審查員在審查AI生成代碼時的交流輪次比審查人類代碼時多出11.8%。這種現象很好理解：當你讀到一段看起來正確但又感覺哪里不對的代碼時，自然會產生更多疑問。人類審查員經常需要多問幾句"你為什么要這樣寫？"、"這個邏輯的依據是什么？"來確保自己真正理解了AI的想法。

這種情況就像你在閱讀一本翻譯小說，雖然語法和用詞都沒問題，但總感覺表達方式有些別扭，于是不得不反復琢磨作者的真實意圖。AI生成的代碼也會給人類審查員帶來類似的困惑，需要更多輪的確認和澄清。

然而，當AI機器人扮演審查員角色時，對話模式就完全不同了。研究發現，85%到87%的AI發起的審查對話都在第一輪就結束了，沒有任何后續交流。這就像AI機器人說完自己要說的話后就沉默了，不管別人是否理解、同意或者有其他想法。

這種行為模式反映了AI機器人在互動交流方面的重大局限。真正的代碼審查往往不是一錘子買賣，而是一個持續的協商過程。審查員提出建議后，代碼作者可能會解釋自己的想法，審查員再根據新信息調整建議，雙方經過幾輪交流最終達成共識。但AI機器人目前還不具備這種動態調整和深度互動的能力。

更值得注意的是，研究發現了一個關于對話結局的重要模式：當對話以AI機器人的回復作為結尾時，代碼被拒絕的概率顯著提高（7.1%到25.8%），而以人類回復結尾的對話被拒絕率要低得多（0.9%到7.8%）。這個現象揭示了人類在最終決策中的關鍵作用。

可以把這種情況比作團隊開會討論項目方案：AI機器人善于提出技術性建議和發現問題，但人類更擅長綜合考慮各種因素、權衡利弊并做出最終決定。當一場討論以人類的總結和確認結束時，通常意味著各方已經達成共識；而如果討論在AI機器人發言后就戛然而止，往往說明還有未解決的分歧或疑慮。

這種對話模式的分析為我們提供了重要啟示：在設計人機協作的代碼審查系統時，不應該讓AI機器人完全替代人類，而應該讓它們發揮各自的優勢，AI負責初步篩查和標準化檢查，人類負責深度討論和最終決策。

三、建議質量大比拼：數量多不等于質量高

在代碼審查中提出改進建議就像給菜譜提意見：有的建議一針見血，讓整道菜立刻變得更美味；有的建議聽起來有道理，但實施起來要么行不通，要么讓菜變得更復雜。研究團隊對AI機器人和人類審查員提出的代碼建議進行了詳細對比，結果發現了一個令人深思的現象。

從數量上看，AI機器人確實是"建議制造機"，它們總共提出了88,011個代碼修改建議，是人類審查員25,673個建議的三倍多。但正如俗話說的"貴精不貴多"，建議的質量比數量更重要。事實證明，AI機器人的建議雖然多，但被實際采納的比例卻令人失望。

具體來看，人類審查員的建議有56.5%被采納并最終合并到代碼庫中，而AI機器人的采納率只有16.6%。這種巨大差距就像兩個購物顧問的表現對比：一個經驗豐富的顧問推薦的商品你會經常購買，而另一個新手顧問雖然推薦了很多商品，但你真正買的寥寥無幾。

為什么會出現這種差距？研究團隊深入分析了那些未被采納的AI建議，發現了幾個主要原因。最常見的問題是AI機器人的建議本身就是錯誤的，占未采納建議的28.7%。比如，AI機器人可能會指出某個命名空間缺失會導致編譯失敗，但實際上這個命名空間在項目的其他地方已經正確引入了，代碼能夠正常編譯。這就像一個不熟悉廚房布局的人告訴廚師"鹽找不到了"，但實際上鹽就在廚師觸手可及的地方。

第二大問題是"方案不匹配"，占24.0%。在這種情況下，AI機器人確實發現了真實存在的問題，但提出的解決方案與開發者的實際想法不符。這就像AI機器人發現了菜品味道偏淡的問題（分析正確），但建議加糖（方案不合適），而廚師實際想加的是鹽。

除此之外，還有16.4%的建議被認為是"不必要的"——AI機器人提出的修改在技術上可行，但開發者認為當前的實現已經足夠好，不需要改變。另有11.2%的情況是開發者聲稱已經修復了問題，但實際上并沒有在代碼庫中看到相應的更改。

這些問題的根本原因在于AI機器人缺乏項目上下文的理解能力。它們就像一個從教科書學會做菜的廚師，知道很多通用規則和技巧，但不了解這家餐廳的特色、食客的偏好，以及現有菜譜的設計理念。

相比之下，人類審查員的建議質量為什么更高？研究發現，人類在提出建議時會綜合考慮多個因素：項目的整體架構、團隊的編碼風格、已有的設計決策，以及實際的業務需求。他們不僅關注代碼的技術正確性，還會考慮可維護性、可讀性和與現有系統的一致性。

更重要的是，當AI機器人的建議被采納后，代碼的復雜度往往會顯著增加。研究數據顯示，采納AI建議后，代碼復雜度的增長幅度比采納人類建議時高出0.085到0.106個單位，代碼行數的增長也更明顯。這就像AI機器人總是傾向于提供更"安全"但也更復雜的解決方案，而人類更善于找到簡潔優雅的解決辦法。

不過，這并不意味著AI機器人的建議毫無價值。在某些特定領域，比如發現明顯的編碼錯誤或提醒遵循標準編碼規范，AI機器人的表現還是相當不錯的。問題在于如何更好地利用AI的優勢，同時彌補它的不足。

四、人機協作的藝術：各展所長還是互相制肘

代碼審查中的人機協作就像一支交響樂隊的演出：每個樂手都有自己的專長，關鍵是如何協調配合，讓整體效果達到最佳。研究團隊通過分析大量的協作案例，發現了一些有趣的協作模式和潛在的改進方向。

在最理想的情況下，AI機器人和人類審查員能夠形成互補關系。AI機器人擅長做那些標準化、重復性的檢查工作，比如發現語法錯誤、檢查代碼格式、識別常見的安全漏洞等。這些工作對人類來說往往比較枯燥，而且容易因為注意力分散而遺漏。相當于讓AI機器人擔任"質檢員"的角色，負責基礎的質量把關。

與此同時，人類審查員則專注于需要創造性思維和深度理解的工作：評估設計方案的合理性、判斷代碼是否符合業務需求、進行知識傳授和團隊溝通等。這些工作需要豐富的經驗、對項目背景的深度理解，以及良好的溝通技巧，是AI機器人目前還無法勝任的。

然而，現實中的協作并非總是如此和諧。研究發現了一些值得關注的問題。比如，當AI機器人參與審查時，人類審查員往往需要花更多時間來理解和驗證AI的建議，這在一定程度上增加了工作負擔。就像團隊中新加入了一個熱情但經驗不足的成員，老員工需要花額外的時間來指導和檢查新成員的工作。

另一個問題是AI機器人的"固執"特性。當人類審查員對AI的建議提出質疑或不同意見時，AI機器人往往無法進行有效的回應和調整。這就像一個只會按照說明書操作的助手，當遇到說明書上沒有的情況時，就不知道該怎么辦了。

研究還發現，不同類型的代碼審查任務適合不同的協作模式。對于新項目或者實驗性代碼，人類主導的審查模式效果更好，因為這類代碼往往需要更多的創新思考和靈活判斷。而對于成熟項目中的常規維護工作，AI機器人能夠發揮更大的作用，幫助快速識別明顯的問題。

最有趣的發現是關于"審查接力"的現象。在一些復雜的代碼審查中，AI機器人首先進行初步掃描，標記出可能的問題點，然后人類審查員基于這些信息進行深入分析和最終決策。這種模式既利用了AI的效率優勢，又保證了人類判斷的質量。

不過，這種協作模式也存在一些挑戰。比如，如何確保AI機器人提供的信息是準確的？如何避免人類過度依賴AI的判斷？如何在效率和質量之間找到平衡？這些都是需要在實踐中不斷探索和優化的問題。

研究團隊發現，最成功的協作案例往往有幾個共同特點：首先，明確分工，讓AI和人類各自承擔適合自己的任務；其次，建立有效的信息傳遞機制，確保AI的發現能夠準確傳達給人類審查員；最后，保持人類的最終決策權，確保重要決定都經過人類的審慎考慮。

五、背后的深層含義：技術進步與人文關懷的平衡

這項研究揭示的問題遠比表面上的技術對比更加深刻。在AI技術快速發展的今天，我們正面臨著一個根本性的選擇：是讓機器完全取代人類的判斷，還是找到人機協作的最佳平衡點？

從表面上看，AI機器人在代碼審查中的表現似乎不如人類，但這個結論需要更加細致的分析。AI機器人的價值不僅在于它能做什么，更在于它能為人類節省多少時間和精力。即使AI的建議采納率不高，但它能夠幫助人類快速篩選和識別潛在問題，這本身就是一種價值。

比如，AI機器人提出的88,011個建議中，雖然只有16.6%被采納，但這意味著有14,600多個有價值的改進被實現了。如果沒有AI的幫助，人類審查員可能根本沒有時間和精力發現這么多問題。從這個角度看，AI機器人更像是一個"放大鏡"，幫助人類看到原本可能忽略的細節。

研究還反映了一個重要的社會學現象：技術的采用不僅僅是一個技術問題，更是一個社會適應問題。人類對AI建議的低采納率，部分原因可能是對新技術的天然警惕和不信任。隨著AI技術的不斷改進和人們經驗的積累，這種情況可能會發生改變。

同時，研究也提醒我們注意AI技術的局限性。AI機器人缺乏對項目背景和團隊文化的理解，這不是一個純粹的技術問題，而是涉及到知識的傳承、經驗的積累和人際關系的建立。這些"軟技能"目前仍然是人類的獨特優勢。

從長遠來看，這項研究為AI技術的發展指明了方向。未來的AI系統需要更好地理解項目上下文，學會與人類進行有效的雙向溝通，并且能夠根據反饋動態調整自己的行為。這不僅需要技術上的突破，也需要在系統設計時更多地考慮人性化因素。

另一個值得思考的問題是評價標準。我們是否應該簡單地用采納率來衡量AI建議的價值？也許AI提出的那些未被采納的建議中，有一些雖然當時被拒絕，但為開發者提供了新的思考角度，或者在后續的開發中被證明是有價值的。這種隱性價值很難量化，但同樣重要。

最后，這項研究也讓我們思考工作的未來形態。代碼審查只是軟件開發過程中的一個環節，但它反映的問題具有普遍性：在AI技術快速發展的時代，如何重新定義人類的角色和價值？如何設計出真正有利于人類發展的人機協作模式？這些問題的答案將影響到每一個人的職業生涯和生活方式。

說到底，這項研究告訴我們的不僅僅是AI和人類在代碼審查中的表現差異，更是關于人機協作的深層思考。AI機器人雖然在某些方面表現出色，但人類的創造力、判斷力和溝通能力仍然無可替代。最理想的未來可能不是AI取代人類，而是AI和人類各司其職，共同創造出比單獨工作更優秀的結果。這種協作關系的建立需要技術進步，更需要我們重新思考工作的意義和人類的價值。

對于每一個在技術行業工作的人來說，這項研究提供了寶貴的參考。它提醒我們既要擁抱新技術帶來的便利，也要保持對人類獨特價值的信心。在AI機器人越來越智能的今天，人類最重要的能力可能不是與機器競爭，而是學會如何更好地與機器協作，讓技術真正服務于人類的發展和幸福。

Q&A

Q1：AI機器人和人類審查員在代碼審查中的主要區別是什么？

A：AI機器人的評論比人類長很多（每行代碼平均29.6個詞對比4.1個詞），主要專注于代碼改進和錯誤檢測，占95%以上。而人類審查員提供更多樣化的反饋，包括理解確認、知識傳授、測試建議等，更注重深度交流和項目背景理解。

Q2：為什么AI機器人提出的建議采納率這么低？

A：AI機器人建議的采納率只有16.6%，遠低于人類的56.5%。主要原因包括：28.7%的建議本身錯誤，24%的建議雖然發現了問題但解決方案不合適，16.4%被認為不必要，還有一些是項目上下文理解不足導致的誤判。

Q3：人機協作的代碼審查模式效果如何？

A：研究發現最佳模式是讓AI負責初步篩查和標準化檢查，人類負責深度分析和最終決策。當對話以人類回復結尾時，代碼被拒絕率只有0.9%-7.8%，而以AI回復結尾時拒絕率高達7.1%-25.8%，說明人類在最終決策中起關鍵作用。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.