“Claude Code 這條路線錯(cuò)了”！元老級 AI 大師 Jeremy Howard 開炮：馬斯克和 Dario 根本不懂現(xiàn)代軟件工程

2026-03-16 12:36:21　來源: InfoQ

北京舉報(bào)

分享至

編譯 | 核子可樂、Tina

AI 很快會(huì)自動(dòng)化軟件開發(fā)？大模型未來可以直接輸出機(jī)器碼？Jeremy Howard 不客氣地說：說這話的人，多半沒當(dāng)過現(xiàn)代軟件工程師。

這句話出自一位重磅人物。Jeremy Howard 是 fast.ai 創(chuàng)始人、Kaggle 傳奇人物，也是 ULMFiT 論文作者——后者幾乎定義了后來“預(yù)訓(xùn)練 + 微調(diào)”的語言模型范式。某種意義上，今天大家習(xí)以為常的很多大模型訓(xùn)練思路，都能往回追溯到他那一代研究者的探索。也因此，當(dāng) AI 編程、智能體和自動(dòng)化軟件開發(fā)成為行業(yè)最熱話題時(shí)，他的判斷尤其值得聽一聽。

他首先點(diǎn)名批評了當(dāng)下流行的一些技術(shù)話題。比如 Anthropic CEO Dario Amodei 在《技術(shù)的青春期》中提出，頂尖工程師借助 AI 可以獲得極高效率，并由此推斷普通軟件工程師的工作很快會(huì)被自動(dòng)化。Jeremy 認(rèn)為這種推斷“這根本說不通”。

同樣被點(diǎn)名的還有馬斯克。后者曾表示，大語言模型未來可以直接輸出機(jī)器碼，到那時(shí)人類將不再需要庫文件和編程語言了。Jeremy 的評價(jià)是：這幫人都沒當(dāng)過現(xiàn)代軟件工程師。在他看來，很多人誤以為軟件工程只是把代碼輸入 IDE，但事實(shí)“根本不是”。

他說其實(shí)幾十年前很多人就覺得即將出現(xiàn)第四代編程語言之類的東西，類似“軟件編寫越來越簡單，再也不需要程序員和軟件工程師了，誰都可以生產(chǎn)代碼”。但在軟件工程這個(gè)特殊領(lǐng)域，大模型雖然可以大量生成代碼，卻并不意味著它能勝任真正的軟件工程工作。Jeremy 說自己現(xiàn)在“大概有 90% 的代碼都是由模型代勞”，但“這并沒有顯著提升效率，因?yàn)榫幊虖膩砭筒皇切实钠款i。”

他認(rèn)為大模型也有能力范圍，也會(huì)“裝作理解”。在很多任務(wù)上，這種表象已經(jīng)足夠好用。但一旦問題超出訓(xùn)練數(shù)據(jù)的分布范圍，這種理解就會(huì)迅速崩塌，大家會(huì)發(fā)現(xiàn)“這玩意原來這么蠢……”。

另外，對于 Claude Code，他更是從頭批到尾。

最近不少人驚嘆 Claude Code 用 Rust 寫出了一個(gè) C 編譯器。但 Jeremy 與 LLVM 創(chuàng)始人 Chris Lattner 討論后發(fā)現(xiàn)，這個(gè)所謂的“新編譯器”其實(shí)并沒有真正突破現(xiàn)有技術(shù)路線。因?yàn)?LLVM 體系早已存在于大量訓(xùn)練數(shù)據(jù)中，而 Rust 只是另一種實(shí)現(xiàn)語言。將其轉(zhuǎn)換為 Rust，本質(zhì)上就是在訓(xùn)練數(shù)據(jù)的片段間進(jìn)行插值。所以本質(zhì)上，這仍然是一種風(fēng)格遷移問題。

“訓(xùn)練數(shù)據(jù)中已經(jīng)有構(gòu)建編譯器的方法，而且很多現(xiàn)成的軟件都可以實(shí)現(xiàn)?！薄捌浔举|(zhì)都是對現(xiàn)有成果的明顯照搬。這正是我眼中最核心的挑戰(zhàn)所在：要想做出真正原創(chuàng)性的成果，就不能依賴大語言模型?！?/p>

除了技術(shù)能力本身，Jeremy 也批評了當(dāng)前 AI 編程工具的發(fā)展方向。

在他看來，人類歷史上最重要的軟件創(chuàng)新——從 Smalltalk 到 APL，再到 Mathematica——都強(qiáng)調(diào)人與計(jì)算機(jī)之間的緊密互動(dòng)。開發(fā)者可以實(shí)時(shí)操作對象、觀察系統(tǒng)狀態(tài)、調(diào)整參數(shù)，從而建立直覺和理解。

而像 Claude Code 這樣的工具，卻走向了相反的方向：開發(fā)者只需要輸入 prompt，剩下的代碼由模型生成，甚至不需要理解整個(gè)系統(tǒng)。這種模式雖然看起來效率很高，但卻在逐漸削弱開發(fā)者對軟件系統(tǒng)的理解。

Jeremy 認(rèn)為，這種趨勢是讓人類逐漸與自己的代碼脫節(jié)，甚至有些“不人道”。在他看來，AI 編程真正的挑戰(zhàn)并不是讓模型寫更多代碼，而是如何設(shè)計(jì)一種新的協(xié)作方式，讓人類和 AI 在同一個(gè)交互環(huán)境中共同工作，而不是讓人類逐漸退出軟件開發(fā)過程。

更嚴(yán)重的是，Claude Code 這種開發(fā)方式還會(huì)讓人類無法學(xué)習(xí)新知識，個(gè)人能力無法得到提升。企業(yè)也正因 AI 編程累積的技術(shù)債走向衰亡，這些債務(wù)使他們既無法維護(hù)現(xiàn)有產(chǎn)品、也難以開發(fā)新產(chǎn)品。

“所以我覺得這就是在把企業(yè)和員工往被淘汰的絕路上推。無法理解現(xiàn)在竟有這么多大公司的高管在推動(dòng)這種做法，簡直令人驚訝。”

以下是播客整理：

語言模型微調(diào)是怎么誕生的

Dr. Tim Scarfe：Jeremy Howard，我大概是從 2017 年、2018 年那會(huì)開始關(guān)注你的。你那篇著名的 ULMFiT 論文讓我印象深刻，當(dāng)時(shí)我在微軟工作，還專門就此做過演講。如今大家理所當(dāng)然的觀點(diǎn)，即只需依托文本語料庫對語言模型進(jìn)行微調(diào)，就能持續(xù)訓(xùn)練并實(shí)現(xiàn)專業(yè)化，就是從那篇文章中孕育出來的。

Jeremy Howard：其實(shí)這也不完全是第一次嘗試，準(zhǔn)確講其實(shí)是第二次。更早幾年前 McCann 和 Andrew Dai 也做過類似的研究，但他們忽略了一個(gè)關(guān)鍵點(diǎn)——預(yù)訓(xùn)練數(shù)據(jù)集必須是通用語料庫。

所以我只是幸運(yùn)地抓住了這個(gè)關(guān)鍵點(diǎn)，但這一切也確實(shí)跟我?guī)资觊g的哲學(xué)與認(rèn)知科學(xué)積累有關(guān)系。

我對正則化一直情有獨(dú)鐘，而且尤其推崇這樣的實(shí)踐思路：先構(gòu)建一套高度靈活的模型，再通過添加正則化項(xiàng)、而非縮減架構(gòu)規(guī)模來增加約束性。

這一點(diǎn)在當(dāng)時(shí)的學(xué)術(shù)界引發(fā)了極大爭議，但也并不算是我們的獨(dú)創(chuàng)見解。Stephen Merity 當(dāng)時(shí)的做法是：選取 LSMT 這種循環(huán)神經(jīng)網(wǎng)絡(luò)的經(jīng)典模型（目前的研究也開始逐漸回歸此類模型），在保持極致靈活性的同時(shí)疊加五種不同類型的正則化方法。他幾乎涵蓋了一切能想到的正則化類型，而這也成為我的研究起點(diǎn)：構(gòu)建一套既能隨心所欲發(fā)揮強(qiáng)大能力，又能按需嚴(yán)格約束的深度學(xué)習(xí)模型。在此基礎(chǔ)之上，我需要海量的文本數(shù)據(jù)集。有趣的是這同樣跟 Stephen 有關(guān)，他曾參與 Common Crawl 項(xiàng)目，還協(xié)助創(chuàng)建了維基百科數(shù)據(jù)集。

后來我意識到，維基百科的數(shù)據(jù)集中其實(shí)包含大量預(yù)設(shè)性假設(shè)，比如用 unk 來標(biāo)記未知詞匯，就是說完全采用了經(jīng)典 NLP 方法。

于是我重構(gòu)了整套數(shù)據(jù)集，創(chuàng)建了新版維基百科數(shù)據(jù)集，現(xiàn)在它也成為我的通用語料庫。之后我采用 AWD-LSTM 模型進(jìn)行訓(xùn)練，僅用一晚時(shí)間就成功實(shí)現(xiàn)。

當(dāng)時(shí)我用的是一塊游戲顯卡，前后跑了八個(gè)小時(shí)。舊金山大學(xué)的資源有限，所以我用的好像是一塊 2080 Ti 顯卡。

第二天清早醒來時(shí)，模型訓(xùn)練已經(jīng)完成——其架構(gòu)采用的正是如今大家熟悉的三段式。預(yù)訓(xùn)練、中訓(xùn)練、后訓(xùn)練。我當(dāng)時(shí)想：既然能預(yù)測維基百科的下一個(gè)詞，模型肯定掌握了大量世界知識。于是我嘗試用特定語料進(jìn)行微調(diào)，也就是現(xiàn)在所謂監(jiān)督式微調(diào)數(shù)據(jù)集，而我用的是電影評論數(shù)據(jù)集。

事實(shí)證明，它特別擅長預(yù)測這類文本中可能出現(xiàn)的下一個(gè)詞，從而掌握大量電影知識。這次的訓(xùn)練只用了大概一個(gè)小時(shí)，接著又花了幾分鐘對下游分類器做了微調(diào)——用的是一套經(jīng)典的學(xué)術(shù)數(shù)據(jù)集。

我嘗試解決的是當(dāng)時(shí)最困難的一種分類問題，即從 5000 條影評中判斷觀眾對于某部影片的情感傾向（正面 / 負(fù)面），但如今這項(xiàng)任務(wù)已經(jīng)很簡單了。那時(shí)候只有高度專業(yè)化的模型才能較好完成，甚至有人專門為此撰寫博士論文。而我僅用 5 分鐘完成微調(diào)的模型，就超越了全部原有研究成果。

Dr. Tim Scarfe：這確實(shí)令人驚嘆，而更值得玩味的就是你那精細(xì)的微調(diào)方法學(xué)成果。

Jeremy Howard：沒錯(cuò)，我們的微調(diào)方法是 Fast AI 團(tuán)隊(duì)自主研發(fā)的。當(dāng)時(shí) Fast AI 剛剛成立一年，還處于起步階段。我們當(dāng)時(shí)做了一個(gè)極具爭議的決定：專注于對現(xiàn)成模型的微調(diào)，因?yàn)槲覀儓?jiān)信微調(diào)的力量。同期也有其他研究者在探索這個(gè)方向，比如 Jason Yosinski 也做過非常出色的研究。

我記得他在博士期間就研究過如何優(yōu)化模型及其性能上限，計(jì)算機(jī)視覺領(lǐng)域也有不少其他研究者在做探索。

我們算是先行者之一，當(dāng)時(shí)不少團(tuán)隊(duì)都在深入探索微調(diào)技術(shù)。我們的想法是，用單一學(xué)習(xí)率一次性微調(diào)整個(gè)模型可能行不通，因?yàn)槟Ｐ椭胁煌膶哟尉哂胁煌男袨樘匦浴?/p>

這正是 Jason Yosinski 研究揭示的一大關(guān)鍵。而我們進(jìn)一步提出了新思路：僅訓(xùn)練末層效率更高，因?yàn)橹恍枰獙δ舆M(jìn)行反向傳播。

在確定末層效果良好之后，再逐步擴(kuò)展到倒數(shù)第二層、第三層。我們采用“鑒別式學(xué)習(xí)率”的機(jī)制，即為不同層次分配不同的學(xué)習(xí)率。

還有另一個(gè)我們曾反復(fù)強(qiáng)調(diào)，但多年來無人在意的關(guān)鍵洞見，即必須對每個(gè) batch 歸一化層進(jìn)行微調(diào)。所有歸一化層都需要精細(xì)微調(diào)，因?yàn)樗鼈儠?huì)改變整體的整體規(guī)模。只要以此為前提，通常只需微調(diào)最后一到兩層，就能獲得接近頂尖水平的性能結(jié)果，整個(gè)過程只需要幾秒鐘。

Dr. Tim Scarfe：是的，鑒別式學(xué)習(xí)率很有意思。因?yàn)楫?dāng)時(shí)的主流觀點(diǎn)是：如果在模型微調(diào)中把學(xué)習(xí)率設(shè)定得過高，就會(huì)破壞表示結(jié)構(gòu)。所以大家普遍認(rèn)為必須采用極低的學(xué)習(xí)率，否則模型本身就跑偏了。

Jeremy Howard：那時(shí)候還不存在公認(rèn)的最佳解決方案，也沒人討論過這個(gè)話題。就當(dāng)時(shí)的情況看，人們根本就不關(guān)注遷移學(xué)習(xí)。

而 Rachel 和我堅(jiān)信遷移比任何事情都重要，因?yàn)橹恍枰环桨殉笠?guī)模模型訓(xùn)練出來，其余研究者就能直接進(jìn)行微調(diào)。所以我們決定要鉆研這項(xiàng)技術(shù)，為此投入大量時(shí)間并反復(fù)嘗試了各種方案。但最終發(fā)現(xiàn)，直覺往往才是最簡單明了的路徑——那些在直覺上可行的方案，基本都跑通了。

這跟當(dāng)今的機(jī)器學(xué)習(xí)普遍實(shí)踐有著根本上的差異——如今的研究似乎都圍繞著消融實(shí)驗(yàn)展開，強(qiáng)調(diào)不能做任何假設(shè)或者猜測。但這完全不符合實(shí)際。我發(fā)現(xiàn)幾乎所有預(yù)期有效的方案都能一次成功，因?yàn)槲彝度氪罅繒r(shí)間培養(yǎng)出這種直覺，獲得了對梯度行為規(guī)律的深刻理解。

Dr. Tim Scarfe：但我覺得好像也存在過二元對立的現(xiàn)象：持續(xù)學(xué)習(xí)希望在保持泛化能力的同時(shí)持續(xù)訓(xùn)練模型，而微調(diào)則專注于就特定任務(wù)做優(yōu)化。長期以來存在著這樣的認(rèn)知：模型確實(shí)可以做定制，可以按需調(diào)整，但這會(huì)犧牲泛化能力并削弱表征能力。對這個(gè)你是怎么看的？

Jeremy Howard：沒錯(cuò)，確實(shí)存在這種現(xiàn)象，但應(yīng)該沒有你講的那么嚴(yán)重。根本問題在于，人們往往忽略了對激活函數(shù)與梯度分析的觀察。

因此我們在 Fast AI 軟件中內(nèi)置了一項(xiàng)核心能力：允許用戶一覽整個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

經(jīng)過幾次操作之后（學(xué)習(xí)過程只需要幾個(gè)小時(shí)），研究者就能快速意識到當(dāng)前是屬于過擬合、欠擬合或者某個(gè)層出現(xiàn)了問題。

這也不算什么奧秘。具體來講，假如當(dāng)某些神經(jīng)元陷入“休眠”狀態(tài)，即無論如何微調(diào)都出現(xiàn)梯度歸零——這種情況往往發(fā)生在梯度趨向無窮大的情況。但這類問題總能修復(fù)，所以實(shí)際效果遠(yuǎn)比大家想象的要好。只要訓(xùn)練得當(dāng)，適合連續(xù)學(xué)習(xí)的模型也同樣能通過微調(diào)出色地完成特定任務(wù)，只要謹(jǐn)慎處置即可。

Dr. Tim Scarfe：某種意義上，我們確實(shí)需要讓神經(jīng)元休眠。讓我具體解釋一下：我們需要扭曲模型的行為來引入隱式約束，因?yàn)闆]有約束就談不上創(chuàng)造或者推理能力等等。所以從這個(gè)角度我們就能讓模型拒絕做某些事，轉(zhuǎn)而去做別的事。

Jeremy Howard：我倒不這么看。對我而言，在思考 AI 時(shí)應(yīng)該多多參考人類的思維模式，這很有啟發(fā)。我發(fā)現(xiàn)二者行為的相似性要遠(yuǎn)大于差異性，而我由此產(chǎn)生的直覺往往非常靠譜。

要知道在人類學(xué)習(xí)新事物時(shí)，并不一定要忘卻舊知識。所以我發(fā)現(xiàn)：當(dāng)模型嘗試學(xué)習(xí)兩項(xiàng)相似的任務(wù)時(shí)，這兩種能力的同時(shí)提升效果往往好于只專注單一任務(wù)的模型。

Dr. Tim Scarfe：這讓我想起 LeCun 實(shí)驗(yàn)室的 DINO 論文。雖然當(dāng)時(shí)僅限于視覺模型，但這種自監(jiān)督學(xué)習(xí)框架的核心思想仍極其重要：我們在進(jìn)行預(yù)訓(xùn)練時(shí)，要盡可能保持多樣性和保真度，這樣在執(zhí)行下游任務(wù)時(shí)才能擁有更多可利用的錨點(diǎn)。

Jeremy Howard：沒錯(cuò)，半監(jiān)督和自監(jiān)督學(xué)習(xí)確實(shí)曾是被嚴(yán)重低估的領(lǐng)域。而 Yann LeCun 絕對是該領(lǐng)域最重要的研究者之一。當(dāng)年我還專門寫過一篇博文，就為了吐槽為什么半監(jiān)督學(xué)習(xí)方面的研究者那么少。Yann LeCun 冥過我的文章，還推薦了幾篇我遺漏的重要文獻(xiàn)。但最令我驚訝的是，這種方法的效果居然這么好——本質(zhì)上就是設(shè)計(jì)一項(xiàng)預(yù)處理任務(wù)。

所以設(shè)想一下，我們在 ULMFiT 之前就做過這個(gè)設(shè)想，類似于在醫(yī)學(xué)影像領(lǐng)域取一份組織切片，遮住幾個(gè)像素塊，然后預(yù)測原本的內(nèi)容是什么。

我在南佛羅里達(dá)大學(xué)帶的一些學(xué)生就在做這方面研究，基本上就是在復(fù)用我們和其他人已經(jīng)在視覺領(lǐng)域做過的工作。比如這種遮罩方法就不是我們的發(fā)明，在計(jì)算機(jī)視覺領(lǐng)域早有實(shí)踐，但我們會(huì)自然想到在預(yù)測單詞方面也值得嘗試。

以通用預(yù)訓(xùn)練模型為起點(diǎn)這一核心思路，在計(jì)算機(jī)視覺領(lǐng)域早已存在。其實(shí)有篇 2015 年左右發(fā)表的經(jīng)典論文，內(nèi)容完全基于實(shí)證研究，展示了當(dāng)我們用預(yù)訓(xùn)練的 ImageNet 模型去預(yù)測雕塑家的身份或者建筑風(fēng)格時(shí)，該模型在每項(xiàng)任務(wù)中都取得了最先進(jìn)的結(jié)果。但令我驚訝的是，人們看到這些成果后竟然沒有聯(lián)想到：這種方法也理應(yīng)適用于其他領(lǐng)域——包括基因組序列分析、語言處理乃至其他方向。我發(fā)現(xiàn)人們往往缺乏想象力，總認(rèn)為某項(xiàng)技術(shù)只能局限于特定領(lǐng)域。

Dr. Tim Scarfe：確實(shí)如此，我覺得這里面有兩個(gè)關(guān)鍵點(diǎn)。首先，我們其實(shí)是暗示存在一種類似古德哈特定律（即任何被設(shè)定為目標(biāo)的衡量指標(biāo)，都將失去反映真實(shí)情況的能力）的短視效應(yīng)——我們最終得到的只是想要的結(jié)果，其他一切都會(huì)被犧牲掉。事實(shí)顯然并非如此，因?yàn)樵谡Z言模型中我們是可以優(yōu)化困惑度的。如你所說，這似乎涉及到分布假說，即詞語的含義取決于其上下文環(huán)境。當(dāng)我們擁有海量關(guān)聯(lián)數(shù)據(jù)時(shí)，無論是掩蔽自動(dòng)預(yù)測還是類似的技術(shù)，模型似乎都能生出一種可稱為“理解力”的東西。

Jeremy Howard：我始終將其視為抽象層次。當(dāng)模型需要預(yù)測時(shí)，比如判斷棋譜的開局是不是采用了 Bobby Fischer 的習(xí)慣下法，再以國際象棋的標(biāo)準(zhǔn)記譜法預(yù)測后續(xù)棋路，那它就首先得掌握棋譜知識。至于判斷“此提案是否被 1956 年的美國總統(tǒng)否決”，那么模型不僅要知曉總統(tǒng)的身份，更要理解“總統(tǒng)”這一制度性概念的存在，進(jìn)而理解領(lǐng)導(dǎo)人概念、人類社會(huì)中的等級制度、人類族群乃至物理世界的存在。如果不掌握這些層層遞進(jìn)的認(rèn)知，就無法準(zhǔn)確預(yù)測句子中的下一個(gè)詞。

所以我的基本思考是這樣：建立 ULMFiT 的初衷，正是要盡可能壓縮這種知識的獲取過程，還必須在模型深處建立起抽象層次結(jié)構(gòu)。如果做不到這一點(diǎn)，談何精準(zhǔn)預(yù)測下一個(gè)詞？要知道，深度學(xué)習(xí)模型的本質(zhì)就是通用學(xué)習(xí)機(jī)器，我們又掌握了通用訓(xùn)練方法。因此我推測：只要數(shù)據(jù)正確且硬件足夠強(qiáng)大，理論上我們就能構(gòu)建起這種詞序預(yù)測機(jī)，它沒有理由不能隱式構(gòu)建起對文本描述對象的分層結(jié)構(gòu)化理解。

Claude Code 的“創(chuàng)造力”，
本質(zhì)上還是插值組合

Dr. Tim Scarfe：但我覺得 AI 的認(rèn)知還相當(dāng)淺顯。它們確實(shí)掌握著無數(shù)表層統(tǒng)計(jì)關(guān)系，也能實(shí)現(xiàn)極強(qiáng)的泛化能力。但關(guān)鍵在于，我想?yún)⒖寄阒瓣P(guān)于創(chuàng)造力做出過的論述。我認(rèn)為知識的本質(zhì)就是約束，而創(chuàng)造力則是在遵循這些約束的同時(shí)推動(dòng)知識演進(jìn)。所以 AI 并不具備創(chuàng)造力，你之前也持有相同的觀點(diǎn)。既然如此，你一方面承認(rèn)它們具備認(rèn)知能力，另一方面又否認(rèn)其具備創(chuàng)造力。這該怎么理解呀？

Jeremy Howard：我倒不記得自己明確這么講過。只記得在跟 Peter Norvig 一起接受采訪時(shí)，我們都提到：其實(shí) AI 在某種意義上是具備創(chuàng)造力的，只是我們用詞要謹(jǐn)慎一些。比如我非常敬重的 Piotr Wozniak，他重新發(fā)現(xiàn)了間隔重復(fù)學(xué)習(xí)法，由此建立起 SuperMemo 系統(tǒng)，獲得了現(xiàn)代記憶大師的稱號。

他之所以將畢生精力投入到對記憶的研究，根本原因在于他堅(jiān)信創(chuàng)造力源自海量的記憶儲備，即以全新的方式組合記憶內(nèi)容才是激發(fā)創(chuàng)造力的絕佳途徑。

大語言模型在這方面表現(xiàn)相當(dāng)出色，但也存在一種其完全無法勝任的創(chuàng)造力，也就是突破分布式模型的局限。我認(rèn)為這就是解決這個(gè)問題的關(guān)鍵所在。

不過我想強(qiáng)調(diào)的是：對這個(gè)問題必須保持極度審慎的態(tài)度。如果簡單斷言大模型缺少創(chuàng)造力，其實(shí)是種極具誤導(dǎo)性的表達(dá)——它們確實(shí)能做出看似具有創(chuàng)造性的表現(xiàn)。但要進(jìn)一步追問：大模型能不能真正突破訓(xùn)練分布的邊界，答案肯定是否定的。但訓(xùn)練數(shù)據(jù)集如此龐大，其中插值的方式又極其繁多，我們還遠(yuǎn)不清楚它的邊界到底在哪里。當(dāng)然，我每天都能見證這種現(xiàn)象——畢竟我的工作就是研發(fā)，始終游走在訓(xùn)練數(shù)據(jù)的邊界附近，做出各種前所未有的嘗試。

我發(fā)現(xiàn)了一種奇怪的現(xiàn)象，不知道你有沒有見過，我每天都會(huì)遇到很多次：語言模型會(huì)突然從極聰明變得特別蠢，甚至連最基礎(chǔ)的邏輯前提都無法理解。它就好像突然意識到：哎呀，問題超過我的訓(xùn)練數(shù)據(jù)分布范圍了。變笨就是一瞬間，任何討論都毫無意義，模型突然就失控了。

Dr. Tim Scarfe：沒錯(cuò)，我非常欣賞 Margaret Boden 提出的創(chuàng)造力分層理論：創(chuàng)造力分為組合式、探索式和變革式三種。而當(dāng)前的模型確實(shí)已經(jīng)發(fā)現(xiàn)了組合式創(chuàng)造力的秘密。

但于我而言，關(guān)鍵在于約束的設(shè)置。這也是 Boden 的觀點(diǎn)，連達(dá)芬奇都說過：創(chuàng)造力的本質(zhì)就是約束的藝術(shù)。你提到的對話工程學(xué)也是這個(gè)道理。問題在于，當(dāng)我們跟語言模型對話時(shí)，本質(zhì)上就是給予規(guī)范，整個(gè)過程需要反復(fù)迭代。我們?nèi)祟惖乃伎家彩侨绱?，智能的?shí)現(xiàn)就是在大腦中構(gòu)建想象形式的樂高積木，同時(shí)遵守各種約束條件。

在遵守這些約束并持續(xù)演進(jìn)之后，由此帶來的成果就是創(chuàng)造。所以在為語言模型添加約束時(shí)，無論是通過監(jiān)督、批評者還是驗(yàn)證者的方式，它們就能展現(xiàn)出創(chuàng)造力。AlphaEvolve 就已經(jīng)呈現(xiàn)出這樣的能力。但問題在于，當(dāng)模型脫離約束，它們身上就會(huì)出現(xiàn)我們談到的行為塑造現(xiàn)象。正因如此，語言模型也就無法突破自身訓(xùn)練數(shù)據(jù)的分布范圍。

Jeremy Howard：我想說的是，語言模型之所以無法突破分布范圍，根本原因是這類數(shù)學(xué)模型本身的局限性。雖然理論上可行，但實(shí)際效果極差。就像二維數(shù)據(jù)的擬合曲線一旦超出數(shù)據(jù)覆蓋區(qū)域，曲線就會(huì)在空間內(nèi)向各個(gè)方向瘋狂延伸。

我們本質(zhì)上就是在做這件事，只不過是在多維空間中操作。當(dāng)人類知識庫里的全部內(nèi)容都成為組合素材時(shí)，語言模型或許會(huì)表現(xiàn)出震驚世人的組合式創(chuàng)造力。

我覺得這也是人們常常誤解的點(diǎn)，比如昨天我跟 Chris Latner 討論 Claude Code 怎么編寫 C 編譯器時(shí)，他認(rèn)為這是款純凈室編譯器，因?yàn)樗怯?Rust 編寫的。

Chris 本人就是當(dāng)今使用最廣泛的 C/C++ 編譯器的締造者，基于 LLVM 運(yùn)行，而 LLVM 則是編譯器普遍采用的基礎(chǔ)架構(gòu)。而且神奇的是，Chris 壓根沒用過 Rust，也沒提供過任何編譯器源代碼。

所以 Rust 版本的 C 編譯器就是凈室實(shí)現(xiàn)，但也跟大模型的工作原理存在出入。Chris 的所有工作都體現(xiàn)在了大模型的訓(xùn)練數(shù)據(jù)當(dāng)中；LLVM 得到廣泛應(yīng)用，無數(shù)項(xiàng)目都基于它構(gòu)建，其中也包括各種 C/C++ 編譯器。將其轉(zhuǎn)換為 Rust，本質(zhì)上就是在訓(xùn)練數(shù)據(jù)的片段間進(jìn)行插值。所以本質(zhì)上，這就是風(fēng)格遷移的問題。所以最多只能稱之為組合式創(chuàng)造力。從生成的代碼倉庫就能發(fā)現(xiàn)，新項(xiàng)目直接復(fù)制了 LLVM 代碼片段，而 Chris 坦言“我當(dāng)初犯了錯(cuò)，就不該采用這種沒人用的辦法”。

而 AI 是唯一照搬了 Chris 這種辦法的開發(fā)者。之所以會(huì)這樣，就是因?yàn)榇竽Ｐ瓦€沒能真正發(fā)揮創(chuàng)造力。它還是在訓(xùn)練數(shù)據(jù)當(dāng)中尋找某種非線性的平均點(diǎn)——比如在 Rust 技術(shù)和編譯器構(gòu)建技術(shù)間找交集。

Dr. Tim Scarfe：這些說法都成立。首先，我們不能也不該低估這種組合式創(chuàng)造力的規(guī)模。雖然很多代碼片段都來自網(wǎng)上公開的結(jié)果，但它也確實(shí)搭建了完整的測試框架——每次代碼提交都會(huì)觸發(fā)測試，相當(dāng)于建立了實(shí)時(shí)審查機(jī)制。這就是 AI 自己搞的自主反饋循環(huán)。

某種程度上，這跟 OpenAI 和 Gemini 最近的研究非常相似——讓 AI 自建評估函數(shù)來嘗試解決數(shù)學(xué)問題。但人們往往忽略了一點(diǎn)：運(yùn)用評估函數(shù)本身，就代表著 AI 對問題并不完全理解。它仍然在通過暴力搜索和統(tǒng)計(jì)模式匹配來解題，并將驗(yàn)證器當(dāng)作約束。

Jeremy Howard：所以說大模型根本沒必要這么搞。因?yàn)橛?xùn)練數(shù)據(jù)中已經(jīng)有構(gòu)建編譯器的方法，而且很多現(xiàn)成的軟件都可以實(shí)現(xiàn)。所以它直接借用現(xiàn)有方案并將其轉(zhuǎn)換成了 Rust 語言。單憑這點(diǎn)，就已經(jīng)相當(dāng)驚人。

雖然我對數(shù)學(xué)不像對計(jì)算機(jī)科學(xué)那么熟悉，但我也常跟數(shù)學(xué)家們交流，發(fā)現(xiàn)在埃爾德什差異問題（對于任意常數(shù) C，總能找到等距的有限子序列，使其元素累加和的絕對值超過 C）等領(lǐng)域也存在類似的現(xiàn)象。部分問題雖然得到了新解，但并非頓悟式的突破。大模型往往還是在整合人類已知的相關(guān)知識點(diǎn)來解題。

“這幫人都沒當(dāng)過現(xiàn)代軟件工程師”

Dr. Tim Scarfe：再來聊聊 Claude Code。你曾經(jīng)深入探討過氛圍編程的問題，Rachel 也寫過一篇有趣的文章，引用 METR 研究所的成果，發(fā)現(xiàn)人們在進(jìn)行氛圍編程時(shí)生產(chǎn)力反而有所下降。

還有 Anthropic 的研究，這里我們稍做回顧。Dario 前段時(shí)間發(fā)表了一篇題為《技術(shù)的青春期》的文章，大意是：Anthropic 擁有眾多頂尖軟件工程師，在 AI 輔助下開發(fā)效率極高。而后他將這種情況粗暴推廣到普通軟件工程師群體，宣稱 AI 很快就能全面實(shí)現(xiàn)工作自動(dòng)化，屆時(shí)將導(dǎo)致大面積失業(yè)。

Jeremy Howard：這根本說不通。幾天前馬斯克也講過類似的話，說什么大語言模型可以直接輸出機(jī)器碼。到那個(gè)時(shí)候，我們就完全不需要庫文件和編程語言了。

問題在于，這幫人都沒當(dāng)過現(xiàn)代軟件工程師。我不確定 Dario 有沒有做過真正的軟件工程師崗。軟件工程是門特殊學(xué)科，很多人誤以為軟件工程就是簡單把代碼輸入到集成開發(fā)環(huán)境。根本不是，編程的本質(zhì)是另一種風(fēng)格遷移問題。我們拿到待解決問題的規(guī)范說明，而后運(yùn)用組合式創(chuàng)造力找出訓(xùn)練數(shù)據(jù)中能夠填補(bǔ)兩者間隙的部分來解決問題，再將其與目標(biāo)語言的語法進(jìn)行插值處理，最終形成代碼。

Fred Brooks 幾十年前曾寫過一篇著名論文《沒有銀彈》，其內(nèi)容對當(dāng)下的情況做出了精準(zhǔn)預(yù)言。當(dāng)時(shí)很多人都覺得即將出現(xiàn)第四代編程語言之類的東西，類似“軟件編寫越來越簡單，再也不需要程序員和軟件工程師了，誰都可以生產(chǎn)代碼”。但他則預(yù)言稱，技術(shù)的進(jìn)步最多只能帶來 30% 的效率提升。

這就是他的結(jié)論，未來十年之內(nèi)軟件開發(fā)的效率提升空間只有 30%。我雖然覺得沒必要這么悲觀，但軟件工程中的絕大部分工作確實(shí)不止于編寫代碼。某種意義上，Dario 的部分觀點(diǎn)也有道理，比如當(dāng)下很多人已經(jīng)在靠語言模型為生成代碼。我自己就是這樣，大概有 90% 的代碼都是由模型代勞。但這并沒有顯著提升效率，因?yàn)榫幊虖膩砭筒皇切实钠款i。

語言模型確實(shí)給我的研究工作帶來不少幫助，比如預(yù)判哪些文件需要修改。但在我嘗試讓大模型設(shè)計(jì)前所未有的解決方案時(shí)，結(jié)果永遠(yuǎn)是場災(zāi)難。

實(shí)際上，它每次給我的都是看起來差不多的設(shè)計(jì)，而這往往就是災(zāi)難的根源。我明明想要?jiǎng)?chuàng)造新事物來消除這種相似性，但它總在延續(xù)過去，這就是最大的沖突點(diǎn)。

Dr. Tim Scarfe：我發(fā)現(xiàn)很多科技從業(yè)者對于認(rèn)知科學(xué)和哲學(xué)概念都有嚴(yán)重誤解。我們節(jié)目也采訪過很多杰出人物，比如曾撰寫了《知識法則》一書的 César Hidalgo，還有神經(jīng)科學(xué)哲學(xué)家 Mazviita Chirimuuta 也反復(fù)強(qiáng)調(diào)過知識具有變幻莫測的特性。我認(rèn)為知識在本質(zhì)上是有視角屬性的。

我不覺得單靠維基百科上那種純抽象、脫離視角屬性的條目就足以還原知識的全貌。換言之，我認(rèn)為知識有著具象性且充滿生命力，脫胎于我們體內(nèi)。組織存在的意義就在于守護(hù)并演進(jìn)知識。而在把認(rèn)知任務(wù)委托給語言模型時(shí)，自然會(huì)產(chǎn)生一種詭異的悖論效應(yīng)：組織內(nèi)部的知識反而受到侵蝕。

Jeremy Howard：確實(shí)，這真的令人不安。網(wǎng)上經(jīng)常出現(xiàn)這樣的爭論：有人堅(jiān)稱大語言模型根本就啥都不懂，只是裝作可以理解。另一些人則反駁：別胡說八道，看看大模型剛剛幫我搞定了什么問題。有趣的是雙方都有道理——大語言模型實(shí)際上確實(shí)是在扮演一個(gè)理解了問題的人。

它們假裝可以理解，恰恰呼應(yīng)了 Daniel Dennett 早期認(rèn)知科學(xué)研究的精髓，中文房間實(shí)驗(yàn)（設(shè)想一個(gè)僅懂英語的人通過操作中文翻譯程序手冊處理外部中文提問，使外界誤判其具備理解能力，以此論證計(jì)算機(jī)僅模擬智能表象而缺乏真正認(rèn)知狀態(tài)）的核心思想也正是如此。房中人的表現(xiàn)確實(shí)很像懂中文，因?yàn)槲覀兲岬乃袉栴}都能得到答案。但實(shí)際其只是在海量的書籍或機(jī)器中查找信息。當(dāng)然，在裝懂不影響結(jié)果的范圍之內(nèi)，到底是裝聰明還是真聰明并不重要。

所以對于很多任務(wù)，大語言模型只需要裝懂就足夠了——畢竟在實(shí)際應(yīng)用中，是不是真懂根本無關(guān)緊要。可如果哪天越過了邊界，很多人才會(huì)驚覺：天哪，大模型這玩意原來這么蠢……

Dr. Tim Scarfe：順帶一提，我是 Searle 的擁躉，他曾提到因果具有可還原性、但本體不具備可還原性，也就是強(qiáng)調(diào)存在現(xiàn)象學(xué)這個(gè)維度。這也是知識變幻莫測的精妙所在，它本質(zhì)上承襲了康德的思想：世界錯(cuò)綜復(fù)雜，無人能夠完全理解。正如盲人摸象，我們不可避免各自擁有不同視角。

由于復(fù)雜度過高，因此每個(gè)人都在進(jìn)行建模。但有趣的是，語言模型有時(shí)似乎表現(xiàn)得能夠理解事物，而這種理解的根源在于監(jiān)督者為其提供了框架。在這套框架內(nèi)，當(dāng)我們從大象的視角觀察，認(rèn)知結(jié)論竟然出奇連續(xù)。只是現(xiàn)在，我們往往忽略了監(jiān)督者為模型設(shè)定的這套框架。

Jeremy Howard：沒錯(cuò)，所以這相當(dāng)于 Searle 與 Dennett 之爭，也就是《意識的解釋》與“中文房間”這兩種視角的思辨。有趣的是，當(dāng)時(shí)的討論跟我們當(dāng)下的爭議有著完全相同的本質(zhì)，只是從純思想實(shí)驗(yàn)轉(zhuǎn)向現(xiàn)實(shí)層面。回歸抽象討論很有必要，因?yàn)檫@能讓我們抽離當(dāng)前困境、不再受到現(xiàn)實(shí)中具備強(qiáng)大模仿能力的模型影響，真正回歸問題的本質(zhì)。

總之我想強(qiáng)調(diào)的是，我們正身處一種微妙的歷史節(jié)點(diǎn)：人們極易對 AI 的能力產(chǎn)生誤解。尤其是那些分不清編程和軟件工程區(qū)別的朋友，就更容易誤解。

是的，這就正好轉(zhuǎn)回了你提出的問題——這種認(rèn)知差異會(huì)對組織產(chǎn)生怎樣的影響。要知道，許多組織的本質(zhì)就是在押注一個(gè)投機(jī)性的前提：AI 將有能力比人類更出色地完成一切工作，至少在編程領(lǐng)域可以做到。我對此深感憂慮，無論是從組織還是從全人類的角度講都是。對人類來說，一旦沒有機(jī)會(huì)主動(dòng)運(yùn)用設(shè)計(jì)、工程和編程能力，也就失去了發(fā)展和成長的機(jī)會(huì)。人類可能逐漸凋零。身為研發(fā)型初創(chuàng)公司的 CEO，我必須要強(qiáng)調(diào)：如果團(tuán)隊(duì)成員停止成長，我們就注定會(huì)失敗。

我們絕不能讓這種情況發(fā)生，而單純提升針對 AI 的特定提示詞技巧或者 CLI 框架使用能力，并不算成長。這就像在不理解互聯(lián)網(wǎng)原理的情況下死磕亞馬遜云科技的接口細(xì)節(jié)——毫無價(jià)值。這類知識既不可復(fù)用，又沒有繼承意義。雖然它能夠在當(dāng)下解決實(shí)際問題，但必然隨著時(shí)間推移逐漸侵蝕從業(yè)者的信心。

大模型反而讓開發(fā)者變笨了？

Dr. Tim Scarfe：我認(rèn)同這種自然規(guī)律，而且對你尤其重要。在整個(gè)職業(yè)生涯中，你一直致力于提升人們的技術(shù)與 AI 素養(yǎng)。而你說的大模型編程技巧，很像是開自動(dòng)駕駛汽車了——人根本沒多少機(jī)會(huì)上手。

這里存在一個(gè)臨界點(diǎn)——當(dāng)我們不再專注于親自解題，而把能力委托出去，就會(huì)積累下認(rèn)知債。這就是當(dāng)前的現(xiàn)實(shí)。幾周前 Anthropic 自己的研究就完全推翻了 Dario 的觀點(diǎn)，研究結(jié)果甚至發(fā)現(xiàn)，確實(shí)有少數(shù)參與者通過提出概念性問題來保證對實(shí)現(xiàn)技術(shù)的掌控。他們確實(shí)能展現(xiàn)出學(xué)習(xí)曲線，但大多數(shù)人根本做不到。

我有個(gè)假設(shè)：生成式 AI 編程的理想狀態(tài)應(yīng)該是看齊人類開發(fā)者，畢竟我們幾十年來一直在編寫軟件，也具備抽象認(rèn)知能力、能在熟悉的領(lǐng)域靈活運(yùn)用。我們還能明確需求，消除大量模糊性、跟蹤進(jìn)展、反復(fù)調(diào)整，且全程掌控開發(fā)流程。但現(xiàn)實(shí)情況是，現(xiàn)在的人們會(huì)默認(rèn)進(jìn)入自動(dòng)駕駛模式，對實(shí)際發(fā)生的情況一無所知——這反而讓開發(fā)者變笨了。

Jeremy Howard：我在 2014 年創(chuàng)立了首家醫(yī)療深度學(xué)習(xí)公司 Enlitic。初期我們專注于放射學(xué)領(lǐng)域，當(dāng)時(shí)許多人就擔(dān)憂這會(huì)削弱放射科醫(yī)生的專業(yè)能力。但我堅(jiān)信恰恰相反——為此我還深入研究了飛機(jī)電傳操縱系統(tǒng)、汽車防抱死剎車系統(tǒng)等技術(shù)應(yīng)用案例。當(dāng)可以自動(dòng)化的任務(wù)環(huán)節(jié)成功實(shí)現(xiàn)自動(dòng)化之后，專家反而可以專注于真正關(guān)鍵的環(huán)節(jié)。

我們在實(shí)踐當(dāng)中也難了這一觀點(diǎn)。在放射學(xué)領(lǐng)域，我們發(fā)現(xiàn)如果能自動(dòng)識別肺部 CT 掃描中的潛在結(jié)節(jié)，那么放射科醫(yī)生可以專注于分析結(jié)節(jié)性質(zhì)，判斷其惡性程度并制定治療方案。這正是微妙的差別所在。如果能有效實(shí)現(xiàn)某些環(huán)節(jié)的完全自動(dòng)化，從而減輕人類認(rèn)知負(fù)擔(dān)、專注于核心工作，結(jié)果無疑是積極的。至于軟件開發(fā)領(lǐng)域的情況，我覺得更難以斷言——畢竟我搞開發(fā)已經(jīng)有四十多年，親自寫過大量代碼。除非遇到特別奇怪或者復(fù)雜的情況，否則只需瞥一眼代碼，我就能立刻判斷出代碼功能和運(yùn)行狀態(tài)等結(jié)論。

我憑直覺發(fā)現(xiàn)的這些可優(yōu)先的點(diǎn)，還有預(yù)見到的潛在風(fēng)險(xiǎn)，如果沒有長期編程積累恐怕很難很難達(dá)到。目前我覺得真正受益于 AI 的人群有兩類：要么是完全不會(huì)編程的初學(xué)者，現(xiàn)在他們可以把腦海中的想法快速轉(zhuǎn)化成應(yīng)用。只要 AI 有能力幫他們快速實(shí)現(xiàn)需求，就完全可以了。另一類是像我和 Chris Latner 這樣的資深開發(fā)者，因?yàn)槲覀兡茏?AI 代勞相當(dāng)一部分編程工作和研究任務(wù)。但處于中間水平的人才是真正的絕大多數(shù)，這讓我非常擔(dān)憂，他們幾乎失去了進(jìn)步的空間和可能性。

不用親自寫代碼也許沒什么，但我們沒辦法確定，因?yàn)橹皼]出現(xiàn)過這種情況。這就像回到小學(xué)階段，學(xué)校禁止孩子們使用計(jì)算器，就是為了鍛煉他們對數(shù)字的感覺和運(yùn)算能力。那開發(fā)者還要不要經(jīng)歷前五年的磨練，親手編寫所有代碼？我真的不知道。

總之我自己比較悲觀，對于大部分從業(yè)經(jīng)驗(yàn)從 2 年到 20 年之間的開發(fā)者，這可能是在慢慢侵蝕他們的競爭力。

Dr. Tim Scarfe：沒錯(cuò)，這又涉及 Cesar Hidalgo 提出的知識本質(zhì)論。他認(rèn)為知識具有不可替代性，即無法直接交換。其核心觀點(diǎn)是：學(xué)習(xí)過程在某種意義上不可能被簡化。學(xué)習(xí)者必須親身經(jīng)歷，直面摩擦和考驗(yàn)。學(xué)習(xí)的過程就是構(gòu)建世界模型的過程，會(huì)經(jīng)歷所謂“現(xiàn)實(shí)的反噬”——我們不斷犯錯(cuò)、不斷更新自己大腦中的模型，并向其中持續(xù)添加一致性約束。但直接使用大模型輸出的代碼，顯然是回避了這種“必要之難”。Anthropic 的研究也提出類似的結(jié)論：由于回避了摩擦，開發(fā)者根本學(xué)不到任何東西。

Jeremy Howard：沒錯(cuò)，所謂“必要之難”是教育學(xué)領(lǐng)域提出的概念，最早可以追溯到十九世紀(jì)重復(fù)間隔學(xué)習(xí)的開創(chuàng)者 Ebbinghaus。Piotr Wozniak 的近期研究也發(fā)現(xiàn)了相同的規(guī)律：記憶的形式需要付出艱辛努力。這也解釋了為什么“過度復(fù)習(xí)”反而有害，因?yàn)樾畔?huì)過早浮現(xiàn)。而間隔重復(fù)學(xué)習(xí)法（例如 Anki 和 SupereMemo）則努力在記憶即將遺忘的臨界點(diǎn)處安排復(fù)習(xí)。

這確實(shí)需要付出艱辛的努力。我花了十年時(shí)間學(xué)習(xí)中文，只為探究學(xué)習(xí)的本質(zhì)。在使用 Anki 時(shí)我深刻體會(huì)到：它總在記憶即將消退的臨界點(diǎn)安排復(fù)習(xí)，抓住瀕臨遺忘的節(jié)點(diǎn)刺激神經(jīng)元連接。這種模式執(zhí)行起來特別特別累，但效果確實(shí)驚人。所以哪怕后面十幾年不再堅(jiān)持系統(tǒng)學(xué)習(xí)，我仍能流利使用中文。

Dr. Tim Scarfe：說回你提的放射學(xué)案例，還有人們常說的客服中心。我們總覺得組織中的崗位存在著高智力需求和低智力需求之分。但我覺得，智能的本質(zhì)就是對知識的適應(yīng)性獲取和整合。假設(shè)低智力需求崗位（比如客服）不需要適應(yīng)變化，就意味著組織中存在著某些穩(wěn)定不變的環(huán)節(jié)。

這部分環(huán)節(jié)可以自動(dòng)化，無需更新知識儲備。但結(jié)合放射學(xué)案例，這種觀點(diǎn)可能忽略了整體性知識的重要性。比如客服中心也會(huì)遇到大量特殊的、極端的案例。各種意外狀況層出不窮，這些信息會(huì)向上傳遞，促使組織逐步適應(yīng)。所以在推廣自動(dòng)化流程之后，工作人員實(shí)際上會(huì)喪失創(chuàng)造流程的能力，進(jìn)而削弱組織知識的演化能力——這無異于自毀長城。

Jeremy Howard：完全正確。在我的公司，我始終提醒同事們：我真正關(guān)注的只有一件事——你們的個(gè)人能力在多大程度上得到了提升。我并不在意大家提交了多少 PR，開發(fā)出了多少功能。就像 Tcl 語言的發(fā)明者 John Oustenrhout 最近在斯坦福講座中提出的精彩觀點(diǎn)：一點(diǎn)點(diǎn)斜率就能彌補(bǔ)大量截距。

這里的核心論點(diǎn)是，人生中若能專注于加速成長的事物，那效果要遠(yuǎn)勝于執(zhí)著那些已經(jīng)擅長、擁有高橫坐標(biāo)值的事物。因此我真正關(guān)心，也是我認(rèn)為對公司至關(guān)重要的唯一目標(biāo)，就是讓團(tuán)隊(duì)專注于提升斜率。沒錯(cuò)，如果只專注于在現(xiàn)有 AI 的能力邊界之內(nèi)追求成果，那關(guān)注的就仍然是橫坐標(biāo)值。

所以我覺得這就是在把企業(yè)和員工往被淘汰的絕路上推。無法理解現(xiàn)在竟有這么多大公司的高管在推動(dòng)這種做法，簡直令人驚訝。

畢竟這是個(gè)大家都不熟悉的領(lǐng)域，MBA 課程里也從沒提到過，所以一旦判斷失誤——也很可能就是失誤，那人們根本就意識不到。這本質(zhì)上是為公司埋下了毀滅的種子。

更令人費(fèi)解的是，股東們竟然會(huì)縱容這種行為。這將催生出高度投機(jī)性質(zhì)的市場操作。眾多企業(yè)正因 AI 編程累積的技術(shù)債走向衰亡，這些債務(wù)使他們既無法維護(hù)現(xiàn)有產(chǎn)品、也難以開發(fā)新產(chǎn)品。

Dr. Tim Scarfe：像 Fran?ois Chollet 這樣的行家其實(shí)也不少，他們真的很懂。他就始終強(qiáng)調(diào) AI 發(fā)展的本質(zhì)，就是領(lǐng)域認(rèn)知模型的擬態(tài)式共享，以及如何配合人類共同蒸餾這些模型。說到共享，這恰恰是 AI 編程面臨的另一大擴(kuò)展難題。

在理想狀態(tài)下，只要我們深諳某個(gè)領(lǐng)域，有能力用極致的細(xì)節(jié)做出定義，那么只需告知 Claude Code 執(zhí)行任務(wù)即可——我們腦袋里的模型框架并不重要。

但在組織環(huán)境下，我們需要把知識共享給全體成員。必須承認(rèn)，知識的獲取瓶頸就是組織內(nèi)部真實(shí)存在的嚴(yán)重問題。如果只有我一個(gè)人在使用 Claude Code，效率大概能提升 50 倍——人們的興奮之情也正來源于此。但要跟其他人共享，AI 編程工具就起不了什么作用了。大家似乎并沒有意識到這個(gè)瓶頸，也沒發(fā)現(xiàn)這就是大多數(shù)組織難以將 AI 轉(zhuǎn)化為現(xiàn)實(shí)生產(chǎn)力的原因。

Jeremy Howard：實(shí)際上沒人能在保持高質(zhì)量的前提下產(chǎn)出 50 倍的軟件。我們剛剛完成相關(guān)研究，發(fā)現(xiàn)人們實(shí)際交付的成果只能說略有增加。這就是殘酷的事實(shí)。我本人其實(shí)熱衷于發(fā)掘 AI 的潛力，但我妻子 Rachel 最近發(fā)文指出，所有激發(fā)人們熱烈追捧的因素匯聚起來只是一股暗流。

Dr. Tim Scarfe：對，暗流這個(gè)概念我也想提來著。

Jeremy Howard：所以這就很尷尬了。我認(rèn)識的幾乎每位前段時(shí)間對 AI 驅(qū)動(dòng)編程充滿熱情的人，在回頭審視自己一路走來構(gòu)建的成果時(shí)，都徹底改變了看法：這些東西還有人在用嗎？還有受眾嗎？還能幫自己賺錢嗎？其實(shí)幾乎所有利潤，都被意見領(lǐng)袖或者炒幣那幫家伙卷走了。

氛圍編程就像老虎機(jī)

Jeremy Howard：依托 AI 的編程本質(zhì)上更像是老虎機(jī)——讓人產(chǎn)生可以掌控一切的錯(cuò)覺。我們當(dāng)然可以精心設(shè)計(jì)提示詞、管理模型參數(shù)清單、調(diào)整 skill 參數(shù)等等，最后再拉下拉把。

輸入指令，然后得到結(jié)果，這就像憑運(yùn)氣拉出三顆櫻桃并排?！拔以俑臈l指令，再多加點(diǎn)上下文”，之后再次拉動(dòng)拉把、不停重復(fù)。

這就是隨機(jī)性。我們偶爾能贏一把，覺得太棒了、AI 這東西太牛了！但這本質(zhì)上具備賭博的全部特征：偽裝成勝利的失敗、高度隨機(jī)、虛假的控制感——這些都是博彩公司精心編排的元素。雖然這并不代表 AI 沒用，但……真的也沒多有用。

Dr. Tim Scarfe：明白。Rachel 還提到賭博的另外一個(gè)標(biāo)志性特征，就是讓人自欺欺人地以為掌握了局勢，但實(shí)則不然。但我們也可以探討一下樂觀情緒：我覺得 AI 編程在受控場景下的確非常有用，前提是我們能夠理解并設(shè)定約束。從好的角度來講，那我們確實(shí)不會(huì)因此失業(yè)，畢竟這部分工作量會(huì)相應(yīng)增加。至于成癮性，那也是真實(shí)存在的：我曾經(jīng)連續(xù) 14 個(gè)小時(shí)使用 Claude Code 輸出代碼，確實(shí)非常上癮。你說得對，就像老虎機(jī)一樣，非常貼切。

而且那也是我最疲憊的一次編碼經(jīng)歷，精疲力竭之后我連著休息了好幾天才恢復(fù)，那狀態(tài)實(shí)在糟透了。

Jeremy Howard：一點(diǎn)沒錯(cuò)。我也獲得過一些不錯(cuò)的結(jié)果，過去幾年還圍繞已知的成功路徑構(gòu)建起完整的產(chǎn)品體系，也就是專注于中等規(guī)模的模塊化開發(fā)：確保各個(gè)模塊完全可控、可設(shè)計(jì)，并能通過自定義抽象層逐步構(gòu)建起超越組件本身功能的整體系統(tǒng)。最近我們還遇到個(gè)很有意思的情況，其實(shí)也可以算是實(shí)驗(yàn)：我們之前高度依賴 IPKernel 組件，它也正是驅(qū)動(dòng) Jupyter Notebook 的核心。但在 IPyKernel 從版本 6 升級到版本 7 之后，就徹底失效了。我們嘗試使用的兩款產(chǎn)品都出現(xiàn)了故障：其一是名為 nbclassic 的原始 Jupyter notebook，其二是我們自主開發(fā)的 solve it 產(chǎn)品。

它們會(huì)隨機(jī)崩潰。IPyKernel 的代碼超過 5000 行，結(jié)構(gòu)極其復(fù)雜，涵蓋多線程、事件處理、鎖機(jī)制、與 IPython 的接口、ZMQ 通信協(xié)議以及 DebugPy 調(diào)試框架等等。我完全摸不著頭腦，找不到崩潰的原因——所有測試都能順利通過。于是我好奇，AI 能不能幫我解決這個(gè)問題？真的，我一直好奇目前的 AI 能夠獨(dú)立處理的任務(wù)規(guī)模上限在哪里。

事實(shí)證明，它確實(shí)能夠解決。前后花了兩周時(shí)間，雖然沒能深入理解 IPyKernel 的運(yùn)作機(jī)制，但我還是花了不少精力把它拆解成一個(gè)個(gè)獨(dú)立組件。最終 AI 在兩小時(shí)內(nèi)就給出了答案——我最早用的是 GPT 5.2，沒能搞定；花每月 200 美元升級到 GPT 5.3 Pro 版后就好了。

總之，通過在兩個(gè)版本和兩套模型之間反復(fù)切換，我花了幾周時(shí)間才讓系統(tǒng)正常運(yùn)行。如你據(jù)說，整個(gè)過程毫無樂趣可言，既疲憊又焦慮，因?yàn)槲沂冀K無法掌控局面。但有趣的是，這是我目前唯一能夠讓新版 Python Jupter 內(nèi)核成功運(yùn)行的辦法——至少就我所知，它找到了完美兼容版本 7 協(xié)議的辦法。這讓我不禁陷入深思：我不喜歡 AI 輔助的工作感受，但因?yàn)閭鹘y(tǒng)軟件工程理論不足以解決問題，我又別無選擇。

新的難題又來了——我并不理解解決問題的這段代碼，那我該不該把公司產(chǎn)品押在上面？我真的不知道該怎么辦，我不知道它會(huì)不會(huì)引發(fā)內(nèi)存泄漏；如果協(xié)議稍作改動(dòng)，它后續(xù)還能不能正常運(yùn)行；是否存在會(huì)導(dǎo)致全盤崩潰的極端狀況等等。這真是個(gè)前所未見的巨大困局。

“AI 寫代碼很厲害，
但軟件工程一塌糊涂”

Dr. Tim Scarfe：那我們還是得從控制權(quán)的角度討論——必須承認(rèn)，我們對代碼的控制能力正受到嚴(yán)重侵蝕。最初由 AI 生成的代碼占比僅為 10%，隨后這個(gè)比例不斷攀升，而且我們無能為力。大約半年之后，提交上來的 PR 中就有約 60% 代碼由 AI 生成。這就是后果。

人正逐漸跟自己的代碼脫節(jié)。樂觀的判斷認(rèn)為：AI 編程只強(qiáng)調(diào)功能主義即可——只要智能體可以正確完成任務(wù)，我們就可以認(rèn)可 AI，無須深究其構(gòu)成原理。畢竟軟件領(lǐng)域從來都是這樣。

商業(yè)領(lǐng)域肯定很認(rèn)可這套邏輯，畢竟人家做的是業(yè)務(wù)，本來就沒辦法親自編寫代碼、也掌握不了快速排序算法的實(shí)現(xiàn)細(xì)節(jié)。所以只要所有測試都能順利通過、代碼可以成功部署，流程按部就班推進(jìn)，那不就得了？

Jeremy Howard：實(shí)事求是講，這種觀念我覺得還滿有道理，但還不夠。我們必須重視軟件工程的重要意義，因?yàn)樗暮诵木褪菑?qiáng)調(diào)各個(gè)組件到底是什么、應(yīng)該如何運(yùn)作，再以此為基礎(chǔ)將其組合成更龐大的整體，進(jìn)而持續(xù)迭代以構(gòu)建出宏大的系統(tǒng)。

只有做好了這一點(diǎn)，我們才能在十年之后靠 AI 打造出遠(yuǎn)超當(dāng)下想象的頂尖軟件。沒錯(cuò)，只有卓越的軟件工程能力才可以實(shí)現(xiàn)這種突破。以 IPyKernel 為例，我發(fā)現(xiàn)它本身就是個(gè)極其龐大的組件。

因?yàn)楹苊黠@，IPyKernel 的原始開發(fā)團(tuán)隊(duì)沒能打造出一套可以正確驗(yàn)證其功能的測試集，所以才導(dǎo)致包括原始 nbclassic（即 IPyKernel 的源項(xiàng)目）在內(nèi)的眾多實(shí)際應(yīng)用項(xiàng)目都無法正常運(yùn)行。這正是我們 Answer.ai 開發(fā)團(tuán)隊(duì)的當(dāng)前重點(diǎn)：尋找規(guī)模適應(yīng)的模塊，并確保其正確性。

要如何識別這些模塊、如何加以設(shè)計(jì)、如何進(jìn)行組合——這些能力都需要幾十年的開發(fā)經(jīng)驗(yàn)才能掌握。我自己也是，自認(rèn)為經(jīng)過二十年的歷練才算掌握到個(gè)中精髓。這確實(shí)是個(gè)大問題，畢竟軟件工程能力的重要能力遠(yuǎn)超以往任何時(shí)候，但當(dāng)下又恰恰欠缺培養(yǎng)這種能力的場景。未來的開發(fā)者要如何保證自己可以勝任這份工作，已經(jīng)成為極具挑戰(zhàn)性的課題。

Dr. Tim Scarfe：還有種觀點(diǎn)是這樣：抽象和表征事物的方式其實(shí)有很多。要知道這個(gè)世界如此復(fù)雜，我們?nèi)祟愂煜さ能浖橄笈c表征方式，可能更多是自身認(rèn)知局限的映射。即使是在科學(xué)和物理領(lǐng)域，人們也更傾向以高度簡化的方法來建模。但復(fù)雜科學(xué)往往必須直面事物的構(gòu)造性、耗散性以及纏雜交織的本質(zhì)。

也許當(dāng)下就有很多軟件已經(jīng)超出了人類的理解上限，對吧？比如許多采用 actor 模式的全球分布式軟件應(yīng)用，其本質(zhì)上已經(jīng)屬于復(fù)雜系統(tǒng)。我們只能通過模擬和測試來嘗試?yán)斫猓驗(yàn)闆]人真正知道所有組件間如何協(xié)同運(yùn)作。所以樂觀地看，也許軟件工程的頂層設(shè)計(jì)已經(jīng)在踐行這種新理念，而這也正是 AI 有望達(dá)成的終極目標(biāo)。

Jeremy Howard：倒也未必。比如說 Instagram 和 WhatsApp 這類公司，僅憑十余名員工就主導(dǎo)了各自領(lǐng)域，甚至擊敗了谷歌和微軟等巨頭。我覺得這只說明大廠那種軟件開發(fā)模式正在失敗，我們也親眼目睹許多巨頭正陷入日益絕望的境地。就拿微軟 Windows 和蘋果 MacOS 的質(zhì)量來說，過去五到十年間已經(jīng)遭遇顯著下滑。還記得當(dāng)初 Dave Cutler 逐行審閱 NT 內(nèi)核代碼，確保每一行都完美無瑕的時(shí)代吧？那才是真正優(yōu)雅卓越的軟件典范。但如今世上不會(huì)有人覺得 Windows 11 是優(yōu)雅精妙的軟件。所以我們可以真的需要先打造出完全可按的小組件，再把它們堆疊起來實(shí)現(xiàn)構(gòu)建。

問題是 AI 在這方面表現(xiàn)相當(dāng)糟糕。我這可是基于實(shí)證得出的結(jié)論，它們在軟件工程領(lǐng)域簡直不堪一擊，而且這種情況可能永遠(yuǎn)不會(huì)改變。因?yàn)槲覀兛傄?AI 突破訓(xùn)練數(shù)據(jù)的邊界，嘗試構(gòu)建前所未有的事物，追求超越現(xiàn)有方案。換言之，我們一方面只提供有限的訓(xùn)練數(shù)據(jù)，另一方面又指望它別單純照搬訓(xùn)練過的內(nèi)容。這點(diǎn)常常讓人們困惑——他們看到 AI 編程能力如此出色，便誤以為這等同于軟件工程能力。但這二者的本質(zhì)完全不同，重合度也很低。目前還沒有任何實(shí)證數(shù)據(jù)表明大語言模型在軟件工程領(lǐng)域?qū)崿F(xiàn)了任何顯著的能力提升。

每當(dāng)我們審視 AI 完成的軟件工程案例，比如 Cursor 開發(fā)的瀏覽器或者 Anthropic 搞出來的 C 編譯器——另懷疑，我認(rèn)真看過這些項(xiàng)目的源代碼，再加上更熟悉編譯器的 Chris Latner——其本質(zhì)都是對現(xiàn)有成果的明顯照搬。這正是我眼中最核心的挑戰(zhàn)所在：要想做出真正原創(chuàng)性的成果，就不能依賴大語言模型。

理論上我們沒辦法相信大模型會(huì)涌現(xiàn)出這種原創(chuàng)能力，實(shí)證數(shù)據(jù)也同樣支撐不了這樣樂觀的猜想。

最先進(jìn)的 AI，
卻在用 40 年前的開發(fā)環(huán)境

Dr. Tim Scarfe：沒錯(cuò)，我覺得這場對話最大的價(jià)值就在于，我們需要實(shí)現(xiàn) AI 與人類的協(xié)同合作。由人類提供理解力，還有我們之前討論過的各種知識層面的支持。但與此同時(shí)，AI 仍然不失為一種重要且強(qiáng)大的工具。我們只要設(shè)計(jì)出運(yùn)作模式或者工作方式，確保自身的獨(dú)特能力、特別是理解力不被削弱就行。

Jeremy Howard：沒錯(cuò)，這里確實(shí)有條微妙的分界線，也是我們在教學(xué)與內(nèi)部開發(fā)時(shí)關(guān)注的核心點(diǎn)。我這二十年來持續(xù)探索的方向，終將成為支撐整個(gè)體系的關(guān)鍵。Stepehn Wolfram 創(chuàng)造了 notebook 界面，雖然其中很多理念可以追溯至 Samlltalk、Lisp 和 APL，但其意義仍然非常值得肯定。他的核心思想在于：當(dāng)人類能夠?qū)崟r(shí)操作計(jì)算機(jī)內(nèi)部對象、研究它們、移動(dòng)它們并加以組合，就可以通過計(jì)算機(jī)實(shí)現(xiàn)更多可能。

而 Smalltalk 的核心理念也正是基于對象，APL 同樣以數(shù)組為基礎(chǔ)。Mathematica 本質(zhì)上就是功能強(qiáng)大的 Lisp 語言，只是在此基礎(chǔ)上融入了優(yōu)雅的 notebook 界面，讓開發(fā)者能夠構(gòu)建出動(dòng)態(tài)生成的活文檔。

幾年前我開發(fā)了 nbdev 工具，它能在 notebook 界面跟豐富的動(dòng)態(tài)環(huán)境中構(gòu)建起生產(chǎn)級軟件。我發(fā)現(xiàn)這極大提升了自己的編程效率。雖然我從來沒做過全職編程工作，但大家可以看看我的 GitHub 代碼倉庫產(chǎn)出——根據(jù)統(tǒng)計(jì)數(shù)據(jù)，我?guī)缀跏侨拇罄麃喿罡咝У某绦騿T。這證明我的辦法確實(shí)行之有效。我開發(fā)的許多工具被大量用戶采用，憑借的就是出色且豐富的構(gòu)建方式。

如今我們發(fā)現(xiàn)，在把 AI 置與跟人類相同的交互環(huán)境中時(shí)，其表現(xiàn)同樣會(huì)顯著提升。可以看到，常規(guī)的 AI 編程工具，比如大家使用 Claude Code，其運(yùn)行環(huán)境跟人類 40 年前使用的環(huán)境極為相似。這本質(zhì)上仍然是基于代碼行的終端界面。它當(dāng)然可以使用 MCP 或者其他工具，但目前多數(shù)時(shí)候借助的仍然是經(jīng)典的 bash 工具。

我非常喜歡 bash 工具，在日常工作中也會(huì)頻繁使用各類命令行工具。從本質(zhì)上講，它就是依賴文本文件作為與外界交互的媒介，這實(shí)在有點(diǎn)簡陋。所以我們將人類與 AI 置于 Python 解釋器內(nèi)，立刻就得到了能幫助人類與 AI 對話的強(qiáng)大工具——一種優(yōu)雅且富有表現(xiàn)力的編程語言。

現(xiàn)如今，AI 能與計(jì)算機(jī)對話，人類能與計(jì)算機(jī)對話，計(jì)算機(jī)又能與 AI 對話。在這種豐富的交互生態(tài)中，人類與 AI 得以實(shí)時(shí)協(xié)作，共同構(gòu)建起雙方都能使用的工具。這也是我所追求的核心價(jià)值，創(chuàng)造一個(gè)讓人類能夠參與、成長且共享的環(huán)境。

于我而言，使用 SolveIt 的體驗(yàn)跟你之前提到的 Claude Code 恰恰相反。用了幾小時(shí)后，我感覺神清氣爽，快樂而充實(shí)。

Dr. Tim Scarfe：我來談?wù)勛约旱目捶?。你剛剛的核心觀點(diǎn)，就是具備交互性、狀態(tài)感知且能夠提供反饋的環(huán)境，具有某種神奇的魔力。這是因?yàn)槲覀兊拇竽X能夠處理特定的工作單元，我們會(huì)通過反復(fù)推敲加現(xiàn)實(shí)檢驗(yàn)的方式來思考問題。正因?yàn)槿绱?，我才?huì)在攻讀博士期間選擇使用 Mathematica 和 MatLab。

我完全贊同你的結(jié)論。這種 REPL 環(huán)境能讓我們直接操作數(shù)組、生成圖像圖譜、實(shí)時(shí)調(diào)整參數(shù)以即時(shí)呈現(xiàn)變化效果。這確實(shí)是優(yōu)化思維模型的絕佳方式。不過 Claude Code 也能實(shí)現(xiàn)類似的功能，關(guān)鍵在于適當(dāng)使用操作技巧。高效使用 Claude Code 的開發(fā)者普遍具備這種能力。我也開發(fā)過內(nèi)容管理工具，也就是 Rescript，它在制作紀(jì)錄片視頻時(shí)能自動(dòng)提取字幕文本，幫我核查陳述內(nèi)容的真實(shí)性。

總之，AI 素養(yǎng)的核心在于理解語言模型在能力上的不對稱性。在要求其處理鑒別型任務(wù)時(shí)，它們的表現(xiàn)往往非常出色。例如在子智能體模式下要求其逐條驗(yàn)證主張時(shí)，它的準(zhǔn)確性就遠(yuǎn)高于生成模式下批量生成的主張。關(guān)于狀態(tài)反饋機(jī)制，我們可以采用結(jié)構(gòu)化 XML 導(dǎo)出方案，配合側(cè)邊欄可視化應(yīng)用來形成反饋循環(huán)。

對我而言，這文治武功 AI 的優(yōu)勢所在，也是善于借 AI 之力的使用者們的首選用法。

Jeremy Howard：是的，但我并不完全認(rèn)同你的觀點(diǎn)。我知道也可以在 Claude Code 中實(shí)現(xiàn)相同的效果，也同意具體效果取決于使用者的 AI 素養(yǎng)，但 Claude Code 的設(shè)計(jì)初衷并不在此。它并不擅長此類操作，這也不是跟 Claude Code 交互的自然方式。我倒不覺得這是 AI 素養(yǎng)的問題——在我看來，如果工具無法以人類熟悉的方式獲取更深的知識、更愉悅的體驗(yàn)和更緊密的聯(lián)結(jié)，還有對工作內(nèi)容的透徹理解并建立情感紐帶，那這絕對是工具的問題，不能說是人的問題。

工具的設(shè)計(jì)就應(yīng)該符合人體工程學(xué)。但如今，很多模型和工具的評估標(biāo)準(zhǔn)就只是能否接管完整任務(wù)并獨(dú)立完成。這在我看來是種重大謬誤。真正的關(guān)鍵在于：人類在使用之后，能否真正掌握該領(lǐng)域的知識，進(jìn)而輕松構(gòu)建出更多成果。

Claude Code 正在背離
“人機(jī)共創(chuàng)”的軟件傳統(tǒng)

Dr. Tim Scarfe：我完全贊同。但還有另一個(gè)有趣的視角——Joel Grus 曾有一場著名的演講，我們稍后會(huì)具體聊。他說 Notebook 程序糟糕透頂，從軟件工程角度看簡直不堪入目。當(dāng)時(shí)，哪怕是到現(xiàn)在可能也仍然如此，我其實(shí)挺認(rèn)同他的觀點(diǎn)。畢竟我也從事過機(jī)器學(xué)習(xí)的運(yùn)維工作，在大型機(jī)構(gòu)中負(fù)責(zé)探索數(shù)據(jù)科學(xué)與軟件工程之間的連接。

相較于 Notebook，Claude Code 其實(shí)更偏重軟件工程領(lǐng)域，因?yàn)樗苌蓛绲取o狀態(tài)及可重復(fù)的成果。如你所說，從教育角度看這種基于狀態(tài)的反饋其實(shí)很好，因?yàn)槲夷軌蚶斫獾降装l(fā)生了什么。之后只要把它轉(zhuǎn)化成可部署的成果就行了。

所以你能聊聊 Joel Grus 的觀點(diǎn)嗎？記得你當(dāng)時(shí)的回應(yīng)還鬧得挺大的，給我們講講唄。

Jeremy Howard：他當(dāng)時(shí)拍了段精彩的視頻，就叫《我不喜歡 Notebook》，制作精良而且超級搞笑?，F(xiàn)在我承認(rèn)，我當(dāng)時(shí)的觀點(diǎn)完全錯(cuò)了。

他列舉了很多 Notebook 做不到的事，但其實(shí)都能做到。他說 Notebook 實(shí)現(xiàn)不了的功能，其實(shí)我每天都在靠 Notebook 實(shí)現(xiàn)。可那場演講雖然錯(cuò)誤百出，卻實(shí)在妙趣橫生。后來我模仿他的風(fēng)格做了段《我喜歡 Notebook》的視頻，基本照搬了他的大部分 PPT 并注明了出處，然后逐條反駁了每條謬誤。

不過你提到的核心問題確實(shí)切中了要害——這本質(zhì)上其實(shí)是軟件工程與科學(xué)研究等領(lǐng)域在工作方式上的根本差異。我認(rèn)為這種二元對立確實(shí)存在，這樣的割裂也著實(shí)令人遺憾。軟件開發(fā)的推進(jìn)方向出了偏差，當(dāng)前的模式完全聚焦于可復(fù)現(xiàn)性，卻無視僵化代碼與文件的持續(xù)膨脹。項(xiàng)目里全都是死代碼、死文件，這事我強(qiáng)烈推薦大家去看看 Brett Victor 的論述，他的講解特別精彩。他反復(fù)證明：最重要、最正確的方向，永遠(yuǎn)是跟所做之事建立起直接且符合直覺的聯(lián)結(jié)。

他也將此作為自己的使命，確保人們能夠建立起這種聯(lián)結(jié)。我也把這當(dāng)作自己的使命。于我而言，傳統(tǒng)軟件工程已經(jīng)大大偏離了這樣的聯(lián)結(jié)。我覺得它令人作嘔、簡直惡心，更可悲的是人們正被迫以這樣的方式工作。這不止反人道，而且模式本身根本就行不通——經(jīng)驗(yàn)證明其效果極差。對 AI 是如此，對人類更是如此。

事情并不總是這樣的。回到早期，比如 Alan Kay 的 Smalltalk，Iverson 的 APL，還有 Wolfram 的 Mathematica。在我看來，那才是“黃金時(shí)代”。

那個(gè)時(shí)代的人真正關(guān)心的問題是：如何讓人類盡可能緊密地與計(jì)算機(jī)一起工作。比如鼠標(biāo)的誕生也是如此，通過點(diǎn)擊和拖拽操作將計(jì)算機(jī)中的對象可視化為可移動(dòng)的實(shí)體。可多年過去，如今我們卻失掉了正確的方向，這實(shí)在令人痛心。

而像現(xiàn)在用 Claude Code 這樣的工具時(shí)，默認(rèn)的工作方式卻完全相反：你需要深入到一個(gè)系統(tǒng)內(nèi)部，那里有一整個(gè)文件夾的代碼文件，但你甚至從來不會(huì)去看它們。你與系統(tǒng)的全部互動(dòng)，只是通過一個(gè) prompt。

老實(shí)說，這讓我真的感到反感。我是真的覺得這種方式有點(diǎn)不人道。

而我的使命，其實(shí)二十年來一直沒有變：就是想辦法讓人們不再用這種方式工作。

Dr. Tim Scarfe：明白。但回想起來，我當(dāng)初跟數(shù)據(jù)科學(xué)家們共事時(shí)，他們都在用 Jupyter Notebook。當(dāng)時(shí)我就發(fā)現(xiàn)，如果把這些 notebook 直接提交到 Git 倉庫，效果通常不太理想。

大多數(shù)數(shù)據(jù)科學(xué)家根本不懂 Git 操作，他們會(huì)打亂單元格的執(zhí)行順序，導(dǎo)致結(jié)果無法復(fù)現(xiàn)，類似的問題層出不窮。我同意你的觀點(diǎn)，這些工具確實(shí)更能融入工作流程。但這又回到了我之前提出的核心問題：就像我們討論客服中心時(shí)說的，那屬于低智力需求的工作。要知道，數(shù)據(jù)科學(xué)家之所以屬于高智力工作，是因?yàn)樗麄冊趧?chuàng)造前所未有的事物。他們在探索問題的邊界，在認(rèn)知模糊的領(lǐng)域開疆拓土。當(dāng)然有人會(huì)爭辯，說如果數(shù)據(jù)科學(xué)家能夠清晰界定問題的邊界，也許就能借助 Claude Code 實(shí)現(xiàn)精準(zhǔn)落地了。但是我們該如何在這兩個(gè)世界之間架起橋梁？

Jeremy Howard：我覺得這個(gè)主意實(shí)在沒有必要，你總不是想把人從探索性的環(huán)境中剝離出來吧？科研的進(jìn)步源自人們建立洞見的過程。包括費(fèi)曼在內(nèi)的眾多大師，那些偉大的科學(xué)家總會(huì)強(qiáng)調(diào)通過構(gòu)建思維模型來深化直覺，而這些模型需要經(jīng)年累月與研究對象的交互才能形成。以費(fèi)曼為例，由于從事理論物理研究，他不可能實(shí)際接觸旋轉(zhuǎn)的夸克，但他會(huì)嘗試研究旋轉(zhuǎn)的盤子。我們必須自己想辦法找到深度交互的方式。我見過很多數(shù)據(jù)科學(xué)團(tuán)隊(duì)，他們不只是對 Git 不熟悉，他們對自己本該理解的事物也不熟悉。

所以他們的頭頭往往是一位軟件工程師，解決方法就是要求所有數(shù)據(jù)科學(xué)家都停止使用 Jupyter Notebook?，F(xiàn)在，他們被迫使用各種可復(fù)現(xiàn)的虛擬環(huán)境，而這種做法在不斷摧殘團(tuán)隊(duì)。我目睹過太多類似的情況了。正確的解決之道并不在于增設(shè)更多紀(jì)律條文和官僚職位，而在于解決實(shí)際問題。比如我們開發(fā)了一款名叫 nb merge driver 的工具——很多朋友不了解，其實(shí) notebook 本身非常適合 Git。只是 Git 并沒有默認(rèn)為 notebook 提供合并驅(qū)動(dòng)，而僅支持基于行的文本文件?？?Git 系統(tǒng)是支持插件擴(kuò)展的，所以我們可以輕松通過插件兼容 JSON 文件。

于是我們開發(fā)了這類驅(qū)動(dòng)程序?，F(xiàn)在只要使用我們的 merge 驅(qū)動(dòng)進(jìn)行 Git 差異比較，就能在單元格級別上看到差別。每次遇到合并沖突，可以直接定位到單元格級別的具體沖突點(diǎn)，保證 notebook 始終可以在 Jupyter 中打開。NBDime 也實(shí)現(xiàn)了相同的功能，大家可以隨意選擇。我認(rèn)為這才是解決之道：繼承 Brett Victor 的理念，讓人們緊密把握探索性工具。所以一定要完善探索性工具，我甚至認(rèn)為所有軟件開發(fā)者都應(yīng)該采用探索式編程，以深化對于所處理對象的理解。這樣我們才能建立起對目標(biāo)的強(qiáng)大思維模型，進(jìn)而逐步提出更優(yōu)解、建立更加完善的測試。

我自己幾乎不需要調(diào)試器，因?yàn)槲业某绦蚶锘静淮嬖?bug。這并不是因?yàn)槲揖幊碳妓嚦?，而是我采用微步迭代的方式開發(fā)——每個(gè)小步驟都經(jīng)過驗(yàn)證，我會(huì)親眼見證其運(yùn)行效果并且實(shí)時(shí)交互。如此一來，bug 根本就無處藏身。

Dr. Tim Scarfe：其實(shí)我對這事有點(diǎn)矛盾。我認(rèn)同你的觀點(diǎn)，但也會(huì)質(zhì)疑那些宣稱組織運(yùn)作模式終將固化、不再有進(jìn)一步優(yōu)化空間的家伙?？蓜?chuàng)新的本質(zhì)就是適應(yīng)性嘛，對吧？我們應(yīng)該盡可能擴(kuò)大適應(yīng)性的覆蓋范圍，所以必然需要有人持續(xù)測試新想法、發(fā)現(xiàn)新的限制條件。

但同樣的，我們也需要那些穩(wěn)健可控的技術(shù)，比如用云服務(wù)和持續(xù)集成 / 持續(xù)交付（CI/CD）等方式將成果投入生產(chǎn)環(huán)境。

Jeremy Howard：沒錯(cuò)。比如 nbdev 就自帶開箱即用的 CI 集成，還內(nèi)置了測試功能——畢竟源代碼都是 notebook 形式，整個(gè)探索過程都包含在內(nèi)：API 如何動(dòng)作、調(diào)用時(shí)的效果、函數(shù)實(shí)現(xiàn)方式、使用示例、說明文檔等等。在這樣的環(huán)境下，大家自然能把軟件工程處理得更好?？傊蛻?yīng)該全都要。

AI 沒大家說得那么嚇人

Dr. Tim Scarfe：你還記得那份關(guān)于《應(yīng)將存在性風(fēng)險(xiǎn)列為緊急優(yōu)先事項(xiàng)》的聲明嗎？當(dāng)時(shí) Hinton 和 Demis Hassabis 都有聯(lián)合署名。而你基本上是通過反駁來回應(yīng)的。聊聊那時(shí)候的情況吧，你覺得我們應(yīng)該擔(dān)心 AI 帶來的存在性風(fēng)險(xiǎn)嗎？

Jeremy Howard：那只是特定時(shí)期的問題，對吧？如今的形勢已經(jīng)有所轉(zhuǎn)變，實(shí)在是謝天謝地。我們所處的整個(gè)學(xué)術(shù)社群，從某種意義上贏下了這場論戰(zhàn)?，F(xiàn)在我們面臨其他更為緊迫的問題，但當(dāng)時(shí)的主流觀點(diǎn)是：AI 即將實(shí)現(xiàn)自主化。這種隨時(shí)可能實(shí)現(xiàn)的自主，也許會(huì)將世界推向毀滅。這種觀點(diǎn)很大程度上源自 Alizia Yukowski 的研究，但其結(jié)論已經(jīng)在多個(gè)層面被證明是錯(cuò)的。

Dr. Tim Scarfe：他們當(dāng)然也有反駁的理由。

Jeremy Howard：沒錯(cuò)，就像邪教做出的末日預(yù)言一樣，只要不給出具體的日期，他們就總有話說。

Dr. Tim Scarfe：那我稍微修正一下：當(dāng)前的大模型在特定領(lǐng)域確實(shí)可以作為智能體，ARC 挑戰(zhàn)賽的結(jié)果已經(jīng)證明了這一點(diǎn)。因此如果把方向收窄一些，可能自主的目標(biāo)真會(huì)更快實(shí)現(xiàn)。而這就帶來了新的難題：當(dāng)全面的智能化與自主性實(shí)現(xiàn)之后，如果缺少知識和約束，AI 只會(huì)更快走向錯(cuò)誤方向。很多人其實(shí)沒有意識到大模型在認(rèn)知層面的匱乏……

Jeremy Howard：但這些都跟我反駁的核心觀點(diǎn)無關(guān)——我們始終強(qiáng)調(diào)，那份聲明對于真正的危險(xiǎn)所在做出了誤判。沒錯(cuò)，當(dāng)一種極具顛覆性的技術(shù)涌入世界，就會(huì)讓某些人獲得顛覆性的力量。而那些癡迷權(quán)勢的家伙必然會(huì)試圖壟斷這項(xiàng)技術(shù)。

技術(shù)越強(qiáng)大，渴求者們的欲望就會(huì)越強(qiáng)烈。所以真正的問題在于：如果不在乎這些潛在風(fēng)險(xiǎn)，單純想盡快推進(jìn)自主 AI 的崛起，那么唯一的結(jié)果就是權(quán)力得到空前的集中。這正是當(dāng)下我們已經(jīng)反復(fù)見證的現(xiàn)實(shí)。所有的權(quán)力都被交給了超大型科技企業(yè)和政府，普通人根本就無法染指。而在我的威脅模型當(dāng)中，這是最糟糕的結(jié)果，因?yàn)樗鼛砹藱?quán)力的過度集中。而渴望權(quán)力的人只要拿下那個(gè)集中的點(diǎn)，就能獲得一切。

Dr. Tim Scarfe：那我們能不能明確一下“權(quán)力”的定義？因?yàn)槲覀儎倓傄擦倪^，AI 的實(shí)際影響力并不像大眾想象中那么強(qiáng)。

Jeremy Howard：我認(rèn)為 AI 到底有沒有那么強(qiáng)大或者那么深遠(yuǎn)的影響，其實(shí)都不重要，因?yàn)檫@純屬推測。我堅(jiān)持的是，這種權(quán)力就不該集中在少數(shù)公司或者政府手中。因?yàn)橐坏┘?，貪婪者?huì)迅速將其壟斷，進(jìn)而摧毀整個(gè)人類文明。過去幾百年來，人類社會(huì)曾經(jīng)反復(fù)遭遇過這種困境。

就像文字發(fā)明之初，只有極少數(shù)精英能夠掌握書寫能力，而史冊也就在他們的指尖流轉(zhuǎn)。當(dāng)時(shí)也有類似的論調(diào)：若放任大眾書寫，他們必將寫下我們不愿見到的內(nèi)容，后果不堪設(shè)想。

可印刷術(shù)的普及證明，根本沒這回事。選舉制度的推行也是如此。社會(huì)始終在與既得利益者的本能性偏見對抗，試圖證明變革并不是威脅。所以當(dāng)我們討論 AI 可能變得極其強(qiáng)大時(shí)，那帶來的成果到底是讓少數(shù)人掌控收益，還是把成果共享給整個(gè)社會(huì)？

我的觀點(diǎn)肯定是后者。當(dāng)然也有人會(huì)說，不用擔(dān)心啦，AI 不可能發(fā)展得那么強(qiáng)大。這個(gè)不重要，因?yàn)榇蠹腋揪蜎]有確鑿的證據(jù)，誰也說不準(zhǔn)未來會(huì)發(fā)生什么。但我可以明確地講：萬一那么強(qiáng)大的技術(shù)出現(xiàn)了，那我們應(yīng)該放任馬斯克或者特朗普一人將其掌控嗎？這明智嗎？

Dr. Tim Scarfe：Dan Hendricks 曾經(jīng)討論過攻防不對稱性的話題。建立制衡性的防御體系確實(shí)非常重要，但權(quán)力失衡又是一種不容辯駁的現(xiàn)實(shí)。無論是 Meta 還是 Facebook，這類平臺掌握著所有用戶數(shù)據(jù)，知曉我們的全部行為。至于 OpenAI 和 Claude 這類技術(shù)，實(shí)際效果反而不如預(yù)期，因此允許人類繼續(xù)參與其中?？蓴?shù)據(jù)確實(shí)還是由他們掌握的，對吧？

假設(shè)我們在研發(fā)創(chuàng)新技術(shù)時(shí)使用 Claude，那上傳的信息就能讓他們輕松復(fù)制我們的成果。所以具體來講，你指的是哪些風(fēng)險(xiǎn)？

Jeremy Howard：我指的風(fēng)險(xiǎn)并不是這些具體的情況，而是一個(gè)假設(shè)性的問題：如果 AI 變得極其強(qiáng)大，未來會(huì)是什么樣的樣貌？

Dr. Tim Scarfe：比如現(xiàn)在就有人宣稱，AI 代表著新的生產(chǎn)方式。這在我看來完全是夸夸其談，那依你的判斷，這里具體存在怎樣的風(fēng)險(xiǎn)？

Jeremy Howard：按目前的技術(shù)狀態(tài)來講，我認(rèn)為最大的風(fēng)險(xiǎn)就是人們會(huì)喪失持續(xù)提升自身能力的機(jī)會(huì)，逐漸陷入能力衰退的陷阱。這才是我最擔(dān)憂的問題。

隱私風(fēng)險(xiǎn)確實(shí)存在，但我至少不覺得比谷歌和微軟早期的情況更嚴(yán)重。你之前在微軟工作過，肯定清楚他們掌握著多少普通用戶的 Outlook 和 Office 數(shù)據(jù)。谷歌也是如此，Google Workspace 和 Gmail 用戶的數(shù)據(jù)量已經(jīng)說明了一切。這些隱私問題確實(shí)存在，但我認(rèn)為更可怕的是企業(yè)只是外包商，負(fù)責(zé)替政府進(jìn)行數(shù)據(jù)收集的可能性。

過去是 ChoicePoint 和 Acxiom 這類公司，如今又出現(xiàn)了 Palantir 等企業(yè)。美國政府不能親自建立大規(guī)模公民數(shù)據(jù)庫，但法律卻不禁止企業(yè)自建數(shù)據(jù)庫，這就相當(dāng)于政府把業(yè)務(wù)外包給了企業(yè)。這才是最大的問題，當(dāng)然并不是 AI 時(shí)代的獨(dú)有難題。

以你所在的英國為例。眾所周知，英國的監(jiān)控體系早已實(shí)現(xiàn)全面覆蓋，這也讓對監(jiān)控?cái)?shù)據(jù)的利用更加便捷。以及需要資源充足的機(jī)構(gòu)投入足夠的人手，才能讓土地上發(fā)生的一切都盡在掌握，但現(xiàn)在 AI 能夠輕松完成。所以我不是說 AI 時(shí)代才帶來了隱私問題，但它至少讓隱私問題擴(kuò)大化了。

https://www.youtube.com/watch?v=dHBEQ-Ryo24&t=3914s

聲明：本文為 AI 前線整理，不代表平臺觀點(diǎn)，未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議推薦

OpenClaw 出圈，“養(yǎng)蝦”潮狂熱，開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下，自托管 Agent 形態(tài)迅速普及：多入口對話、持久記憶、Skills 工具鏈帶來強(qiáng)大生產(chǎn)力。但這背后也暴露了工程化落地的真實(shí)難題——權(quán)限邊界與隔離運(yùn)行、Skills 供應(yīng)鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團(tuán)隊(duì)研發(fā) / 運(yùn)維流程并形成穩(wěn)定收益。

針對這一系列挑戰(zhàn)，在 4 月 16-18 日即將舉辦的 QCon 北京站上，我們特別策劃了「OpenClaw 生態(tài)實(shí)踐」專題，將聚焦一線實(shí)踐與踩坑復(fù)盤，分享企業(yè)如何構(gòu)建私有 Skills、制定安全護(hù)欄、搭建審計(jì)與回放機(jī)制、建立質(zhì)量 / 效率指標(biāo)體系，最終把自托管 Agent 從可用的 Demo 升級為可靠的生產(chǎn)系統(tǒng)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.