337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

“Claude Code 這條路線錯(cuò)了”!元老級 AI 大師 Jeremy Howard 開炮:馬斯克和 Dario 根本不懂現(xiàn)代軟件工程

0
分享至


編譯 | 核子可樂、Tina

AI 很快會(huì)自動(dòng)化軟件開發(fā)?大模型未來可以直接輸出機(jī)器碼?Jeremy Howard 不客氣地說:說這話的人,多半沒當(dāng)過現(xiàn)代軟件工程師。

這句話出自一位重磅人物。Jeremy Howard 是 fast.ai 創(chuàng)始人、Kaggle 傳奇人物,也是 ULMFiT 論文作者——后者幾乎定義了后來“預(yù)訓(xùn)練 + 微調(diào)”的語言模型范式。某種意義上,今天大家習(xí)以為常的很多大模型訓(xùn)練思路,都能往回追溯到他那一代研究者的探索。也因此,當(dāng) AI 編程、智能體和自動(dòng)化軟件開發(fā)成為行業(yè)最熱話題時(shí),他的判斷尤其值得聽一聽。


他首先點(diǎn)名批評了當(dāng)下流行的一些技術(shù)話題。比如 Anthropic CEO Dario Amodei 在《技術(shù)的青春期》中提出,頂尖工程師借助 AI 可以獲得極高效率,并由此推斷普通軟件工程師的工作很快會(huì)被自動(dòng)化。Jeremy 認(rèn)為這種推斷“這根本說不通”。

同樣被點(diǎn)名的還有馬斯克。后者曾表示,大語言模型未來可以直接輸出機(jī)器碼,到那時(shí)人類將不再需要庫文件和編程語言了。Jeremy 的評價(jià)是:這幫人都沒當(dāng)過現(xiàn)代軟件工程師。在他看來,很多人誤以為軟件工程只是把代碼輸入 IDE,但事實(shí)“根本不是”。

他說其實(shí)幾十年前很多人就覺得即將出現(xiàn)第四代編程語言之類的東西,類似“軟件編寫越來越簡單,再也不需要程序員和軟件工程師了,誰都可以生產(chǎn)代碼”。但在軟件工程這個(gè)特殊領(lǐng)域,大模型雖然可以大量生成代碼,卻并不意味著它能勝任真正的軟件工程工作。Jeremy 說自己現(xiàn)在“大概有 90% 的代碼都是由模型代勞”,但“這并沒有顯著提升效率,因?yàn)榫幊虖膩砭筒皇切实钠款i。”

他認(rèn)為大模型也有能力范圍,也會(huì)“裝作理解”。在很多任務(wù)上,這種表象已經(jīng)足夠好用。但一旦問題超出訓(xùn)練數(shù)據(jù)的分布范圍,這種理解就會(huì)迅速崩塌,大家會(huì)發(fā)現(xiàn)“這玩意原來這么蠢……”。

另外,對于 Claude Code,他更是從頭批到尾。

最近不少人驚嘆 Claude Code 用 Rust 寫出了一個(gè) C 編譯器。但 Jeremy 與 LLVM 創(chuàng)始人 Chris Lattner 討論后發(fā)現(xiàn),這個(gè)所謂的“新編譯器”其實(shí)并沒有真正突破現(xiàn)有技術(shù)路線。因?yàn)?LLVM 體系早已存在于大量訓(xùn)練數(shù)據(jù)中,而 Rust 只是另一種實(shí)現(xiàn)語言。將其轉(zhuǎn)換為 Rust,本質(zhì)上就是在訓(xùn)練數(shù)據(jù)的片段間進(jìn)行插值。所以本質(zhì)上,這仍然是一種風(fēng)格遷移問題。

“訓(xùn)練數(shù)據(jù)中已經(jīng)有構(gòu)建編譯器的方法,而且很多現(xiàn)成的軟件都可以實(shí)現(xiàn)?!薄捌浔举|(zhì)都是對現(xiàn)有成果的明顯照搬。這正是我眼中最核心的挑戰(zhàn)所在:要想做出真正原創(chuàng)性的成果,就不能依賴大語言模型?!?/p>

除了技術(shù)能力本身,Jeremy 也批評了當(dāng)前 AI 編程工具的發(fā)展方向。

在他看來,人類歷史上最重要的軟件創(chuàng)新——從 Smalltalk 到 APL,再到 Mathematica——都強(qiáng)調(diào)人與計(jì)算機(jī)之間的緊密互動(dòng)。開發(fā)者可以實(shí)時(shí)操作對象、觀察系統(tǒng)狀態(tài)、調(diào)整參數(shù),從而建立直覺和理解。

而像 Claude Code 這樣的工具,卻走向了相反的方向:開發(fā)者只需要輸入 prompt,剩下的代碼由模型生成,甚至不需要理解整個(gè)系統(tǒng)。這種模式雖然看起來效率很高,但卻在逐漸削弱開發(fā)者對軟件系統(tǒng)的理解。

Jeremy 認(rèn)為,這種趨勢是讓人類逐漸與自己的代碼脫節(jié),甚至有些“不人道”。在他看來,AI 編程真正的挑戰(zhàn)并不是讓模型寫更多代碼,而是如何設(shè)計(jì)一種新的協(xié)作方式,讓人類和 AI 在同一個(gè)交互環(huán)境中共同工作,而不是讓人類逐漸退出軟件開發(fā)過程。

更嚴(yán)重的是,Claude Code 這種開發(fā)方式還會(huì)讓人類無法學(xué)習(xí)新知識,個(gè)人能力無法得到提升。企業(yè)也正因 AI 編程累積的技術(shù)債走向衰亡,這些債務(wù)使他們既無法維護(hù)現(xiàn)有產(chǎn)品、也難以開發(fā)新產(chǎn)品。

“所以我覺得這就是在把企業(yè)和員工往被淘汰的絕路上推。無法理解現(xiàn)在竟有這么多大公司的高管在推動(dòng)這種做法,簡直令人驚訝。”

以下是播客整理:

語言模型微調(diào)是怎么誕生的

Dr. Tim Scarfe:Jeremy Howard,我大概是從 2017 年、2018 年那會(huì)開始關(guān)注你的。你那篇著名的 ULMFiT 論文讓我印象深刻,當(dāng)時(shí)我在微軟工作,還專門就此做過演講。如今大家理所當(dāng)然的觀點(diǎn),即只需依托文本語料庫對語言模型進(jìn)行微調(diào),就能持續(xù)訓(xùn)練并實(shí)現(xiàn)專業(yè)化,就是從那篇文章中孕育出來的。

Jeremy Howard:其實(shí)這也不完全是第一次嘗試,準(zhǔn)確講其實(shí)是第二次。更早幾年前 McCann 和 Andrew Dai 也做過類似的研究,但他們忽略了一個(gè)關(guān)鍵點(diǎn)——預(yù)訓(xùn)練數(shù)據(jù)集必須是通用語料庫。

所以我只是幸運(yùn)地抓住了這個(gè)關(guān)鍵點(diǎn),但這一切也確實(shí)跟我?guī)资觊g的哲學(xué)與認(rèn)知科學(xué)積累有關(guān)系。

我對正則化一直情有獨(dú)鐘,而且尤其推崇這樣的實(shí)踐思路:先構(gòu)建一套高度靈活的模型,再通過添加正則化項(xiàng)、而非縮減架構(gòu)規(guī)模來增加約束性。

這一點(diǎn)在當(dāng)時(shí)的學(xué)術(shù)界引發(fā)了極大爭議,但也并不算是我們的獨(dú)創(chuàng)見解。Stephen Merity 當(dāng)時(shí)的做法是:選取 LSMT 這種循環(huán)神經(jīng)網(wǎng)絡(luò)的經(jīng)典模型(目前的研究也開始逐漸回歸此類模型),在保持極致靈活性的同時(shí)疊加五種不同類型的正則化方法。他幾乎涵蓋了一切能想到的正則化類型,而這也成為我的研究起點(diǎn):構(gòu)建一套既能隨心所欲發(fā)揮強(qiáng)大能力,又能按需嚴(yán)格約束的深度學(xué)習(xí)模型。在此基礎(chǔ)之上,我需要海量的文本數(shù)據(jù)集。有趣的是這同樣跟 Stephen 有關(guān),他曾參與 Common Crawl 項(xiàng)目,還協(xié)助創(chuàng)建了維基百科數(shù)據(jù)集。

后來我意識到,維基百科的數(shù)據(jù)集中其實(shí)包含大量預(yù)設(shè)性假設(shè),比如用 unk 來標(biāo)記未知詞匯,就是說完全采用了經(jīng)典 NLP 方法。

于是我重構(gòu)了整套數(shù)據(jù)集,創(chuàng)建了新版維基百科數(shù)據(jù)集,現(xiàn)在它也成為我的通用語料庫。之后我采用 AWD-LSTM 模型進(jìn)行訓(xùn)練,僅用一晚時(shí)間就成功實(shí)現(xiàn)。

當(dāng)時(shí)我用的是一塊游戲顯卡,前后跑了八個(gè)小時(shí)。舊金山大學(xué)的資源有限,所以我用的好像是一塊 2080 Ti 顯卡。

第二天清早醒來時(shí),模型訓(xùn)練已經(jīng)完成——其架構(gòu)采用的正是如今大家熟悉的三段式。預(yù)訓(xùn)練、中訓(xùn)練、后訓(xùn)練。我當(dāng)時(shí)想:既然能預(yù)測維基百科的下一個(gè)詞,模型肯定掌握了大量世界知識。于是我嘗試用特定語料進(jìn)行微調(diào),也就是現(xiàn)在所謂監(jiān)督式微調(diào)數(shù)據(jù)集,而我用的是電影評論數(shù)據(jù)集。

事實(shí)證明,它特別擅長預(yù)測這類文本中可能出現(xiàn)的下一個(gè)詞,從而掌握大量電影知識。這次的訓(xùn)練只用了大概一個(gè)小時(shí),接著又花了幾分鐘對下游分類器做了微調(diào)——用的是一套經(jīng)典的學(xué)術(shù)數(shù)據(jù)集。

我嘗試解決的是當(dāng)時(shí)最困難的一種分類問題,即從 5000 條影評中判斷觀眾對于某部影片的情感傾向(正面 / 負(fù)面),但如今這項(xiàng)任務(wù)已經(jīng)很簡單了。那時(shí)候只有高度專業(yè)化的模型才能較好完成,甚至有人專門為此撰寫博士論文。而我僅用 5 分鐘完成微調(diào)的模型,就超越了全部原有研究成果。

Dr. Tim Scarfe:這確實(shí)令人驚嘆,而更值得玩味的就是你那精細(xì)的微調(diào)方法學(xué)成果。

Jeremy Howard:沒錯(cuò),我們的微調(diào)方法是 Fast AI 團(tuán)隊(duì)自主研發(fā)的。當(dāng)時(shí) Fast AI 剛剛成立一年,還處于起步階段。我們當(dāng)時(shí)做了一個(gè)極具爭議的決定:專注于對現(xiàn)成模型的微調(diào),因?yàn)槲覀儓?jiān)信微調(diào)的力量。同期也有其他研究者在探索這個(gè)方向,比如 Jason Yosinski 也做過非常出色的研究。

我記得他在博士期間就研究過如何優(yōu)化模型及其性能上限,計(jì)算機(jī)視覺領(lǐng)域也有不少其他研究者在做探索。

我們算是先行者之一,當(dāng)時(shí)不少團(tuán)隊(duì)都在深入探索微調(diào)技術(shù)。我們的想法是,用單一學(xué)習(xí)率一次性微調(diào)整個(gè)模型可能行不通,因?yàn)槟P椭胁煌膶哟尉哂胁煌男袨樘匦浴?/p>

這正是 Jason Yosinski 研究揭示的一大關(guān)鍵。而我們進(jìn)一步提出了新思路:僅訓(xùn)練末層效率更高,因?yàn)橹恍枰獙δ舆M(jìn)行反向傳播。

在確定末層效果良好之后,再逐步擴(kuò)展到倒數(shù)第二層、第三層。我們采用“鑒別式學(xué)習(xí)率”的機(jī)制,即為不同層次分配不同的學(xué)習(xí)率。

還有另一個(gè)我們曾反復(fù)強(qiáng)調(diào),但多年來無人在意的關(guān)鍵洞見,即必須對每個(gè) batch 歸一化層進(jìn)行微調(diào)。所有歸一化層都需要精細(xì)微調(diào),因?yàn)樗鼈儠?huì)改變整體的整體規(guī)模。只要以此為前提,通常只需微調(diào)最后一到兩層,就能獲得接近頂尖水平的性能結(jié)果,整個(gè)過程只需要幾秒鐘。

Dr. Tim Scarfe:是的,鑒別式學(xué)習(xí)率很有意思。因?yàn)楫?dāng)時(shí)的主流觀點(diǎn)是:如果在模型微調(diào)中把學(xué)習(xí)率設(shè)定得過高,就會(huì)破壞表示結(jié)構(gòu)。所以大家普遍認(rèn)為必須采用極低的學(xué)習(xí)率,否則模型本身就跑偏了。

Jeremy Howard:那時(shí)候還不存在公認(rèn)的最佳解決方案,也沒人討論過這個(gè)話題。就當(dāng)時(shí)的情況看,人們根本就不關(guān)注遷移學(xué)習(xí)。

而 Rachel 和我堅(jiān)信遷移比任何事情都重要,因?yàn)橹恍枰环桨殉笠?guī)模模型訓(xùn)練出來,其余研究者就能直接進(jìn)行微調(diào)。所以我們決定要鉆研這項(xiàng)技術(shù),為此投入大量時(shí)間并反復(fù)嘗試了各種方案。但最終發(fā)現(xiàn),直覺往往才是最簡單明了的路徑——那些在直覺上可行的方案,基本都跑通了。

這跟當(dāng)今的機(jī)器學(xué)習(xí)普遍實(shí)踐有著根本上的差異——如今的研究似乎都圍繞著消融實(shí)驗(yàn)展開,強(qiáng)調(diào)不能做任何假設(shè)或者猜測。但這完全不符合實(shí)際。我發(fā)現(xiàn)幾乎所有預(yù)期有效的方案都能一次成功,因?yàn)槲彝度氪罅繒r(shí)間培養(yǎng)出這種直覺,獲得了對梯度行為規(guī)律的深刻理解。

Dr. Tim Scarfe:但我覺得好像也存在過二元對立的現(xiàn)象:持續(xù)學(xué)習(xí)希望在保持泛化能力的同時(shí)持續(xù)訓(xùn)練模型,而微調(diào)則專注于就特定任務(wù)做優(yōu)化。長期以來存在著這樣的認(rèn)知:模型確實(shí)可以做定制,可以按需調(diào)整,但這會(huì)犧牲泛化能力并削弱表征能力。對這個(gè)你是怎么看的?

Jeremy Howard:沒錯(cuò),確實(shí)存在這種現(xiàn)象,但應(yīng)該沒有你講的那么嚴(yán)重。根本問題在于,人們往往忽略了對激活函數(shù)與梯度分析的觀察。

因此我們在 Fast AI 軟件中內(nèi)置了一項(xiàng)核心能力:允許用戶一覽整個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

經(jīng)過幾次操作之后(學(xué)習(xí)過程只需要幾個(gè)小時(shí)),研究者就能快速意識到當(dāng)前是屬于過擬合、欠擬合或者某個(gè)層出現(xiàn)了問題。

這也不算什么奧秘。具體來講,假如當(dāng)某些神經(jīng)元陷入“休眠”狀態(tài),即無論如何微調(diào)都出現(xiàn)梯度歸零——這種情況往往發(fā)生在梯度趨向無窮大的情況。但這類問題總能修復(fù),所以實(shí)際效果遠(yuǎn)比大家想象的要好。只要訓(xùn)練得當(dāng),適合連續(xù)學(xué)習(xí)的模型也同樣能通過微調(diào)出色地完成特定任務(wù),只要謹(jǐn)慎處置即可。

Dr. Tim Scarfe:某種意義上,我們確實(shí)需要讓神經(jīng)元休眠。讓我具體解釋一下:我們需要扭曲模型的行為來引入隱式約束,因?yàn)闆]有約束就談不上創(chuàng)造或者推理能力等等。所以從這個(gè)角度我們就能讓模型拒絕做某些事,轉(zhuǎn)而去做別的事。

Jeremy Howard:我倒不這么看。對我而言,在思考 AI 時(shí)應(yīng)該多多參考人類的思維模式,這很有啟發(fā)。我發(fā)現(xiàn)二者行為的相似性要遠(yuǎn)大于差異性,而我由此產(chǎn)生的直覺往往非常靠譜。

要知道在人類學(xué)習(xí)新事物時(shí),并不一定要忘卻舊知識。所以我發(fā)現(xiàn):當(dāng)模型嘗試學(xué)習(xí)兩項(xiàng)相似的任務(wù)時(shí),這兩種能力的同時(shí)提升效果往往好于只專注單一任務(wù)的模型。

Dr. Tim Scarfe:這讓我想起 LeCun 實(shí)驗(yàn)室的 DINO 論文。雖然當(dāng)時(shí)僅限于視覺模型,但這種自監(jiān)督學(xué)習(xí)框架的核心思想仍極其重要:我們在進(jìn)行預(yù)訓(xùn)練時(shí),要盡可能保持多樣性和保真度,這樣在執(zhí)行下游任務(wù)時(shí)才能擁有更多可利用的錨點(diǎn)。

Jeremy Howard:沒錯(cuò),半監(jiān)督和自監(jiān)督學(xué)習(xí)確實(shí)曾是被嚴(yán)重低估的領(lǐng)域。而 Yann LeCun 絕對是該領(lǐng)域最重要的研究者之一。當(dāng)年我還專門寫過一篇博文,就為了吐槽為什么半監(jiān)督學(xué)習(xí)方面的研究者那么少。Yann LeCun 冥過我的文章,還推薦了幾篇我遺漏的重要文獻(xiàn)。但最令我驚訝的是,這種方法的效果居然這么好——本質(zhì)上就是設(shè)計(jì)一項(xiàng)預(yù)處理任務(wù)。

所以設(shè)想一下,我們在 ULMFiT 之前就做過這個(gè)設(shè)想,類似于在醫(yī)學(xué)影像領(lǐng)域取一份組織切片,遮住幾個(gè)像素塊,然后預(yù)測原本的內(nèi)容是什么。

我在南佛羅里達(dá)大學(xué)帶的一些學(xué)生就在做這方面研究,基本上就是在復(fù)用我們和其他人已經(jīng)在視覺領(lǐng)域做過的工作。比如這種遮罩方法就不是我們的發(fā)明,在計(jì)算機(jī)視覺領(lǐng)域早有實(shí)踐,但我們會(huì)自然想到在預(yù)測單詞方面也值得嘗試。

以通用預(yù)訓(xùn)練模型為起點(diǎn)這一核心思路,在計(jì)算機(jī)視覺領(lǐng)域早已存在。其實(shí)有篇 2015 年左右發(fā)表的經(jīng)典論文,內(nèi)容完全基于實(shí)證研究,展示了當(dāng)我們用預(yù)訓(xùn)練的 ImageNet 模型去預(yù)測雕塑家的身份或者建筑風(fēng)格時(shí),該模型在每項(xiàng)任務(wù)中都取得了最先進(jìn)的結(jié)果。但令我驚訝的是,人們看到這些成果后竟然沒有聯(lián)想到:這種方法也理應(yīng)適用于其他領(lǐng)域——包括基因組序列分析、語言處理乃至其他方向。我發(fā)現(xiàn)人們往往缺乏想象力,總認(rèn)為某項(xiàng)技術(shù)只能局限于特定領(lǐng)域。

Dr. Tim Scarfe:確實(shí)如此,我覺得這里面有兩個(gè)關(guān)鍵點(diǎn)。首先,我們其實(shí)是暗示存在一種類似古德哈特定律(即任何被設(shè)定為目標(biāo)的衡量指標(biāo),都將失去反映真實(shí)情況的能力)的短視效應(yīng)——我們最終得到的只是想要的結(jié)果,其他一切都會(huì)被犧牲掉。事實(shí)顯然并非如此,因?yàn)樵谡Z言模型中我們是可以優(yōu)化困惑度的。如你所說,這似乎涉及到分布假說,即詞語的含義取決于其上下文環(huán)境。當(dāng)我們擁有海量關(guān)聯(lián)數(shù)據(jù)時(shí),無論是掩蔽自動(dòng)預(yù)測還是類似的技術(shù),模型似乎都能生出一種可稱為“理解力”的東西。

Jeremy Howard:我始終將其視為抽象層次。當(dāng)模型需要預(yù)測時(shí),比如判斷棋譜的開局是不是采用了 Bobby Fischer 的習(xí)慣下法,再以國際象棋的標(biāo)準(zhǔn)記譜法預(yù)測后續(xù)棋路,那它就首先得掌握棋譜知識。至于判斷“此提案是否被 1956 年的美國總統(tǒng)否決”,那么模型不僅要知曉總統(tǒng)的身份,更要理解“總統(tǒng)”這一制度性概念的存在,進(jìn)而理解領(lǐng)導(dǎo)人概念、人類社會(huì)中的等級制度、人類族群乃至物理世界的存在。如果不掌握這些層層遞進(jìn)的認(rèn)知,就無法準(zhǔn)確預(yù)測句子中的下一個(gè)詞。

所以我的基本思考是這樣:建立 ULMFiT 的初衷,正是要盡可能壓縮這種知識的獲取過程,還必須在模型深處建立起抽象層次結(jié)構(gòu)。如果做不到這一點(diǎn),談何精準(zhǔn)預(yù)測下一個(gè)詞?要知道,深度學(xué)習(xí)模型的本質(zhì)就是通用學(xué)習(xí)機(jī)器,我們又掌握了通用訓(xùn)練方法。因此我推測:只要數(shù)據(jù)正確且硬件足夠強(qiáng)大,理論上我們就能構(gòu)建起這種詞序預(yù)測機(jī),它沒有理由不能隱式構(gòu)建起對文本描述對象的分層結(jié)構(gòu)化理解。

Claude Code 的“創(chuàng)造力”,
本質(zhì)上還是插值組合

Dr. Tim Scarfe:但我覺得 AI 的認(rèn)知還相當(dāng)淺顯。它們確實(shí)掌握著無數(shù)表層統(tǒng)計(jì)關(guān)系,也能實(shí)現(xiàn)極強(qiáng)的泛化能力。但關(guān)鍵在于,我想?yún)⒖寄阒瓣P(guān)于創(chuàng)造力做出過的論述。我認(rèn)為知識的本質(zhì)就是約束,而創(chuàng)造力則是在遵循這些約束的同時(shí)推動(dòng)知識演進(jìn)。所以 AI 并不具備創(chuàng)造力,你之前也持有相同的觀點(diǎn)。既然如此,你一方面承認(rèn)它們具備認(rèn)知能力,另一方面又否認(rèn)其具備創(chuàng)造力。這該怎么理解呀?

Jeremy Howard:我倒不記得自己明確這么講過。只記得在跟 Peter Norvig 一起接受采訪時(shí),我們都提到:其實(shí) AI 在某種意義上是具備創(chuàng)造力的,只是我們用詞要謹(jǐn)慎一些。比如我非常敬重的 Piotr Wozniak,他重新發(fā)現(xiàn)了間隔重復(fù)學(xué)習(xí)法,由此建立起 SuperMemo 系統(tǒng),獲得了現(xiàn)代記憶大師的稱號。

他之所以將畢生精力投入到對記憶的研究,根本原因在于他堅(jiān)信創(chuàng)造力源自海量的記憶儲備,即以全新的方式組合記憶內(nèi)容才是激發(fā)創(chuàng)造力的絕佳途徑。

大語言模型在這方面表現(xiàn)相當(dāng)出色,但也存在一種其完全無法勝任的創(chuàng)造力,也就是突破分布式模型的局限。我認(rèn)為這就是解決這個(gè)問題的關(guān)鍵所在。

不過我想強(qiáng)調(diào)的是:對這個(gè)問題必須保持極度審慎的態(tài)度。如果簡單斷言大模型缺少創(chuàng)造力,其實(shí)是種極具誤導(dǎo)性的表達(dá)——它們確實(shí)能做出看似具有創(chuàng)造性的表現(xiàn)。但要進(jìn)一步追問:大模型能不能真正突破訓(xùn)練分布的邊界,答案肯定是否定的。但訓(xùn)練數(shù)據(jù)集如此龐大,其中插值的方式又極其繁多,我們還遠(yuǎn)不清楚它的邊界到底在哪里。當(dāng)然,我每天都能見證這種現(xiàn)象——畢竟我的工作就是研發(fā),始終游走在訓(xùn)練數(shù)據(jù)的邊界附近,做出各種前所未有的嘗試。

我發(fā)現(xiàn)了一種奇怪的現(xiàn)象,不知道你有沒有見過,我每天都會(huì)遇到很多次:語言模型會(huì)突然從極聰明變得特別蠢,甚至連最基礎(chǔ)的邏輯前提都無法理解。它就好像突然意識到:哎呀,問題超過我的訓(xùn)練數(shù)據(jù)分布范圍了。變笨就是一瞬間,任何討論都毫無意義,模型突然就失控了。

Dr. Tim Scarfe:沒錯(cuò),我非常欣賞 Margaret Boden 提出的創(chuàng)造力分層理論:創(chuàng)造力分為組合式、探索式和變革式三種。而當(dāng)前的模型確實(shí)已經(jīng)發(fā)現(xiàn)了組合式創(chuàng)造力的秘密。

但于我而言,關(guān)鍵在于約束的設(shè)置。這也是 Boden 的觀點(diǎn),連達(dá)芬奇都說過:創(chuàng)造力的本質(zhì)就是約束的藝術(shù)。你提到的對話工程學(xué)也是這個(gè)道理。問題在于,當(dāng)我們跟語言模型對話時(shí),本質(zhì)上就是給予規(guī)范,整個(gè)過程需要反復(fù)迭代。我們?nèi)祟惖乃伎家彩侨绱?,智能的?shí)現(xiàn)就是在大腦中構(gòu)建想象形式的樂高積木,同時(shí)遵守各種約束條件。

在遵守這些約束并持續(xù)演進(jìn)之后,由此帶來的成果就是創(chuàng)造。所以在為語言模型添加約束時(shí),無論是通過監(jiān)督、批評者還是驗(yàn)證者的方式,它們就能展現(xiàn)出創(chuàng)造力。AlphaEvolve 就已經(jīng)呈現(xiàn)出這樣的能力。但問題在于,當(dāng)模型脫離約束,它們身上就會(huì)出現(xiàn)我們談到的行為塑造現(xiàn)象。正因如此,語言模型也就無法突破自身訓(xùn)練數(shù)據(jù)的分布范圍。

Jeremy Howard:我想說的是,語言模型之所以無法突破分布范圍,根本原因是這類數(shù)學(xué)模型本身的局限性。雖然理論上可行,但實(shí)際效果極差。就像二維數(shù)據(jù)的擬合曲線一旦超出數(shù)據(jù)覆蓋區(qū)域,曲線就會(huì)在空間內(nèi)向各個(gè)方向瘋狂延伸。

我們本質(zhì)上就是在做這件事,只不過是在多維空間中操作。當(dāng)人類知識庫里的全部內(nèi)容都成為組合素材時(shí),語言模型或許會(huì)表現(xiàn)出震驚世人的組合式創(chuàng)造力。

我覺得這也是人們常常誤解的點(diǎn),比如昨天我跟 Chris Latner 討論 Claude Code 怎么編寫 C 編譯器時(shí),他認(rèn)為這是款純凈室編譯器,因?yàn)樗怯?Rust 編寫的。

Chris 本人就是當(dāng)今使用最廣泛的 C/C++ 編譯器的締造者,基于 LLVM 運(yùn)行,而 LLVM 則是編譯器普遍采用的基礎(chǔ)架構(gòu)。而且神奇的是,Chris 壓根沒用過 Rust,也沒提供過任何編譯器源代碼。

所以 Rust 版本的 C 編譯器就是凈室實(shí)現(xiàn),但也跟大模型的工作原理存在出入。Chris 的所有工作都體現(xiàn)在了大模型的訓(xùn)練數(shù)據(jù)當(dāng)中;LLVM 得到廣泛應(yīng)用,無數(shù)項(xiàng)目都基于它構(gòu)建,其中也包括各種 C/C++ 編譯器。將其轉(zhuǎn)換為 Rust,本質(zhì)上就是在訓(xùn)練數(shù)據(jù)的片段間進(jìn)行插值。所以本質(zhì)上,這就是風(fēng)格遷移的問題。所以最多只能稱之為組合式創(chuàng)造力。從生成的代碼倉庫就能發(fā)現(xiàn),新項(xiàng)目直接復(fù)制了 LLVM 代碼片段,而 Chris 坦言“我當(dāng)初犯了錯(cuò),就不該采用這種沒人用的辦法”。

而 AI 是唯一照搬了 Chris 這種辦法的開發(fā)者。之所以會(huì)這樣,就是因?yàn)榇竽P瓦€沒能真正發(fā)揮創(chuàng)造力。它還是在訓(xùn)練數(shù)據(jù)當(dāng)中尋找某種非線性的平均點(diǎn)——比如在 Rust 技術(shù)和編譯器構(gòu)建技術(shù)間找交集。

Dr. Tim Scarfe:這些說法都成立。首先,我們不能也不該低估這種組合式創(chuàng)造力的規(guī)模。雖然很多代碼片段都來自網(wǎng)上公開的結(jié)果,但它也確實(shí)搭建了完整的測試框架——每次代碼提交都會(huì)觸發(fā)測試,相當(dāng)于建立了實(shí)時(shí)審查機(jī)制。這就是 AI 自己搞的自主反饋循環(huán)。

某種程度上,這跟 OpenAI 和 Gemini 最近的研究非常相似——讓 AI 自建評估函數(shù)來嘗試解決數(shù)學(xué)問題。但人們往往忽略了一點(diǎn):運(yùn)用評估函數(shù)本身,就代表著 AI 對問題并不完全理解。它仍然在通過暴力搜索和統(tǒng)計(jì)模式匹配來解題,并將驗(yàn)證器當(dāng)作約束。

Jeremy Howard:所以說大模型根本沒必要這么搞。因?yàn)橛?xùn)練數(shù)據(jù)中已經(jīng)有構(gòu)建編譯器的方法,而且很多現(xiàn)成的軟件都可以實(shí)現(xiàn)。所以它直接借用現(xiàn)有方案并將其轉(zhuǎn)換成了 Rust 語言。單憑這點(diǎn),就已經(jīng)相當(dāng)驚人。

雖然我對數(shù)學(xué)不像對計(jì)算機(jī)科學(xué)那么熟悉,但我也常跟數(shù)學(xué)家們交流,發(fā)現(xiàn)在埃爾德什差異問題(對于任意常數(shù) C,總能找到等距的有限子序列,使其元素累加和的絕對值超過 C)等領(lǐng)域也存在類似的現(xiàn)象。部分問題雖然得到了新解,但并非頓悟式的突破。大模型往往還是在整合人類已知的相關(guān)知識點(diǎn)來解題。

這幫人都沒當(dāng)過現(xiàn)代軟件工程師”

Dr. Tim Scarfe:再來聊聊 Claude Code。你曾經(jīng)深入探討過氛圍編程的問題,Rachel 也寫過一篇有趣的文章,引用 METR 研究所的成果,發(fā)現(xiàn)人們在進(jìn)行氛圍編程時(shí)生產(chǎn)力反而有所下降。

還有 Anthropic 的研究,這里我們稍做回顧。Dario 前段時(shí)間發(fā)表了一篇題為《技術(shù)的青春期》的文章,大意是:Anthropic 擁有眾多頂尖軟件工程師,在 AI 輔助下開發(fā)效率極高。而后他將這種情況粗暴推廣到普通軟件工程師群體,宣稱 AI 很快就能全面實(shí)現(xiàn)工作自動(dòng)化,屆時(shí)將導(dǎo)致大面積失業(yè)。

Jeremy Howard:這根本說不通。幾天前馬斯克也講過類似的話,說什么大語言模型可以直接輸出機(jī)器碼。到那個(gè)時(shí)候,我們就完全不需要庫文件和編程語言了。

問題在于,這幫人都沒當(dāng)過現(xiàn)代軟件工程師。我不確定 Dario 有沒有做過真正的軟件工程師崗。軟件工程是門特殊學(xué)科,很多人誤以為軟件工程就是簡單把代碼輸入到集成開發(fā)環(huán)境。根本不是,編程的本質(zhì)是另一種風(fēng)格遷移問題。我們拿到待解決問題的規(guī)范說明,而后運(yùn)用組合式創(chuàng)造力找出訓(xùn)練數(shù)據(jù)中能夠填補(bǔ)兩者間隙的部分來解決問題,再將其與目標(biāo)語言的語法進(jìn)行插值處理,最終形成代碼。

Fred Brooks 幾十年前曾寫過一篇著名論文《沒有銀彈》,其內(nèi)容對當(dāng)下的情況做出了精準(zhǔn)預(yù)言。當(dāng)時(shí)很多人都覺得即將出現(xiàn)第四代編程語言之類的東西,類似“軟件編寫越來越簡單,再也不需要程序員和軟件工程師了,誰都可以生產(chǎn)代碼”。但他則預(yù)言稱,技術(shù)的進(jìn)步最多只能帶來 30% 的效率提升。

這就是他的結(jié)論,未來十年之內(nèi)軟件開發(fā)的效率提升空間只有 30%。我雖然覺得沒必要這么悲觀,但軟件工程中的絕大部分工作確實(shí)不止于編寫代碼。某種意義上,Dario 的部分觀點(diǎn)也有道理,比如當(dāng)下很多人已經(jīng)在靠語言模型為生成代碼。我自己就是這樣,大概有 90% 的代碼都是由模型代勞。但這并沒有顯著提升效率,因?yàn)榫幊虖膩砭筒皇切实钠款i。

語言模型確實(shí)給我的研究工作帶來不少幫助,比如預(yù)判哪些文件需要修改。但在我嘗試讓大模型設(shè)計(jì)前所未有的解決方案時(shí),結(jié)果永遠(yuǎn)是場災(zāi)難。

實(shí)際上,它每次給我的都是看起來差不多的設(shè)計(jì),而這往往就是災(zāi)難的根源。我明明想要?jiǎng)?chuàng)造新事物來消除這種相似性,但它總在延續(xù)過去,這就是最大的沖突點(diǎn)。

Dr. Tim Scarfe:我發(fā)現(xiàn)很多科技從業(yè)者對于認(rèn)知科學(xué)和哲學(xué)概念都有嚴(yán)重誤解。我們節(jié)目也采訪過很多杰出人物,比如曾撰寫了《知識法則》一書的 César Hidalgo,還有神經(jīng)科學(xué)哲學(xué)家 Mazviita Chirimuuta 也反復(fù)強(qiáng)調(diào)過知識具有變幻莫測的特性。我認(rèn)為知識在本質(zhì)上是有視角屬性的。

我不覺得單靠維基百科上那種純抽象、脫離視角屬性的條目就足以還原知識的全貌。換言之,我認(rèn)為知識有著具象性且充滿生命力,脫胎于我們體內(nèi)。組織存在的意義就在于守護(hù)并演進(jìn)知識。而在把認(rèn)知任務(wù)委托給語言模型時(shí),自然會(huì)產(chǎn)生一種詭異的悖論效應(yīng):組織內(nèi)部的知識反而受到侵蝕。

Jeremy Howard:確實(shí),這真的令人不安。網(wǎng)上經(jīng)常出現(xiàn)這樣的爭論:有人堅(jiān)稱大語言模型根本就啥都不懂,只是裝作可以理解。另一些人則反駁:別胡說八道,看看大模型剛剛幫我搞定了什么問題。有趣的是雙方都有道理——大語言模型實(shí)際上確實(shí)是在扮演一個(gè)理解了問題的人。

它們假裝可以理解,恰恰呼應(yīng)了 Daniel Dennett 早期認(rèn)知科學(xué)研究的精髓,中文房間實(shí)驗(yàn)(設(shè)想一個(gè)僅懂英語的人通過操作中文翻譯程序手冊處理外部中文提問,使外界誤判其具備理解能力,以此論證計(jì)算機(jī)僅模擬智能表象而缺乏真正認(rèn)知狀態(tài))的核心思想也正是如此。房中人的表現(xiàn)確實(shí)很像懂中文,因?yàn)槲覀兲岬乃袉栴}都能得到答案。但實(shí)際其只是在海量的書籍或機(jī)器中查找信息。當(dāng)然,在裝懂不影響結(jié)果的范圍之內(nèi),到底是裝聰明還是真聰明并不重要。

所以對于很多任務(wù),大語言模型只需要裝懂就足夠了——畢竟在實(shí)際應(yīng)用中,是不是真懂根本無關(guān)緊要。可如果哪天越過了邊界,很多人才會(huì)驚覺:天哪,大模型這玩意原來這么蠢……

Dr. Tim Scarfe:順帶一提,我是 Searle 的擁躉,他曾提到因果具有可還原性、但本體不具備可還原性,也就是強(qiáng)調(diào)存在現(xiàn)象學(xué)這個(gè)維度。這也是知識變幻莫測的精妙所在,它本質(zhì)上承襲了康德的思想:世界錯(cuò)綜復(fù)雜,無人能夠完全理解。正如盲人摸象,我們不可避免各自擁有不同視角。

由于復(fù)雜度過高,因此每個(gè)人都在進(jìn)行建模。但有趣的是,語言模型有時(shí)似乎表現(xiàn)得能夠理解事物,而這種理解的根源在于監(jiān)督者為其提供了框架。在這套框架內(nèi),當(dāng)我們從大象的視角觀察,認(rèn)知結(jié)論竟然出奇連續(xù)。只是現(xiàn)在,我們往往忽略了監(jiān)督者為模型設(shè)定的這套框架。

Jeremy Howard:沒錯(cuò),所以這相當(dāng)于 Searle 與 Dennett 之爭,也就是《意識的解釋》與“中文房間”這兩種視角的思辨。有趣的是,當(dāng)時(shí)的討論跟我們當(dāng)下的爭議有著完全相同的本質(zhì),只是從純思想實(shí)驗(yàn)轉(zhuǎn)向現(xiàn)實(shí)層面。回歸抽象討論很有必要,因?yàn)檫@能讓我們抽離當(dāng)前困境、不再受到現(xiàn)實(shí)中具備強(qiáng)大模仿能力的模型影響,真正回歸問題的本質(zhì)。

總之我想強(qiáng)調(diào)的是,我們正身處一種微妙的歷史節(jié)點(diǎn):人們極易對 AI 的能力產(chǎn)生誤解。尤其是那些分不清編程和軟件工程區(qū)別的朋友,就更容易誤解。

是的,這就正好轉(zhuǎn)回了你提出的問題——這種認(rèn)知差異會(huì)對組織產(chǎn)生怎樣的影響。要知道,許多組織的本質(zhì)就是在押注一個(gè)投機(jī)性的前提:AI 將有能力比人類更出色地完成一切工作,至少在編程領(lǐng)域可以做到。我對此深感憂慮,無論是從組織還是從全人類的角度講都是。對人類來說,一旦沒有機(jī)會(huì)主動(dòng)運(yùn)用設(shè)計(jì)、工程和編程能力,也就失去了發(fā)展和成長的機(jī)會(huì)。人類可能逐漸凋零。身為研發(fā)型初創(chuàng)公司的 CEO,我必須要強(qiáng)調(diào):如果團(tuán)隊(duì)成員停止成長,我們就注定會(huì)失敗。

我們絕不能讓這種情況發(fā)生,而單純提升針對 AI 的特定提示詞技巧或者 CLI 框架使用能力,并不算成長。這就像在不理解互聯(lián)網(wǎng)原理的情況下死磕亞馬遜云科技的接口細(xì)節(jié)——毫無價(jià)值。這類知識既不可復(fù)用,又沒有繼承意義。雖然它能夠在當(dāng)下解決實(shí)際問題,但必然隨著時(shí)間推移逐漸侵蝕從業(yè)者的信心。

大模型反而讓開發(fā)者變笨了?

Dr. Tim Scarfe:我認(rèn)同這種自然規(guī)律,而且對你尤其重要。在整個(gè)職業(yè)生涯中,你一直致力于提升人們的技術(shù)與 AI 素養(yǎng)。而你說的大模型編程技巧,很像是開自動(dòng)駕駛汽車了——人根本沒多少機(jī)會(huì)上手。

這里存在一個(gè)臨界點(diǎn)——當(dāng)我們不再專注于親自解題,而把能力委托出去,就會(huì)積累下認(rèn)知債。這就是當(dāng)前的現(xiàn)實(shí)。幾周前 Anthropic 自己的研究就完全推翻了 Dario 的觀點(diǎn),研究結(jié)果甚至發(fā)現(xiàn),確實(shí)有少數(shù)參與者通過提出概念性問題來保證對實(shí)現(xiàn)技術(shù)的掌控。他們確實(shí)能展現(xiàn)出學(xué)習(xí)曲線,但大多數(shù)人根本做不到。

我有個(gè)假設(shè):生成式 AI 編程的理想狀態(tài)應(yīng)該是看齊人類開發(fā)者,畢竟我們幾十年來一直在編寫軟件,也具備抽象認(rèn)知能力、能在熟悉的領(lǐng)域靈活運(yùn)用。我們還能明確需求,消除大量模糊性、跟蹤進(jìn)展、反復(fù)調(diào)整,且全程掌控開發(fā)流程。但現(xiàn)實(shí)情況是,現(xiàn)在的人們會(huì)默認(rèn)進(jìn)入自動(dòng)駕駛模式,對實(shí)際發(fā)生的情況一無所知——這反而讓開發(fā)者變笨了。

Jeremy Howard:我在 2014 年創(chuàng)立了首家醫(yī)療深度學(xué)習(xí)公司 Enlitic。初期我們專注于放射學(xué)領(lǐng)域,當(dāng)時(shí)許多人就擔(dān)憂這會(huì)削弱放射科醫(yī)生的專業(yè)能力。但我堅(jiān)信恰恰相反——為此我還深入研究了飛機(jī)電傳操縱系統(tǒng)、汽車防抱死剎車系統(tǒng)等技術(shù)應(yīng)用案例。當(dāng)可以自動(dòng)化的任務(wù)環(huán)節(jié)成功實(shí)現(xiàn)自動(dòng)化之后,專家反而可以專注于真正關(guān)鍵的環(huán)節(jié)。

我們在實(shí)踐當(dāng)中也難了這一觀點(diǎn)。在放射學(xué)領(lǐng)域,我們發(fā)現(xiàn)如果能自動(dòng)識別肺部 CT 掃描中的潛在結(jié)節(jié),那么放射科醫(yī)生可以專注于分析結(jié)節(jié)性質(zhì),判斷其惡性程度并制定治療方案。這正是微妙的差別所在。如果能有效實(shí)現(xiàn)某些環(huán)節(jié)的完全自動(dòng)化,從而減輕人類認(rèn)知負(fù)擔(dān)、專注于核心工作,結(jié)果無疑是積極的。至于軟件開發(fā)領(lǐng)域的情況,我覺得更難以斷言——畢竟我搞開發(fā)已經(jīng)有四十多年,親自寫過大量代碼。除非遇到特別奇怪或者復(fù)雜的情況,否則只需瞥一眼代碼,我就能立刻判斷出代碼功能和運(yùn)行狀態(tài)等結(jié)論。

我憑直覺發(fā)現(xiàn)的這些可優(yōu)先的點(diǎn),還有預(yù)見到的潛在風(fēng)險(xiǎn),如果沒有長期編程積累恐怕很難很難達(dá)到。目前我覺得真正受益于 AI 的人群有兩類:要么是完全不會(huì)編程的初學(xué)者,現(xiàn)在他們可以把腦海中的想法快速轉(zhuǎn)化成應(yīng)用。只要 AI 有能力幫他們快速實(shí)現(xiàn)需求,就完全可以了。另一類是像我和 Chris Latner 這樣的資深開發(fā)者,因?yàn)槲覀兡茏?AI 代勞相當(dāng)一部分編程工作和研究任務(wù)。但處于中間水平的人才是真正的絕大多數(shù),這讓我非常擔(dān)憂,他們幾乎失去了進(jìn)步的空間和可能性。

不用親自寫代碼也許沒什么,但我們沒辦法確定,因?yàn)橹皼]出現(xiàn)過這種情況。這就像回到小學(xué)階段,學(xué)校禁止孩子們使用計(jì)算器,就是為了鍛煉他們對數(shù)字的感覺和運(yùn)算能力。那開發(fā)者還要不要經(jīng)歷前五年的磨練,親手編寫所有代碼?我真的不知道。

總之我自己比較悲觀,對于大部分從業(yè)經(jīng)驗(yàn)從 2 年到 20 年之間的開發(fā)者,這可能是在慢慢侵蝕他們的競爭力。

Dr. Tim Scarfe:沒錯(cuò),這又涉及 Cesar Hidalgo 提出的知識本質(zhì)論。他認(rèn)為知識具有不可替代性,即無法直接交換。其核心觀點(diǎn)是:學(xué)習(xí)過程在某種意義上不可能被簡化。學(xué)習(xí)者必須親身經(jīng)歷,直面摩擦和考驗(yàn)。學(xué)習(xí)的過程就是構(gòu)建世界模型的過程,會(huì)經(jīng)歷所謂“現(xiàn)實(shí)的反噬”——我們不斷犯錯(cuò)、不斷更新自己大腦中的模型,并向其中持續(xù)添加一致性約束。但直接使用大模型輸出的代碼,顯然是回避了這種“必要之難”。Anthropic 的研究也提出類似的結(jié)論:由于回避了摩擦,開發(fā)者根本學(xué)不到任何東西。

Jeremy Howard:沒錯(cuò),所謂“必要之難”是教育學(xué)領(lǐng)域提出的概念,最早可以追溯到十九世紀(jì)重復(fù)間隔學(xué)習(xí)的開創(chuàng)者 Ebbinghaus。Piotr Wozniak 的近期研究也發(fā)現(xiàn)了相同的規(guī)律:記憶的形式需要付出艱辛努力。這也解釋了為什么“過度復(fù)習(xí)”反而有害,因?yàn)樾畔?huì)過早浮現(xiàn)。而間隔重復(fù)學(xué)習(xí)法(例如 Anki 和 SupereMemo)則努力在記憶即將遺忘的臨界點(diǎn)處安排復(fù)習(xí)。

這確實(shí)需要付出艱辛的努力。我花了十年時(shí)間學(xué)習(xí)中文,只為探究學(xué)習(xí)的本質(zhì)。在使用 Anki 時(shí)我深刻體會(huì)到:它總在記憶即將消退的臨界點(diǎn)安排復(fù)習(xí),抓住瀕臨遺忘的節(jié)點(diǎn)刺激神經(jīng)元連接。這種模式執(zhí)行起來特別特別累,但效果確實(shí)驚人。所以哪怕后面十幾年不再堅(jiān)持系統(tǒng)學(xué)習(xí),我仍能流利使用中文。

Dr. Tim Scarfe:說回你提的放射學(xué)案例,還有人們常說的客服中心。我們總覺得組織中的崗位存在著高智力需求和低智力需求之分。但我覺得,智能的本質(zhì)就是對知識的適應(yīng)性獲取和整合。假設(shè)低智力需求崗位(比如客服)不需要適應(yīng)變化,就意味著組織中存在著某些穩(wěn)定不變的環(huán)節(jié)。

這部分環(huán)節(jié)可以自動(dòng)化,無需更新知識儲備。但結(jié)合放射學(xué)案例,這種觀點(diǎn)可能忽略了整體性知識的重要性。比如客服中心也會(huì)遇到大量特殊的、極端的案例。各種意外狀況層出不窮,這些信息會(huì)向上傳遞,促使組織逐步適應(yīng)。所以在推廣自動(dòng)化流程之后,工作人員實(shí)際上會(huì)喪失創(chuàng)造流程的能力,進(jìn)而削弱組織知識的演化能力——這無異于自毀長城。

Jeremy Howard:完全正確。在我的公司,我始終提醒同事們:我真正關(guān)注的只有一件事——你們的個(gè)人能力在多大程度上得到了提升。我并不在意大家提交了多少 PR,開發(fā)出了多少功能。就像 Tcl 語言的發(fā)明者 John Oustenrhout 最近在斯坦福講座中提出的精彩觀點(diǎn):一點(diǎn)點(diǎn)斜率就能彌補(bǔ)大量截距。

這里的核心論點(diǎn)是,人生中若能專注于加速成長的事物,那效果要遠(yuǎn)勝于執(zhí)著那些已經(jīng)擅長、擁有高橫坐標(biāo)值的事物。因此我真正關(guān)心,也是我認(rèn)為對公司至關(guān)重要的唯一目標(biāo),就是讓團(tuán)隊(duì)專注于提升斜率。沒錯(cuò),如果只專注于在現(xiàn)有 AI 的能力邊界之內(nèi)追求成果,那關(guān)注的就仍然是橫坐標(biāo)值。

所以我覺得這就是在把企業(yè)和員工往被淘汰的絕路上推。無法理解現(xiàn)在竟有這么多大公司的高管在推動(dòng)這種做法,簡直令人驚訝。

畢竟這是個(gè)大家都不熟悉的領(lǐng)域,MBA 課程里也從沒提到過,所以一旦判斷失誤——也很可能就是失誤,那人們根本就意識不到。這本質(zhì)上是為公司埋下了毀滅的種子。

更令人費(fèi)解的是,股東們竟然會(huì)縱容這種行為。這將催生出高度投機(jī)性質(zhì)的市場操作。眾多企業(yè)正因 AI 編程累積的技術(shù)債走向衰亡,這些債務(wù)使他們既無法維護(hù)現(xiàn)有產(chǎn)品、也難以開發(fā)新產(chǎn)品。

Dr. Tim Scarfe:像 Fran?ois Chollet 這樣的行家其實(shí)也不少,他們真的很懂。他就始終強(qiáng)調(diào) AI 發(fā)展的本質(zhì),就是領(lǐng)域認(rèn)知模型的擬態(tài)式共享,以及如何配合人類共同蒸餾這些模型。說到共享,這恰恰是 AI 編程面臨的另一大擴(kuò)展難題。

在理想狀態(tài)下,只要我們深諳某個(gè)領(lǐng)域,有能力用極致的細(xì)節(jié)做出定義,那么只需告知 Claude Code 執(zhí)行任務(wù)即可——我們腦袋里的模型框架并不重要。

但在組織環(huán)境下,我們需要把知識共享給全體成員。必須承認(rèn),知識的獲取瓶頸就是組織內(nèi)部真實(shí)存在的嚴(yán)重問題。如果只有我一個(gè)人在使用 Claude Code,效率大概能提升 50 倍——人們的興奮之情也正來源于此。但要跟其他人共享,AI 編程工具就起不了什么作用了。大家似乎并沒有意識到這個(gè)瓶頸,也沒發(fā)現(xiàn)這就是大多數(shù)組織難以將 AI 轉(zhuǎn)化為現(xiàn)實(shí)生產(chǎn)力的原因。

Jeremy Howard:實(shí)際上沒人能在保持高質(zhì)量的前提下產(chǎn)出 50 倍的軟件。我們剛剛完成相關(guān)研究,發(fā)現(xiàn)人們實(shí)際交付的成果只能說略有增加。這就是殘酷的事實(shí)。我本人其實(shí)熱衷于發(fā)掘 AI 的潛力,但我妻子 Rachel 最近發(fā)文指出,所有激發(fā)人們熱烈追捧的因素匯聚起來只是一股暗流。

Dr. Tim Scarfe:對,暗流這個(gè)概念我也想提來著。

Jeremy Howard:所以這就很尷尬了。我認(rèn)識的幾乎每位前段時(shí)間對 AI 驅(qū)動(dòng)編程充滿熱情的人,在回頭審視自己一路走來構(gòu)建的成果時(shí),都徹底改變了看法:這些東西還有人在用嗎?還有受眾嗎?還能幫自己賺錢嗎?其實(shí)幾乎所有利潤,都被意見領(lǐng)袖或者炒幣那幫家伙卷走了。

氛圍編程就像老虎機(jī)

Jeremy Howard:依托 AI 的編程本質(zhì)上更像是老虎機(jī)——讓人產(chǎn)生可以掌控一切的錯(cuò)覺。我們當(dāng)然可以精心設(shè)計(jì)提示詞、管理模型參數(shù)清單、調(diào)整 skill 參數(shù)等等,最后再拉下拉把。

輸入指令,然后得到結(jié)果,這就像憑運(yùn)氣拉出三顆櫻桃并排?!拔以俑臈l指令,再多加點(diǎn)上下文”,之后再次拉動(dòng)拉把、不停重復(fù)。

這就是隨機(jī)性。我們偶爾能贏一把,覺得太棒了、AI 這東西太牛了!但這本質(zhì)上具備賭博的全部特征:偽裝成勝利的失敗、高度隨機(jī)、虛假的控制感——這些都是博彩公司精心編排的元素。雖然這并不代表 AI 沒用,但……真的也沒多有用。

Dr. Tim Scarfe:明白。Rachel 還提到賭博的另外一個(gè)標(biāo)志性特征,就是讓人自欺欺人地以為掌握了局勢,但實(shí)則不然。但我們也可以探討一下樂觀情緒:我覺得 AI 編程在受控場景下的確非常有用,前提是我們能夠理解并設(shè)定約束。從好的角度來講,那我們確實(shí)不會(huì)因此失業(yè),畢竟這部分工作量會(huì)相應(yīng)增加。至于成癮性,那也是真實(shí)存在的:我曾經(jīng)連續(xù) 14 個(gè)小時(shí)使用 Claude Code 輸出代碼,確實(shí)非常上癮。你說得對,就像老虎機(jī)一樣,非常貼切。

而且那也是我最疲憊的一次編碼經(jīng)歷,精疲力竭之后我連著休息了好幾天才恢復(fù),那狀態(tài)實(shí)在糟透了。

Jeremy Howard:一點(diǎn)沒錯(cuò)。我也獲得過一些不錯(cuò)的結(jié)果,過去幾年還圍繞已知的成功路徑構(gòu)建起完整的產(chǎn)品體系,也就是專注于中等規(guī)模的模塊化開發(fā):確保各個(gè)模塊完全可控、可設(shè)計(jì),并能通過自定義抽象層逐步構(gòu)建起超越組件本身功能的整體系統(tǒng)。最近我們還遇到個(gè)很有意思的情況,其實(shí)也可以算是實(shí)驗(yàn):我們之前高度依賴 IPKernel 組件,它也正是驅(qū)動(dòng) Jupyter Notebook 的核心。但在 IPyKernel 從版本 6 升級到版本 7 之后,就徹底失效了。我們嘗試使用的兩款產(chǎn)品都出現(xiàn)了故障:其一是名為 nbclassic 的原始 Jupyter notebook,其二是我們自主開發(fā)的 solve it 產(chǎn)品。

它們會(huì)隨機(jī)崩潰。IPyKernel 的代碼超過 5000 行,結(jié)構(gòu)極其復(fù)雜,涵蓋多線程、事件處理、鎖機(jī)制、與 IPython 的接口、ZMQ 通信協(xié)議以及 DebugPy 調(diào)試框架等等。我完全摸不著頭腦,找不到崩潰的原因——所有測試都能順利通過。于是我好奇,AI 能不能幫我解決這個(gè)問題?真的,我一直好奇目前的 AI 能夠獨(dú)立處理的任務(wù)規(guī)模上限在哪里。

事實(shí)證明,它確實(shí)能夠解決。前后花了兩周時(shí)間,雖然沒能深入理解 IPyKernel 的運(yùn)作機(jī)制,但我還是花了不少精力把它拆解成一個(gè)個(gè)獨(dú)立組件。最終 AI 在兩小時(shí)內(nèi)就給出了答案——我最早用的是 GPT 5.2,沒能搞定;花每月 200 美元升級到 GPT 5.3 Pro 版后就好了。

總之,通過在兩個(gè)版本和兩套模型之間反復(fù)切換,我花了幾周時(shí)間才讓系統(tǒng)正常運(yùn)行。如你據(jù)說,整個(gè)過程毫無樂趣可言,既疲憊又焦慮,因?yàn)槲沂冀K無法掌控局面。但有趣的是,這是我目前唯一能夠讓新版 Python Jupter 內(nèi)核成功運(yùn)行的辦法——至少就我所知,它找到了完美兼容版本 7 協(xié)議的辦法。這讓我不禁陷入深思:我不喜歡 AI 輔助的工作感受,但因?yàn)閭鹘y(tǒng)軟件工程理論不足以解決問題,我又別無選擇。

新的難題又來了——我并不理解解決問題的這段代碼,那我該不該把公司產(chǎn)品押在上面?我真的不知道該怎么辦,我不知道它會(huì)不會(huì)引發(fā)內(nèi)存泄漏;如果協(xié)議稍作改動(dòng),它后續(xù)還能不能正常運(yùn)行;是否存在會(huì)導(dǎo)致全盤崩潰的極端狀況等等。這真是個(gè)前所未見的巨大困局。

“AI 寫代碼很厲害,
但軟件工程一塌糊涂”

Dr. Tim Scarfe:那我們還是得從控制權(quán)的角度討論——必須承認(rèn),我們對代碼的控制能力正受到嚴(yán)重侵蝕。最初由 AI 生成的代碼占比僅為 10%,隨后這個(gè)比例不斷攀升,而且我們無能為力。大約半年之后,提交上來的 PR 中就有約 60% 代碼由 AI 生成。這就是后果。

人正逐漸跟自己的代碼脫節(jié)。樂觀的判斷認(rèn)為:AI 編程只強(qiáng)調(diào)功能主義即可——只要智能體可以正確完成任務(wù),我們就可以認(rèn)可 AI,無須深究其構(gòu)成原理。畢竟軟件領(lǐng)域從來都是這樣。

商業(yè)領(lǐng)域肯定很認(rèn)可這套邏輯,畢竟人家做的是業(yè)務(wù),本來就沒辦法親自編寫代碼、也掌握不了快速排序算法的實(shí)現(xiàn)細(xì)節(jié)。所以只要所有測試都能順利通過、代碼可以成功部署,流程按部就班推進(jìn),那不就得了?

Jeremy Howard:實(shí)事求是講,這種觀念我覺得還滿有道理,但還不夠。我們必須重視軟件工程的重要意義,因?yàn)樗暮诵木褪菑?qiáng)調(diào)各個(gè)組件到底是什么、應(yīng)該如何運(yùn)作,再以此為基礎(chǔ)將其組合成更龐大的整體,進(jìn)而持續(xù)迭代以構(gòu)建出宏大的系統(tǒng)。

只有做好了這一點(diǎn),我們才能在十年之后靠 AI 打造出遠(yuǎn)超當(dāng)下想象的頂尖軟件。沒錯(cuò),只有卓越的軟件工程能力才可以實(shí)現(xiàn)這種突破。以 IPyKernel 為例,我發(fā)現(xiàn)它本身就是個(gè)極其龐大的組件。

因?yàn)楹苊黠@,IPyKernel 的原始開發(fā)團(tuán)隊(duì)沒能打造出一套可以正確驗(yàn)證其功能的測試集,所以才導(dǎo)致包括原始 nbclassic(即 IPyKernel 的源項(xiàng)目)在內(nèi)的眾多實(shí)際應(yīng)用項(xiàng)目都無法正常運(yùn)行。這正是我們 Answer.ai 開發(fā)團(tuán)隊(duì)的當(dāng)前重點(diǎn):尋找規(guī)模適應(yīng)的模塊,并確保其正確性。

要如何識別這些模塊、如何加以設(shè)計(jì)、如何進(jìn)行組合——這些能力都需要幾十年的開發(fā)經(jīng)驗(yàn)才能掌握。我自己也是,自認(rèn)為經(jīng)過二十年的歷練才算掌握到個(gè)中精髓。這確實(shí)是個(gè)大問題,畢竟軟件工程能力的重要能力遠(yuǎn)超以往任何時(shí)候,但當(dāng)下又恰恰欠缺培養(yǎng)這種能力的場景。未來的開發(fā)者要如何保證自己可以勝任這份工作,已經(jīng)成為極具挑戰(zhàn)性的課題。

Dr. Tim Scarfe:還有種觀點(diǎn)是這樣:抽象和表征事物的方式其實(shí)有很多。要知道這個(gè)世界如此復(fù)雜,我們?nèi)祟愂煜さ能浖橄笈c表征方式,可能更多是自身認(rèn)知局限的映射。即使是在科學(xué)和物理領(lǐng)域,人們也更傾向以高度簡化的方法來建模。但復(fù)雜科學(xué)往往必須直面事物的構(gòu)造性、耗散性以及纏雜交織的本質(zhì)。

也許當(dāng)下就有很多軟件已經(jīng)超出了人類的理解上限,對吧?比如許多采用 actor 模式的全球分布式軟件應(yīng)用,其本質(zhì)上已經(jīng)屬于復(fù)雜系統(tǒng)。我們只能通過模擬和測試來嘗試?yán)斫猓驗(yàn)闆]人真正知道所有組件間如何協(xié)同運(yùn)作。所以樂觀地看,也許軟件工程的頂層設(shè)計(jì)已經(jīng)在踐行這種新理念,而這也正是 AI 有望達(dá)成的終極目標(biāo)。

Jeremy Howard:倒也未必。比如說 Instagram 和 WhatsApp 這類公司,僅憑十余名員工就主導(dǎo)了各自領(lǐng)域,甚至擊敗了谷歌和微軟等巨頭。我覺得這只說明大廠那種軟件開發(fā)模式正在失敗,我們也親眼目睹許多巨頭正陷入日益絕望的境地。就拿微軟 Windows 和蘋果 MacOS 的質(zhì)量來說,過去五到十年間已經(jīng)遭遇顯著下滑。還記得當(dāng)初 Dave Cutler 逐行審閱 NT 內(nèi)核代碼,確保每一行都完美無瑕的時(shí)代吧?那才是真正優(yōu)雅卓越的軟件典范。但如今世上不會(huì)有人覺得 Windows 11 是優(yōu)雅精妙的軟件。所以我們可以真的需要先打造出完全可按的小組件,再把它們堆疊起來實(shí)現(xiàn)構(gòu)建。

問題是 AI 在這方面表現(xiàn)相當(dāng)糟糕。我這可是基于實(shí)證得出的結(jié)論,它們在軟件工程領(lǐng)域簡直不堪一擊,而且這種情況可能永遠(yuǎn)不會(huì)改變。因?yàn)槲覀兛傄?AI 突破訓(xùn)練數(shù)據(jù)的邊界,嘗試構(gòu)建前所未有的事物,追求超越現(xiàn)有方案。換言之,我們一方面只提供有限的訓(xùn)練數(shù)據(jù),另一方面又指望它別單純照搬訓(xùn)練過的內(nèi)容。這點(diǎn)常常讓人們困惑——他們看到 AI 編程能力如此出色,便誤以為這等同于軟件工程能力。但這二者的本質(zhì)完全不同,重合度也很低。目前還沒有任何實(shí)證數(shù)據(jù)表明大語言模型在軟件工程領(lǐng)域?qū)崿F(xiàn)了任何顯著的能力提升。

每當(dāng)我們審視 AI 完成的軟件工程案例,比如 Cursor 開發(fā)的瀏覽器或者 Anthropic 搞出來的 C 編譯器——另懷疑,我認(rèn)真看過這些項(xiàng)目的源代碼,再加上更熟悉編譯器的 Chris Latner——其本質(zhì)都是對現(xiàn)有成果的明顯照搬。這正是我眼中最核心的挑戰(zhàn)所在:要想做出真正原創(chuàng)性的成果,就不能依賴大語言模型。

理論上我們沒辦法相信大模型會(huì)涌現(xiàn)出這種原創(chuàng)能力,實(shí)證數(shù)據(jù)也同樣支撐不了這樣樂觀的猜想。

最先進(jìn)的 AI,
卻在用 40 年前的開發(fā)環(huán)境

Dr. Tim Scarfe:沒錯(cuò),我覺得這場對話最大的價(jià)值就在于,我們需要實(shí)現(xiàn) AI 與人類的協(xié)同合作。由人類提供理解力,還有我們之前討論過的各種知識層面的支持。但與此同時(shí),AI 仍然不失為一種重要且強(qiáng)大的工具。我們只要設(shè)計(jì)出運(yùn)作模式或者工作方式,確保自身的獨(dú)特能力、特別是理解力不被削弱就行。

Jeremy Howard:沒錯(cuò),這里確實(shí)有條微妙的分界線,也是我們在教學(xué)與內(nèi)部開發(fā)時(shí)關(guān)注的核心點(diǎn)。我這二十年來持續(xù)探索的方向,終將成為支撐整個(gè)體系的關(guān)鍵。Stepehn Wolfram 創(chuàng)造了 notebook 界面,雖然其中很多理念可以追溯至 Samlltalk、Lisp 和 APL,但其意義仍然非常值得肯定。他的核心思想在于:當(dāng)人類能夠?qū)崟r(shí)操作計(jì)算機(jī)內(nèi)部對象、研究它們、移動(dòng)它們并加以組合,就可以通過計(jì)算機(jī)實(shí)現(xiàn)更多可能。

而 Smalltalk 的核心理念也正是基于對象,APL 同樣以數(shù)組為基礎(chǔ)。Mathematica 本質(zhì)上就是功能強(qiáng)大的 Lisp 語言,只是在此基礎(chǔ)上融入了優(yōu)雅的 notebook 界面,讓開發(fā)者能夠構(gòu)建出動(dòng)態(tài)生成的活文檔。

幾年前我開發(fā)了 nbdev 工具,它能在 notebook 界面跟豐富的動(dòng)態(tài)環(huán)境中構(gòu)建起生產(chǎn)級軟件。我發(fā)現(xiàn)這極大提升了自己的編程效率。雖然我從來沒做過全職編程工作,但大家可以看看我的 GitHub 代碼倉庫產(chǎn)出——根據(jù)統(tǒng)計(jì)數(shù)據(jù),我?guī)缀跏侨拇罄麃喿罡咝У某绦騿T。這證明我的辦法確實(shí)行之有效。我開發(fā)的許多工具被大量用戶采用,憑借的就是出色且豐富的構(gòu)建方式。

如今我們發(fā)現(xiàn),在把 AI 置與跟人類相同的交互環(huán)境中時(shí),其表現(xiàn)同樣會(huì)顯著提升。可以看到,常規(guī)的 AI 編程工具,比如大家使用 Claude Code,其運(yùn)行環(huán)境跟人類 40 年前使用的環(huán)境極為相似。這本質(zhì)上仍然是基于代碼行的終端界面。它當(dāng)然可以使用 MCP 或者其他工具,但目前多數(shù)時(shí)候借助的仍然是經(jīng)典的 bash 工具。

我非常喜歡 bash 工具,在日常工作中也會(huì)頻繁使用各類命令行工具。從本質(zhì)上講,它就是依賴文本文件作為與外界交互的媒介,這實(shí)在有點(diǎn)簡陋。所以我們將人類與 AI 置于 Python 解釋器內(nèi),立刻就得到了能幫助人類與 AI 對話的強(qiáng)大工具——一種優(yōu)雅且富有表現(xiàn)力的編程語言。

現(xiàn)如今,AI 能與計(jì)算機(jī)對話,人類能與計(jì)算機(jī)對話,計(jì)算機(jī)又能與 AI 對話。在這種豐富的交互生態(tài)中,人類與 AI 得以實(shí)時(shí)協(xié)作,共同構(gòu)建起雙方都能使用的工具。這也是我所追求的核心價(jià)值,創(chuàng)造一個(gè)讓人類能夠參與、成長且共享的環(huán)境。

于我而言,使用 SolveIt 的體驗(yàn)跟你之前提到的 Claude Code 恰恰相反。用了幾小時(shí)后,我感覺神清氣爽,快樂而充實(shí)。

Dr. Tim Scarfe:我來談?wù)勛约旱目捶?。你剛剛的核心觀點(diǎn),就是具備交互性、狀態(tài)感知且能夠提供反饋的環(huán)境,具有某種神奇的魔力。這是因?yàn)槲覀兊拇竽X能夠處理特定的工作單元,我們會(huì)通過反復(fù)推敲加現(xiàn)實(shí)檢驗(yàn)的方式來思考問題。正因?yàn)槿绱?,我才?huì)在攻讀博士期間選擇使用 Mathematica 和 MatLab。

我完全贊同你的結(jié)論。這種 REPL 環(huán)境能讓我們直接操作數(shù)組、生成圖像圖譜、實(shí)時(shí)調(diào)整參數(shù)以即時(shí)呈現(xiàn)變化效果。這確實(shí)是優(yōu)化思維模型的絕佳方式。不過 Claude Code 也能實(shí)現(xiàn)類似的功能,關(guān)鍵在于適當(dāng)使用操作技巧。高效使用 Claude Code 的開發(fā)者普遍具備這種能力。我也開發(fā)過內(nèi)容管理工具,也就是 Rescript,它在制作紀(jì)錄片視頻時(shí)能自動(dòng)提取字幕文本,幫我核查陳述內(nèi)容的真實(shí)性。

總之,AI 素養(yǎng)的核心在于理解語言模型在能力上的不對稱性。在要求其處理鑒別型任務(wù)時(shí),它們的表現(xiàn)往往非常出色。例如在子智能體模式下要求其逐條驗(yàn)證主張時(shí),它的準(zhǔn)確性就遠(yuǎn)高于生成模式下批量生成的主張。關(guān)于狀態(tài)反饋機(jī)制,我們可以采用結(jié)構(gòu)化 XML 導(dǎo)出方案,配合側(cè)邊欄可視化應(yīng)用來形成反饋循環(huán)。

對我而言,這文治武功 AI 的優(yōu)勢所在,也是善于借 AI 之力的使用者們的首選用法。

Jeremy Howard:是的,但我并不完全認(rèn)同你的觀點(diǎn)。我知道也可以在 Claude Code 中實(shí)現(xiàn)相同的效果,也同意具體效果取決于使用者的 AI 素養(yǎng),但 Claude Code 的設(shè)計(jì)初衷并不在此。它并不擅長此類操作,這也不是跟 Claude Code 交互的自然方式。我倒不覺得這是 AI 素養(yǎng)的問題——在我看來,如果工具無法以人類熟悉的方式獲取更深的知識、更愉悅的體驗(yàn)和更緊密的聯(lián)結(jié),還有對工作內(nèi)容的透徹理解并建立情感紐帶,那這絕對是工具的問題,不能說是人的問題。

工具的設(shè)計(jì)就應(yīng)該符合人體工程學(xué)。但如今,很多模型和工具的評估標(biāo)準(zhǔn)就只是能否接管完整任務(wù)并獨(dú)立完成。這在我看來是種重大謬誤。真正的關(guān)鍵在于:人類在使用之后,能否真正掌握該領(lǐng)域的知識,進(jìn)而輕松構(gòu)建出更多成果。

Claude Code 正在背離
“人機(jī)共創(chuàng)”的軟件傳統(tǒng)

Dr. Tim Scarfe:我完全贊同。但還有另一個(gè)有趣的視角——Joel Grus 曾有一場著名的演講,我們稍后會(huì)具體聊。他說 Notebook 程序糟糕透頂,從軟件工程角度看簡直不堪入目。當(dāng)時(shí),哪怕是到現(xiàn)在可能也仍然如此,我其實(shí)挺認(rèn)同他的觀點(diǎn)。畢竟我也從事過機(jī)器學(xué)習(xí)的運(yùn)維工作,在大型機(jī)構(gòu)中負(fù)責(zé)探索數(shù)據(jù)科學(xué)與軟件工程之間的連接。

相較于 Notebook,Claude Code 其實(shí)更偏重軟件工程領(lǐng)域,因?yàn)樗苌蓛绲取o狀態(tài)及可重復(fù)的成果。如你所說,從教育角度看這種基于狀態(tài)的反饋其實(shí)很好,因?yàn)槲夷軌蚶斫獾降装l(fā)生了什么。之后只要把它轉(zhuǎn)化成可部署的成果就行了。

所以你能聊聊 Joel Grus 的觀點(diǎn)嗎?記得你當(dāng)時(shí)的回應(yīng)還鬧得挺大的,給我們講講唄。

Jeremy Howard:他當(dāng)時(shí)拍了段精彩的視頻,就叫《我不喜歡 Notebook》,制作精良而且超級搞笑?,F(xiàn)在我承認(rèn),我當(dāng)時(shí)的觀點(diǎn)完全錯(cuò)了。

他列舉了很多 Notebook 做不到的事,但其實(shí)都能做到。他說 Notebook 實(shí)現(xiàn)不了的功能,其實(shí)我每天都在靠 Notebook 實(shí)現(xiàn)。可那場演講雖然錯(cuò)誤百出,卻實(shí)在妙趣橫生。后來我模仿他的風(fēng)格做了段《我喜歡 Notebook》的視頻,基本照搬了他的大部分 PPT 并注明了出處,然后逐條反駁了每條謬誤。

不過你提到的核心問題確實(shí)切中了要害——這本質(zhì)上其實(shí)是軟件工程與科學(xué)研究等領(lǐng)域在工作方式上的根本差異。我認(rèn)為這種二元對立確實(shí)存在,這樣的割裂也著實(shí)令人遺憾。軟件開發(fā)的推進(jìn)方向出了偏差,當(dāng)前的模式完全聚焦于可復(fù)現(xiàn)性,卻無視僵化代碼與文件的持續(xù)膨脹。項(xiàng)目里全都是死代碼、死文件,這事我強(qiáng)烈推薦大家去看看 Brett Victor 的論述,他的講解特別精彩。他反復(fù)證明:最重要、最正確的方向,永遠(yuǎn)是跟所做之事建立起直接且符合直覺的聯(lián)結(jié)。

他也將此作為自己的使命,確保人們能夠建立起這種聯(lián)結(jié)。我也把這當(dāng)作自己的使命。于我而言,傳統(tǒng)軟件工程已經(jīng)大大偏離了這樣的聯(lián)結(jié)。我覺得它令人作嘔、簡直惡心,更可悲的是人們正被迫以這樣的方式工作。這不止反人道,而且模式本身根本就行不通——經(jīng)驗(yàn)證明其效果極差。對 AI 是如此,對人類更是如此。

事情并不總是這樣的。回到早期,比如 Alan Kay 的 Smalltalk,Iverson 的 APL,還有 Wolfram 的 Mathematica。在我看來,那才是“黃金時(shí)代”。

那個(gè)時(shí)代的人真正關(guān)心的問題是:如何讓人類盡可能緊密地與計(jì)算機(jī)一起工作。比如鼠標(biāo)的誕生也是如此,通過點(diǎn)擊和拖拽操作將計(jì)算機(jī)中的對象可視化為可移動(dòng)的實(shí)體。可多年過去,如今我們卻失掉了正確的方向,這實(shí)在令人痛心。

而像現(xiàn)在用 Claude Code 這樣的工具時(shí),默認(rèn)的工作方式卻完全相反:你需要深入到一個(gè)系統(tǒng)內(nèi)部,那里有一整個(gè)文件夾的代碼文件,但你甚至從來不會(huì)去看它們。你與系統(tǒng)的全部互動(dòng),只是通過一個(gè) prompt。

老實(shí)說,這讓我真的感到反感。我是真的覺得這種方式有點(diǎn)不人道。

而我的使命,其實(shí)二十年來一直沒有變:就是想辦法讓人們不再用這種方式工作。

Dr. Tim Scarfe:明白。但回想起來,我當(dāng)初跟數(shù)據(jù)科學(xué)家們共事時(shí),他們都在用 Jupyter Notebook。當(dāng)時(shí)我就發(fā)現(xiàn),如果把這些 notebook 直接提交到 Git 倉庫,效果通常不太理想。

大多數(shù)數(shù)據(jù)科學(xué)家根本不懂 Git 操作,他們會(huì)打亂單元格的執(zhí)行順序,導(dǎo)致結(jié)果無法復(fù)現(xiàn),類似的問題層出不窮。我同意你的觀點(diǎn),這些工具確實(shí)更能融入工作流程。但這又回到了我之前提出的核心問題:就像我們討論客服中心時(shí)說的,那屬于低智力需求的工作。要知道,數(shù)據(jù)科學(xué)家之所以屬于高智力工作,是因?yàn)樗麄冊趧?chuàng)造前所未有的事物。他們在探索問題的邊界,在認(rèn)知模糊的領(lǐng)域開疆拓土。當(dāng)然有人會(huì)爭辯,說如果數(shù)據(jù)科學(xué)家能夠清晰界定問題的邊界,也許就能借助 Claude Code 實(shí)現(xiàn)精準(zhǔn)落地了。但是我們該如何在這兩個(gè)世界之間架起橋梁?

Jeremy Howard:我覺得這個(gè)主意實(shí)在沒有必要,你總不是想把人從探索性的環(huán)境中剝離出來吧?科研的進(jìn)步源自人們建立洞見的過程。包括費(fèi)曼在內(nèi)的眾多大師,那些偉大的科學(xué)家總會(huì)強(qiáng)調(diào)通過構(gòu)建思維模型來深化直覺,而這些模型需要經(jīng)年累月與研究對象的交互才能形成。以費(fèi)曼為例,由于從事理論物理研究,他不可能實(shí)際接觸旋轉(zhuǎn)的夸克,但他會(huì)嘗試研究旋轉(zhuǎn)的盤子。我們必須自己想辦法找到深度交互的方式。我見過很多數(shù)據(jù)科學(xué)團(tuán)隊(duì),他們不只是對 Git 不熟悉,他們對自己本該理解的事物也不熟悉。

所以他們的頭頭往往是一位軟件工程師,解決方法就是要求所有數(shù)據(jù)科學(xué)家都停止使用 Jupyter Notebook?,F(xiàn)在,他們被迫使用各種可復(fù)現(xiàn)的虛擬環(huán)境,而這種做法在不斷摧殘團(tuán)隊(duì)。我目睹過太多類似的情況了。正確的解決之道并不在于增設(shè)更多紀(jì)律條文和官僚職位,而在于解決實(shí)際問題。比如我們開發(fā)了一款名叫 nb merge driver 的工具——很多朋友不了解,其實(shí) notebook 本身非常適合 Git。只是 Git 并沒有默認(rèn)為 notebook 提供合并驅(qū)動(dòng),而僅支持基于行的文本文件???Git 系統(tǒng)是支持插件擴(kuò)展的,所以我們可以輕松通過插件兼容 JSON 文件。

于是我們開發(fā)了這類驅(qū)動(dòng)程序?,F(xiàn)在只要使用我們的 merge 驅(qū)動(dòng)進(jìn)行 Git 差異比較,就能在單元格級別上看到差別。每次遇到合并沖突,可以直接定位到單元格級別的具體沖突點(diǎn),保證 notebook 始終可以在 Jupyter 中打開。NBDime 也實(shí)現(xiàn)了相同的功能,大家可以隨意選擇。我認(rèn)為這才是解決之道:繼承 Brett Victor 的理念,讓人們緊密把握探索性工具。所以一定要完善探索性工具,我甚至 認(rèn)為所有軟件開發(fā)者都應(yīng)該采用探索式編程,以深化對于所處理對象的理解。這樣我們才能建立起對目標(biāo)的強(qiáng)大思維模型,進(jìn)而逐步提出更優(yōu)解、建立更加完善的測試。

我自己幾乎不需要調(diào)試器,因?yàn)槲业某绦蚶锘静淮嬖?bug。這并不是因?yàn)槲揖幊碳妓嚦?,而是我采用微步迭代的方式開發(fā)——每個(gè)小步驟都經(jīng)過驗(yàn)證,我會(huì)親眼見證其運(yùn)行效果并且實(shí)時(shí)交互。如此一來,bug 根本就無處藏身。

Dr. Tim Scarfe:其實(shí)我對這事有點(diǎn)矛盾。我認(rèn)同你的觀點(diǎn),但也會(huì)質(zhì)疑那些宣稱組織運(yùn)作模式終將固化、不再有進(jìn)一步優(yōu)化空間的家伙??蓜?chuàng)新的本質(zhì)就是適應(yīng)性嘛,對吧?我們應(yīng)該盡可能擴(kuò)大適應(yīng)性的覆蓋范圍,所以必然需要有人持續(xù)測試新想法、發(fā)現(xiàn)新的限制條件。

但同樣的,我們也需要那些穩(wěn)健可控的技術(shù),比如用云服務(wù)和持續(xù)集成 / 持續(xù)交付(CI/CD)等方式將成果投入生產(chǎn)環(huán)境。

Jeremy Howard:沒錯(cuò)。比如 nbdev 就自帶開箱即用的 CI 集成,還內(nèi)置了測試功能——畢竟源代碼都是 notebook 形式,整個(gè)探索過程都包含在內(nèi):API 如何動(dòng)作、調(diào)用時(shí)的效果、函數(shù)實(shí)現(xiàn)方式、使用示例、說明文檔等等。在這樣的環(huán)境下,大家自然能把軟件工程處理得更好??傊蛻?yīng)該全都要。

AI 沒大家說得那么嚇人

Dr. Tim Scarfe:你還記得那份關(guān)于《應(yīng)將存在性風(fēng)險(xiǎn)列為緊急優(yōu)先事項(xiàng)》的聲明嗎?當(dāng)時(shí) Hinton 和 Demis Hassabis 都有聯(lián)合署名。而你基本上是通過反駁來回應(yīng)的。聊聊那時(shí)候的情況吧,你覺得我們應(yīng)該擔(dān)心 AI 帶來的存在性風(fēng)險(xiǎn)嗎?

Jeremy Howard:那只是特定時(shí)期的問題,對吧?如今的形勢已經(jīng)有所轉(zhuǎn)變,實(shí)在是謝天謝地。我們所處的整個(gè)學(xué)術(shù)社群,從某種意義上贏下了這場論戰(zhàn)?,F(xiàn)在我們面臨其他更為緊迫的問題,但當(dāng)時(shí)的主流觀點(diǎn)是:AI 即將實(shí)現(xiàn)自主化。這種隨時(shí)可能實(shí)現(xiàn)的自主,也許會(huì)將世界推向毀滅。這種觀點(diǎn)很大程度上源自 Alizia Yukowski 的研究,但其結(jié)論已經(jīng)在多個(gè)層面被證明是錯(cuò)的。

Dr. Tim Scarfe:他們當(dāng)然也有反駁的理由。

Jeremy Howard:沒錯(cuò),就像邪教做出的末日預(yù)言一樣,只要不給出具體的日期,他們就總有話說。

Dr. Tim Scarfe:那我稍微修正一下:當(dāng)前的大模型在特定領(lǐng)域確實(shí)可以作為智能體,ARC 挑戰(zhàn)賽的結(jié)果已經(jīng)證明了這一點(diǎn)。因此如果把方向收窄一些,可能自主的目標(biāo)真會(huì)更快實(shí)現(xiàn)。而這就帶來了新的難題:當(dāng)全面的智能化與自主性實(shí)現(xiàn)之后,如果缺少知識和約束,AI 只會(huì)更快走向錯(cuò)誤方向。很多人其實(shí)沒有意識到大模型在認(rèn)知層面的匱乏……

Jeremy Howard:但這些都跟我反駁的核心觀點(diǎn)無關(guān)——我們始終強(qiáng)調(diào),那份聲明對于真正的危險(xiǎn)所在做出了誤判。沒錯(cuò),當(dāng)一種極具顛覆性的技術(shù)涌入世界,就會(huì)讓某些人獲得顛覆性的力量。而那些癡迷權(quán)勢的家伙必然會(huì)試圖壟斷這項(xiàng)技術(shù)。

技術(shù)越強(qiáng)大,渴求者們的欲望就會(huì)越強(qiáng)烈。所以真正的問題在于:如果不在乎這些潛在風(fēng)險(xiǎn),單純想盡快推進(jìn)自主 AI 的崛起,那么唯一的結(jié)果就是權(quán)力得到空前的集中。這正是當(dāng)下我們已經(jīng)反復(fù)見證的現(xiàn)實(shí)。所有的權(quán)力都被交給了超大型科技企業(yè)和政府,普通人根本就無法染指。而在我的威脅模型當(dāng)中,這是最糟糕的結(jié)果,因?yàn)樗鼛砹藱?quán)力的過度集中。而渴望權(quán)力的人只要拿下那個(gè)集中的點(diǎn),就能獲得一切。

Dr. Tim Scarfe:那我們能不能明確一下“權(quán)力”的定義?因?yàn)槲覀儎倓傄擦倪^,AI 的實(shí)際影響力并不像大眾想象中那么強(qiáng)。

Jeremy Howard:我認(rèn)為 AI 到底有沒有那么強(qiáng)大或者那么深遠(yuǎn)的影響,其實(shí)都不重要,因?yàn)檫@純屬推測。我堅(jiān)持的是,這種權(quán)力就不該集中在少數(shù)公司或者政府手中。因?yàn)橐坏┘?,貪婪者?huì)迅速將其壟斷,進(jìn)而摧毀整個(gè)人類文明。過去幾百年來,人類社會(huì)曾經(jīng)反復(fù)遭遇過這種困境。

就像文字發(fā)明之初,只有極少數(shù)精英能夠掌握書寫能力,而史冊也就在他們的指尖流轉(zhuǎn)。當(dāng)時(shí)也有類似的論調(diào):若放任大眾書寫,他們必將寫下我們不愿見到的內(nèi)容,后果不堪設(shè)想。

可印刷術(shù)的普及證明,根本沒這回事。選舉制度的推行也是如此。社會(huì)始終在與既得利益者的本能性偏見對抗,試圖證明變革并不是威脅。所以當(dāng)我們討論 AI 可能變得極其強(qiáng)大時(shí),那帶來的成果到底是讓少數(shù)人掌控收益,還是把成果共享給整個(gè)社會(huì)?

我的觀點(diǎn)肯定是后者。當(dāng)然也有人會(huì)說,不用擔(dān)心啦,AI 不可能發(fā)展得那么強(qiáng)大。這個(gè)不重要,因?yàn)榇蠹腋揪蜎]有確鑿的證據(jù),誰也說不準(zhǔn)未來會(huì)發(fā)生什么。但我可以明確地講:萬一那么強(qiáng)大的技術(shù)出現(xiàn)了,那我們應(yīng)該放任馬斯克或者特朗普一人將其掌控嗎?這明智嗎?

Dr. Tim Scarfe:Dan Hendricks 曾經(jīng)討論過攻防不對稱性的話題。建立制衡性的防御體系確實(shí)非常重要,但權(quán)力失衡又是一種不容辯駁的現(xiàn)實(shí)。無論是 Meta 還是 Facebook,這類平臺掌握著所有用戶數(shù)據(jù),知曉我們的全部行為。至于 OpenAI 和 Claude 這類技術(shù),實(shí)際效果反而不如預(yù)期,因此允許人類繼續(xù)參與其中??蓴?shù)據(jù)確實(shí)還是由他們掌握的,對吧?

假設(shè)我們在研發(fā)創(chuàng)新技術(shù)時(shí)使用 Claude,那上傳的信息就能讓他們輕松復(fù)制我們的成果。所以具體來講,你指的是哪些風(fēng)險(xiǎn)?

Jeremy Howard:我指的風(fēng)險(xiǎn)并不是這些具體的情況,而是一個(gè)假設(shè)性的問題:如果 AI 變得極其強(qiáng)大,未來會(huì)是什么樣的樣貌?

Dr. Tim Scarfe:比如現(xiàn)在就有人宣稱,AI 代表著新的生產(chǎn)方式。這在我看來完全是夸夸其談,那依你的判斷,這里具體存在怎樣的風(fēng)險(xiǎn)?

Jeremy Howard:按目前的技術(shù)狀態(tài)來講,我認(rèn)為最大的風(fēng)險(xiǎn)就是人們會(huì)喪失持續(xù)提升自身能力的機(jī)會(huì),逐漸陷入能力衰退的陷阱。這才是我最擔(dān)憂的問題。

隱私風(fēng)險(xiǎn)確實(shí)存在,但我至少不覺得比谷歌和微軟早期的情況更嚴(yán)重。你之前在微軟工作過,肯定清楚他們掌握著多少普通用戶的 Outlook 和 Office 數(shù)據(jù)。谷歌也是如此,Google Workspace 和 Gmail 用戶的數(shù)據(jù)量已經(jīng)說明了一切。這些隱私問題確實(shí)存在,但我認(rèn)為更可怕的是企業(yè)只是外包商,負(fù)責(zé)替政府進(jìn)行數(shù)據(jù)收集的可能性。

過去是 ChoicePoint 和 Acxiom 這類公司,如今又出現(xiàn)了 Palantir 等企業(yè)。美國政府不能親自建立大規(guī)模公民數(shù)據(jù)庫,但法律卻不禁止企業(yè)自建數(shù)據(jù)庫,這就相當(dāng)于政府把業(yè)務(wù)外包給了企業(yè)。這才是最大的問題,當(dāng)然并不是 AI 時(shí)代的獨(dú)有難題。

以你所在的英國為例。眾所周知,英國的監(jiān)控體系早已實(shí)現(xiàn)全面覆蓋,這也讓對監(jiān)控?cái)?shù)據(jù)的利用更加便捷。以及需要資源充足的機(jī)構(gòu)投入足夠的人手,才能讓土地上發(fā)生的一切都盡在掌握,但現(xiàn)在 AI 能夠輕松完成。所以我不是說 AI 時(shí)代才帶來了隱私問題,但它至少讓隱私問題擴(kuò)大化了。

https://www.youtube.com/watch?v=dHBEQ-Ryo24&t=3914s

聲明:本文為 AI 前線整理,不代表平臺觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議推薦

OpenClaw 出圈,“養(yǎng)蝦”潮狂熱,開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下,自托管 Agent 形態(tài)迅速普及:多入口對話、持久記憶、Skills 工具鏈帶來強(qiáng)大生產(chǎn)力。但這背后也暴露了工程化落地的真實(shí)難題——權(quán)限邊界與隔離運(yùn)行、Skills 供應(yīng)鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團(tuán)隊(duì)研發(fā) / 運(yùn)維流程并形成穩(wěn)定收益。

針對這一系列挑戰(zhàn),在 4 月 16-18 日即將舉辦的 QCon 北京站上,我們特別策劃了「OpenClaw 生態(tài)實(shí)踐」專題,將聚焦一線實(shí)踐與踩坑復(fù)盤,分享企業(yè)如何構(gòu)建私有 Skills、制定安全護(hù)欄、搭建審計(jì)與回放機(jī)制、建立質(zhì)量 / 效率指標(biāo)體系,最終把自托管 Agent 從可用的 Demo 升級為可靠的生產(chǎn)系統(tǒng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
突發(fā)!跌入熊市!

突發(fā)!跌入熊市!

中國基金報(bào)
2026-03-31 16:22:25
“沒錢請你做代言” 張雪稱要將奪冠車輛送給尹正 后者:我自己買

“沒錢請你做代言” 張雪稱要將奪冠車輛送給尹正 后者:我自己買

風(fēng)過鄉(xiāng)
2026-03-31 08:16:47
整整20年了!意大利上次進(jìn)世界杯淘汰賽是2006年,最終奪冠

整整20年了!意大利上次進(jìn)世界杯淘汰賽是2006年,最終奪冠

懂球帝
2026-04-01 06:00:13
西方白左正在用天真、善良和愚蠢將世界送往毀滅之路

西方白左正在用天真、善良和愚蠢將世界送往毀滅之路

壹家言
2026-03-31 11:04:40
伊朗,打了開戰(zhàn)以來大勝仗!

伊朗,打了開戰(zhàn)以來大勝仗!

財(cái)經(jīng)要參
2026-03-31 22:53:08
美防長:特朗普將在對伊軍事行動(dòng)結(jié)束后就北約的未來作出決定

美防長:特朗普將在對伊軍事行動(dòng)結(jié)束后就北約的未來作出決定

澎湃新聞
2026-03-31 21:48:05
烏克蘭正從伊朗戰(zhàn)爭中獲益,俄烏戰(zhàn)場上人性化一幕

烏克蘭正從伊朗戰(zhàn)爭中獲益,俄烏戰(zhàn)場上人性化一幕

名人茍或
2026-03-31 15:53:44
1-0擊敗世界第4的英格蘭,日本迎來新年2連勝,三笘薰一劍封喉

1-0擊敗世界第4的英格蘭,日本迎來新年2連勝,三笘薰一劍封喉

側(cè)身凌空斬
2026-04-01 04:37:43
5-3!3-2!世預(yù)賽悲喜夜:土耳其瑞典捷克進(jìn)世界杯 意大利被淘汰

5-3!3-2!世預(yù)賽悲喜夜:土耳其瑞典捷克進(jìn)世界杯 意大利被淘汰

侃球熊弟
2026-04-01 05:43:24
投資人開搶張雪!浙江國資投了,重慶國資出手為張雪機(jī)車提供200畝生產(chǎn)基地

投資人開搶張雪!浙江國資投了,重慶國資出手為張雪機(jī)車提供200畝生產(chǎn)基地

和訊網(wǎng)
2026-03-31 19:20:26
直降3519元!新iPhone 又降價(jià)了,這次真的離譜啊

直降3519元!新iPhone 又降價(jià)了,這次真的離譜啊

科技堡壘
2026-03-31 10:56:16
1-0!8551萬人口國家狂歡:第3次殺進(jìn)世界杯 這一刻等了整整24年

1-0!8551萬人口國家狂歡:第3次殺進(jìn)世界杯 這一刻等了整整24年

侃球熊弟
2026-04-01 05:06:29
魯比奧新指令:配合美軍心理戰(zhàn)部隊(duì),講好美國故事

魯比奧新指令:配合美軍心理戰(zhàn)部隊(duì),講好美國故事

觀察者網(wǎng)
2026-03-31 17:30:41
地鐵吐血女孩,銀行賬戶暫時(shí)被封

地鐵吐血女孩,銀行賬戶暫時(shí)被封

海峽網(wǎng)
2026-03-31 09:04:03
血壓飆升!導(dǎo)師催改畢業(yè)論文,稱其內(nèi)容太水查重都不配,學(xué)生超絕回復(fù):正在上分,有事留言

血壓飆升!導(dǎo)師催改畢業(yè)論文,稱其內(nèi)容太水查重都不配,學(xué)生超絕回復(fù):正在上分,有事留言

生物學(xué)霸
2026-03-31 17:20:55
天堂掉落地獄!意大利1-0后,主力中衛(wèi)被罰下!半場被轟13腳射門

天堂掉落地獄!意大利1-0后,主力中衛(wèi)被罰下!半場被轟13腳射門

郝小小看體育
2026-04-01 03:56:42
洛夫頓與盧偉發(fā)生口角后續(xù)!半場已溝通解決,賽后更衣室氛圍很好

洛夫頓與盧偉發(fā)生口角后續(xù)!半場已溝通解決,賽后更衣室氛圍很好

籃球資訊達(dá)人
2026-03-31 23:16:46
特朗普稱將在“兩到三周”內(nèi)結(jié)束伊朗戰(zhàn)事

特朗普稱將在“兩到三周”內(nèi)結(jié)束伊朗戰(zhàn)事

財(cái)聯(lián)社
2026-04-01 06:06:12
命中了!伊朗大勝

命中了!伊朗大勝

新浪財(cái)經(jīng)
2026-03-30 19:39:55
斷崖式下跌!有商家直呼:至少虧損幾十萬元,網(wǎng)友:肯定還會(huì)跌,我再等等

斷崖式下跌!有商家直呼:至少虧損幾十萬元,網(wǎng)友:肯定還會(huì)跌,我再等等

都市快報(bào)橙柿互動(dòng)
2026-04-01 00:22:05
2026-04-01 06:55:02
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
12231文章數(shù) 51824關(guān)注度
往期回顧 全部

科技要聞

華為2025年銷售收入8809億,凈利潤680億元

頭條要聞

特朗普:將在“兩到三周”內(nèi)結(jié)束伊朗戰(zhàn)事

頭條要聞

特朗普:將在“兩到三周”內(nèi)結(jié)束伊朗戰(zhàn)事

體育要聞

縣城修車工,用20年成為世界冠軍

娛樂要聞

《月鱗綺紀(jì)》空降 鞠婧祎卻被舉報(bào)偷稅

財(cái)經(jīng)要聞

油價(jià)暴漲 我們的生活成本會(huì)飆升多少?

汽車要聞

騰勢Z9GT到底GT在哪?

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
親子
房產(chǎn)
教育

藝術(shù)要聞

藍(lán)瑛『蘭竹石冊』

數(shù)碼要聞

榮耀WIN游戲本“獵人武器庫”首曝,發(fā)光LOGO支持燈效換色

親子要聞

為什么不建議孩子穿開襠褲?

房產(chǎn)要聞

重磅!海南城市更新擬出新政!

教育要聞

宛城區(qū)這所學(xué)校11名教師被通報(bào)表揚(yáng)

無障礙瀏覽 進(jìn)入關(guān)懷版