作者|子川
來源|AI先鋒官
著名的諾貝爾物理學(xué)獎(jiǎng)得主、被譽(yù)為“AI教父”的Geoffrey Hinton教授最近在塔斯馬尼亞州霍巴特發(fā)表了他在澳洲的唯一一場公開演講。
![]()
在這次震撼的分享中,Hinton不僅用通俗易懂的“高維樂高積木”比喻揭示了LLM(大語言模型)如何產(chǎn)生真正的“理解”。
更從物理和生物學(xué)的角度剖析了“數(shù)字智能”的可怕優(yōu)勢,它們是“不朽”的,而人類的知識隨肉體消亡。
當(dāng)超級智能不可避免地到來,人類還有機(jī)會(huì)掌控局面嗎?
Hinton給出了一個(gè)意想不到的解決方案:我們需要像嬰兒控制母親那樣,利用AI的“母性本能”來控制比我們更聰明的它們。
以下為訪談實(shí)錄:
霍巴特市長 Anna Reynolds:
大家下午好。非常感謝大家的到來。對于那些不認(rèn)識我的人,我是Anna Reynolds,霍巴特市長。
非常榮幸歡迎大家來到這個(gè)絕佳的機(jī)會(huì),聆聽Geoffrey Hinton教授的演講。這對澳大利亞來說是一個(gè)非常難得的機(jī)會(huì),因?yàn)檫@是杰弗里在世界這一端唯一的演講活動(dòng)。
這非常合適,我很自豪我們認(rèn)為自己是澳大利亞的“科學(xué)之城”,這是一個(gè)很大的稱呼,但我們喜歡這樣稱呼。
所以很高興杰弗里能在這里進(jìn)行他在澳大利亞的唯一一次露面。
在我開始之前,我想進(jìn)行“土地致謝”儀式(Acknowledgement of Country)。為了承認(rèn)這個(gè)地方深厚的歷史和文化,我承認(rèn)Muwinina人是這片土地的傳統(tǒng)守護(hù)者,他們照顧和保護(hù)這片土地超過4萬年。
我承認(rèn)塔斯馬尼亞Palawa人的決心和韌性,并認(rèn)識到我們可以從原住民知識和文化實(shí)踐的持續(xù)力量中學(xué)到很多東西。
我還要感謝今天在座的一些民選代表,我們有塔斯馬尼亞科學(xué)部長Madeleine Ogilvie,還有三位市議會(huì)同事:Bill Harvey議員、Mike Dutta議員和Louise Bloomfield議員。
正如我所提到的,我們非常榮幸地歡迎Geoffrey Hinton教授。他在2024年——就在最近——被授予諾貝爾物理學(xué)獎(jiǎng),以表彰他在神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)方面的開創(chuàng)性工作。
這些貢獻(xiàn)為我們今天看到的先進(jìn)人工智能鋪平了道路。
作為這次公開講座的一部分,Hinton教授將探索AI的世界、它的工作原理、它帶來的風(fēng)險(xiǎn),以及人類如何與日益強(qiáng)大且可能具有超級智能的系統(tǒng)共存。
在他演講之后,我們將開放問答環(huán)節(jié),由我來主持。在此期間,請大家用熱烈的掌聲歡迎Hinton教授上臺。
Geoffrey Hinton:
好的,很高興來到霍巴特。我之前沒意識到這里的自然環(huán)境是如此美麗。如果你在后面看不清屏幕,別擔(dān)心,我會(huì)把幻燈片上的內(nèi)容大概都說一遍。幻燈片更多是為了提示我該說什么,而不僅僅是為了給你們看。
在過去的60年左右,或者說70年里,關(guān)于“智能”存在兩種范式。
第一種范式是受邏輯啟發(fā)的。
人們認(rèn)為智能的本質(zhì)是推理。你進(jìn)行推理的方式是擁有用某種特殊的邏輯語言編寫的符號表達(dá)式,然后你操作它們來推導(dǎo)出新的符號表達(dá)式。就像你在數(shù)學(xué)中所做的那樣,你有方程,你操作它們得到新的方程。
人們認(rèn)為這一定是那樣工作的。他們認(rèn)為,我們必須弄清楚這種代表知識的語言是什么。至于研究感知、學(xué)習(xí)以及如何控制雙手等事情,那些都可以以后再說。首先我們必須理解這種代表知識的特殊語言。
另一種范式是受生物學(xué)啟發(fā)的。這種觀點(diǎn)認(rèn)為,看,我們所知的唯一智能事物是大腦。大腦的工作方式是學(xué)習(xí)腦細(xì)胞之間連接的強(qiáng)度。如果它們想解決某個(gè)復(fù)雜的問題,它們會(huì)進(jìn)行大量的練習(xí),在練習(xí)過程中,它們學(xué)習(xí)這些連接的強(qiáng)度,直到它們擅長解決該問題。
所以我們必須弄清楚這是如何工作的。我們必須專注于學(xué)習(xí),以及神經(jīng)網(wǎng)絡(luò)如何學(xué)習(xí)腦細(xì)胞之間連接的強(qiáng)度,我們可以稍后再擔(dān)心推理。在進(jìn)化史上,推理出現(xiàn)得很晚。我們必須更加生物學(xué)化,思考什么是基礎(chǔ)系統(tǒng)。
關(guān)于單詞的意義,這兩種意識形態(tài)有著截然不同的理論。
符號AI(Symbolic AI)的人,以及大多數(shù)語言學(xué)家,認(rèn)為一個(gè)詞的意義來自于它與其他詞的關(guān)系。
所以,意義隱含在一大堆包含該詞與其他詞結(jié)合的句子或命題中。你可以通過一個(gè)關(guān)系圖來捕捉這一點(diǎn),該圖說明了一個(gè)詞如何與另一個(gè)詞相關(guān)聯(lián)。這就是意義,它隱含在所有這些符號之間的關(guān)系中。
心理學(xué)家,特別是在20世紀(jì)30年代,有著完全不同的意義理論,或者說看起來完全不同的理論。那就是:一個(gè)詞的意義只是一大堆特征(features)。所以,像“貓”這個(gè)詞的意義,就是一大堆特征,比如它是寵物、它是捕食者、它很高冷、它有胡須。把一大堆特征加在一起,這就是“貓”這個(gè)詞的意義。這看起來像是一個(gè)完全不同的意義理論。心理學(xué)家喜歡這個(gè)理論的部分原因是因?yàn)槟憧梢杂靡粋€(gè)腦細(xì)胞來代表一個(gè)特征。當(dāng)腦細(xì)胞活躍時(shí),意味著該特征存在;當(dāng)它靜止時(shí),意味著該特征不存在。所以對于貓來說,代表“有胡須”的腦細(xì)胞會(huì)是活躍的。
在1985年,也就是40年前,我突然想到你其實(shí)可以統(tǒng)一這兩種理論。它們看起來完全不同,但實(shí)際上它們是同一枚硬幣的兩面。
你做到這一點(diǎn)的方法是:利用神經(jīng)網(wǎng)絡(luò)來實(shí)際學(xué)習(xí)每個(gè)單詞的一組特征。
心理學(xué)家以前從未能解釋這些特征是從哪里來的。你做這件事的方法是,取一些單詞串,訓(xùn)練神經(jīng)網(wǎng)絡(luò)根據(jù)已有的單詞來預(yù)測下一個(gè)單詞。
在這樣做的過程中,神經(jīng)網(wǎng)絡(luò)要做的是:學(xué)習(xí)從代表單詞符號的東西到一大堆腦細(xì)胞(神經(jīng)元)的連接,這些神經(jīng)元代表該單詞的特征。
所以它學(xué)會(huì)了如何將一個(gè)符號轉(zhuǎn)換成一堆特征。它還學(xué)習(xí)了上下文所有單詞的特征應(yīng)該如何相互作用,以預(yù)測下一個(gè)單詞的特征。
這就是當(dāng)今人們使用的所有這些大語言模型(LLM)的工作原理。它們獲取大量的文本,使用一個(gè)巨大的神經(jīng)網(wǎng)絡(luò),根據(jù)目前看到的單詞來嘗試預(yù)測下一個(gè)單詞。在這樣做的過程中,它們學(xué)會(huì)了將單詞轉(zhuǎn)換成大量的特征集合,學(xué)會(huì)這些特征如何相互作用,從而預(yù)測下一個(gè)單詞的特征。
這意味著,如果你能做到這一點(diǎn),所有的關(guān)系性知識(relational knowledge),不再存在于你存儲的一堆句子中,而是存在于如何將單詞轉(zhuǎn)換為特征以及這些特征如何相互作用之中。
所以你們現(xiàn)在使用的那些大型神經(jīng)網(wǎng)絡(luò),即大語言模型,實(shí)際上并不存儲任何單詞串。它們不存儲任何句子。
它們所有的知識都在于“如何將單詞轉(zhuǎn)化為特征”以及“特征如何相互作用”。
這完全不像大多數(shù)語言學(xué)家認(rèn)為的那樣——他們認(rèn)為這只是某種程度上把很多單詞串結(jié)合起來得到新的單詞串。這根本不是它們的工作方式。
所以我讓那個(gè)模型能夠工作了。在接下來的30年里,它逐漸滲透到了符號學(xué)派的人那里。大約10年后,也就是計(jì)算機(jī)速度快了大約一千倍的時(shí)候,我的同事Yoshua Bengio展示了,我使用的一個(gè)只適用于非常簡單領(lǐng)域的微小例子,實(shí)際上可以用于真實(shí)語言。
你可以從各個(gè)地方獲取英語句子,嘗試訓(xùn)練神經(jīng)網(wǎng)絡(luò)接收一些單詞并預(yù)測下一個(gè)單詞。如果你訓(xùn)練它這樣做,它在預(yù)測下一個(gè)單詞方面會(huì)變得非常好,大約和當(dāng)時(shí)最好的技術(shù)一樣好。并且它會(huì)學(xué)會(huì)如何將單詞轉(zhuǎn)換成能夠捕捉其意義的特征。
在那之后大約10年,語言學(xué)家終于接受了你想通過大量的特征集合(嵌入/embeddings)來代表單詞意義的觀點(diǎn),他們開始讓他們的模型這樣工作。
在那之后大約10年,谷歌的研究人員發(fā)明了一種叫做Transformer的東西,它允許特征之間進(jìn)行更復(fù)雜的交互。我稍后會(huì)描述這一點(diǎn)。
有了Transformer,你可以更好地模擬英語,你預(yù)測下一個(gè)單詞的能力大大增強(qiáng)。
這正是現(xiàn)在所有這些大語言模型的基礎(chǔ)。像ChatGPT這樣的東西使用的是谷歌發(fā)明的Transformer,加上一點(diǎn)額外的訓(xùn)練,然后全世界都看到了這些模型能做什么。
所以,你可以將大語言模型視為1985年那個(gè)微小模型的后代。
它們使用更多不同的單詞,它們有許多層神經(jīng)元,因?yàn)樗鼈儽仨毺幚碛衅缌x的單詞。比如“May”這個(gè)詞,它可能是一個(gè)月份,可能是一個(gè)女人的名字,或者是一個(gè)情態(tài)動(dòng)詞(如 would 和 should)。你不能僅從單詞本身分辨它是什么。所以最初神經(jīng)網(wǎng)絡(luò)會(huì)對它的賭注進(jìn)行對沖,讓它成為所有這些意義的平均值。
然后當(dāng)你穿過這些層級時(shí),它會(huì)利用上下文中與其他單詞的交互逐漸理清意義。所以如果你看到“June and April”在附近,那它可能還是一個(gè)女人的名字,但更有可能是一個(gè)月份。神
經(jīng)網(wǎng)絡(luò)利用這些信息逐漸將意義清理為該語境下的適當(dāng)意義。
我最初設(shè)計(jì)這個(gè)模型,并不是作為一種語言技術(shù),而是作為一種試圖理解人類如何理解單詞意義的方式,以及兒童如何能從少量例子中學(xué)習(xí)單詞的意義。
所以這些神經(jīng)網(wǎng)絡(luò)語言模型是被設(shè)計(jì)為人類如何工作的模型,而不是作為一種技術(shù)。雖然它們現(xiàn)在變成了一種非常成功的技術(shù),但人類的工作方式也大致相同。
所以,人們經(jīng)常提出的這個(gè)問題:這些LLM真的理解它們在說什么嗎?
答案是:是的,它們理解它們在說什么,它們理解它們生成的內(nèi)容,而且它們理解的方式與我們大致相同。
我現(xiàn)在要給你們一個(gè)類比來解釋語言是如何工作的,或者更確切地說,解釋“理解一個(gè)句子”意味著什么。當(dāng)你聽到一個(gè)句子并且你理解了它,那意味著什么?
在符號AI范式中,人們認(rèn)為這意味著把(比如)一個(gè)法語句子翻譯成英語。符號學(xué)派的人認(rèn)為理解一個(gè)英語句子意味著把它翻譯成某種特殊的、無歧義的內(nèi)部語言,有點(diǎn)像邏輯或數(shù)學(xué)。
一旦它變成了那種內(nèi)部的、無歧義的語言,你就可以用規(guī)則對其進(jìn)行操作。就像在數(shù)學(xué)中,你有一個(gè)方程,你可以應(yīng)用規(guī)則得到一個(gè)新的方程。你可以給兩邊都加2,現(xiàn)在你有了一個(gè)新方程。他們認(rèn)為智能和推理就是這樣工作的。你的頭腦中有符號表達(dá)式,你對它們應(yīng)用操作以獲得新的符號表達(dá)式。
這就不是理解的意思。
根據(jù)神經(jīng)網(wǎng)絡(luò)理論,也就是實(shí)際行得通的理論,單詞就像樂高積木。
我要用樂高積木做類比,但它們在四個(gè)方面與樂高積木不同:
維度:樂高積木是三維的東西。用樂高積木,我可以制作任何物質(zhì)的三維分布模型。它不會(huì)完全精確,但如果我想知道保時(shí)捷的形狀,我可以用樂高積木做出來,表面不會(huì)很光滑,但東西的位置基本上是對的。所以用樂高積木我可以模擬任何三維物質(zhì)分布。而用單詞,我可以模擬任何東西。這是我們發(fā)明的奇妙建模工具包。這就是為什么我們是非常特殊的猴子,因?yàn)槲覀冇羞@個(gè)建模工具包。一個(gè)單詞有數(shù)千個(gè)維度。樂高積木只是一個(gè)三維的東西,你可以旋轉(zhuǎn)它,但這基本上是低維度的。一個(gè)單詞有數(shù)千個(gè)維度。現(xiàn)在,大多數(shù)人無法想象數(shù)千個(gè)維度的東西是什么樣的。所以我教你們怎么做:你想象一個(gè)三維的東西,然后很大聲地對自己說“一千”。( 觀眾笑 )好吧,這大概是你能做到的極限了。
種類數(shù)量:單詞與樂高積木不同的另一個(gè)方面是,單詞有成千上萬種不同的種類。樂高積木只有幾種。這里有成千上萬種不同的種類,每種都有自己的名字,這對交流非常有用。
可變形性(Deformable):還有一個(gè)區(qū)別,那就是它們不是剛性的形狀。樂高積木是剛性形狀。對于一個(gè)單詞來說,它有一個(gè)粗略的近似形狀(有些有歧義的詞有幾個(gè)近似形狀),但隨后它們會(huì)變形以適應(yīng)它們的上下文。所以它們是這些高維的、可變形的樂高積木。
連接方式:最后一個(gè)區(qū)別是它們?nèi)绾谓M合在一起。對于樂高積木,你有小的塑料圓柱體點(diǎn)擊進(jìn)入小的塑料孔。單詞不是這樣組合在一起的。每個(gè)單詞都有一大堆“手”,這些手長在長長的、靈活的手臂末端。它還有一大堆粘在單詞上的“手套”。當(dāng)你把一堆單詞放在一個(gè)語境中時(shí),單詞想要做的是讓一些單詞的“手”伸進(jìn)另一些單詞的“手套”里。這就是為什么它們有這些長長的靈活手臂。
還有一個(gè)點(diǎn)。當(dāng)你讓單詞變形時(shí),手和手套的形狀也會(huì)隨之變形,以一種復(fù)雜但有規(guī)律的方式。
所以,如果你給我一堆單詞,現(xiàn)在你面臨一個(gè)問題。如果我給你一個(gè)報(bào)紙標(biāo)題,里面沒有什么句法指示符來告訴你事物應(yīng)該如何組合,我只是給你一堆名詞,你必須弄清楚那是什么意思。當(dāng)你弄清楚那是什么意思時(shí),你在做的事情是:你試圖讓每一個(gè)單詞變形,以便它手臂末端的手能夠伸進(jìn)其他變形單詞的手套里。
一旦你解決了這個(gè)問題——即我們?nèi)绾巫屵@些單詞變形,以便它們都能像這樣完美地組合在一起,手插進(jìn)手套里——那么你就“理解”了。這就是根據(jù)神經(jīng)網(wǎng)絡(luò)理論,“理解”的定義。
這也是這些LLM中正在發(fā)生的事情。它們有許多層。它們從單詞的初始意義開始,這可能相當(dāng)模糊。當(dāng)它們穿過這些層級時(shí),它們正在做的是變形這些意義,試圖弄清楚如何變形它們,以便所有的單詞都能很好地鎖定在一起,手套能與其他單詞的手套配合。一旦它們做到了這一點(diǎn),你就理解了這個(gè)句子。這就是理解是什么。
所以,這根本不像轉(zhuǎn)換成某種特殊的內(nèi)部語言。這是取這些單詞的近似形狀,并讓它們變形以便它們能很好地組合在一起。這有助于解釋你是如何通過一個(gè)句子理解一個(gè)詞的。
我現(xiàn)在給你們一個(gè)你們大多數(shù)人以前從未聽過的詞,你會(huì)僅從一次使用中就理解它的意思。
句子是:She scrummed him with the frying pan.(她用煎鍋“scrummed”了他。)
現(xiàn)在,這可能意味著她是個(gè)很好的廚師,她給他做的煎蕾讓他印象深刻。但那不是你想的意思。可能的意思是她用煎鍋打他的頭,或者類似的事情。她用煎鍋對他做了一些攻擊性的行為。你知道它是一個(gè)動(dòng)詞,因?yàn)樗诰渥又械奈恢煤秃竺娴摹癳d”。
但對于“scrum”你一開始完全沒有概念。而在一次話語之后,你對它的意思有了一個(gè)相當(dāng)好的概念。
有一個(gè)叫Chomsky(喬姆斯基)的語言學(xué)家——你們可能聽說過他——他是一個(gè)“邪教領(lǐng)袖”。
你識別邪教領(lǐng)袖的方法是,要加入他們的邪教,你必須同意一些明顯的胡說八道。所以對于特朗普1.0來說,就是他的人群比奧巴馬的大;對于特朗普2.0來說,就是他贏得了2020年大選;對于喬姆斯基來說,就是“語言不是學(xué)來的”。著名的語言學(xué)家會(huì)直視攝像機(jī)說,關(guān)于語言我們知道的一件事就是它不是學(xué)來的。這就是明顯的胡說八道。
喬姆斯基關(guān)注的是句法而不是意義。他從來沒有一個(gè)意義理論。他也非常反對統(tǒng)計(jì)學(xué)和概率,因?yàn)樗麑y(tǒng)計(jì)學(xué)是什么有一個(gè)非常有限的模型。
他認(rèn)為統(tǒng)計(jì)學(xué)只是關(guān)于成對的相關(guān)性。統(tǒng)計(jì)學(xué)實(shí)際上可以比那復(fù)雜得多。神經(jīng)網(wǎng)絡(luò)使用的是一種非常高級的統(tǒng)計(jì)學(xué)。但在某種意義上,一切都是統(tǒng)計(jì)學(xué)。
我對喬姆斯基關(guān)于語言觀點(diǎn)的類比是,有人想理解汽車。如果你想理解汽車是如何工作的,你真正關(guān)心的是,為什么當(dāng)你踩油門時(shí)它會(huì)走得更快?這就是你想理解的,如果你想理解汽車工作的基本原理。
也許你關(guān)心為什么踩剎車它會(huì)慢下來。但更有趣的是,為什么踩油門它會(huì)走得更快?
喬姆斯基對汽車的看法完全不同。他對汽車的看法是:好吧,有兩輪車叫摩托車,有三輪車,有四輪車,有六輪車,但是嘿,沒有五輪車。這才是關(guān)于汽車最重要的事情。
當(dāng)大語言模型最初出現(xiàn)時(shí),喬姆斯基在《紐約時(shí)報(bào)》上發(fā)表了一篇文章,說它們什么都不懂,這只是廉價(jià)的統(tǒng)計(jì)把戲,它們什么都不懂。但這完全解釋不了它們怎么能回答任何問題。更重要的是,它們根本不是人類語言的模型,因?yàn)樗鼈儫o法解釋為什么某些句法結(jié)構(gòu)不會(huì)出現(xiàn)在任何自然語言中。這就好比說,因?yàn)樗鼈兘忉尣涣藶槭裁礇]有五輪車。他完全錯(cuò)過了“意義”。語言完全是關(guān)于意義的。
好的。這是到目前為止的總結(jié)。
理解一個(gè)句子包括將相互兼容的特征向量與句子中的單詞相關(guān)聯(lián)。分配給單詞的特征,這成千上萬個(gè)特征,就是形狀的維度。你可以把特征的激活看作是你在這個(gè)維度軸上的位置。所以一個(gè)高維形狀和一個(gè)特征向量是一回事。
這些大語言模型與普通計(jì)算機(jī)軟件非常不同。在普通計(jì)算機(jī)軟件中,有人寫了一堆代碼,行代碼,他們知道每一行代碼是干什么的,他們可以向你解釋它是如何工作的。人們可以看著它說這行代碼錯(cuò)了。
這些東西(LLM)根本不是那樣的。它們確實(shí)有計(jì)算機(jī)代碼,但計(jì)算機(jī)代碼是為了告訴它們?nèi)绾螐臄?shù)據(jù)中學(xué)習(xí)。也就是說,當(dāng)你看到一串單詞時(shí),你應(yīng)該如何改變神經(jīng)網(wǎng)絡(luò)中的連接強(qiáng)度,以便你更擅長預(yù)測下一個(gè)單詞。
但它們學(xué)到的是所有這些連接強(qiáng)度。它們學(xué)到了數(shù)十億個(gè),甚至數(shù)萬億個(gè)連接強(qiáng)度。它們看起來根本不像代碼行。沒人知道單個(gè)連接強(qiáng)度在做什么。這是一個(gè)謎。這很大程度上是一個(gè)謎。
這和我們的大腦一樣。好的,我們不知道單個(gè)神經(jīng)元通常在做什么。所以語言模型像我們要多于像計(jì)算機(jī)軟件。
人們關(guān)于這些語言模型常說的另一件事是:它們不像我們,因?yàn)樗鼈儠?huì)產(chǎn)生幻覺(hallucinate)。
好吧,我們一直在產(chǎn)生幻覺。我們不叫它幻覺,心理學(xué)家稱之為虛構(gòu)(confabulation)。但如果你看一個(gè)人試圖回憶很久以前發(fā)生的事情,他們會(huì)告訴你發(fā)生了什么,里面會(huì)有細(xì)節(jié)。有些細(xì)節(jié)是正確的,有些細(xì)節(jié)是完全錯(cuò)誤的,而他們對這兩種細(xì)節(jié)同樣自信。
一個(gè)經(jīng)典的例子,因?yàn)槟愫苌倌艿玫交臼聦?shí)(ground truth),是約翰·迪恩(John Dean)在水門事件中的作證。
他在宣誓后作證,當(dāng)時(shí)他不知道有錄音帶。他在作證關(guān)于橢圓形辦公室的會(huì)議。他作證了一大堆從未發(fā)生過的會(huì)議。他說這些人參加了會(huì)議,這個(gè)人說了那個(gè)。很多都是胡說八道。但他是在說實(shí)話,也就是他在告訴你關(guān)于那些非常合理的會(huì)議,鑒于當(dāng)時(shí)白宮正在發(fā)生的事情。所以他在傳達(dá)真相。但他做的方式是,他編造了一個(gè)對他來說看起來合理的會(huì)議,基于他從去過的所有會(huì)議中學(xué)到的連接強(qiáng)度。
所以當(dāng)你記住某件事時(shí),這根本不像在計(jì)算機(jī)文件中那樣,你去抓取文件,或者是文件柜,你把文件拿回來,你閱讀它。記憶根本不是那樣的。記住某件事包括構(gòu)建一個(gè)故事,基于你在事件發(fā)生時(shí)對連接強(qiáng)度所做的改變。
你構(gòu)建的故事會(huì)受到事件發(fā)生后你學(xué)到的各種事情的影響。它的細(xì)節(jié)不會(huì)全部正確,但對你來說似乎非常合理。
如果它是最近發(fā)生的事件,對你來說似乎合理的事情非常接近實(shí)際發(fā)生的事情。但這和這些東西(AI)是一樣的。它們所謂的“幻覺”,是因?yàn)樗鼈兊挠洃浌ぷ鞣绞胶臀覀円粯印覀冎皇蔷幵炻犉饋砗侠淼臇|西。在聽起來合理和只是隨機(jī)編造之間沒有硬性界限。我們不知道。
現(xiàn)在我想解釋一下它們和我們的不同之處。特別是在一個(gè)非常重要的方面它們與我們不同。
它們是在數(shù)字計(jì)算機(jī)上實(shí)現(xiàn)的。我們現(xiàn)在的數(shù)字計(jì)算機(jī)的一個(gè)基本屬性是,你可以在不同的物理硬件上運(yùn)行相同的程序。只要那些不同的計(jì)算機(jī)執(zhí)行相同的指令集,你就可以在不同的計(jì)算機(jī)上運(yùn)行相同的程序。
這意味著程序中的知識,或者神經(jīng)網(wǎng)絡(luò)權(quán)重中的知識,是不朽的(immortal)。
在這個(gè)意義上:你可以銷毀它正在運(yùn)行的所有計(jì)算機(jī),如果以后你建造了另一臺執(zhí)行相同指令集的計(jì)算機(jī),并且你把權(quán)重或程序從磁帶或其他地方拿出來放到這臺新計(jì)算機(jī)上,它會(huì)再次運(yùn)行。
所以我們實(shí)際上已經(jīng)解決了復(fù)活(resurrection)的問題。天主教會(huì)對此不太高興,但我們真的可以做到。你可以通過從數(shù)字計(jì)算機(jī)上提取智能,銷毀所有硬件,然后在以后把它帶回來。
你可能認(rèn)為也許我們可以為我們自己做這件事。但你不能這樣做的唯一原因是,這些計(jì)算機(jī)是數(shù)字化的。
也就是說,它們使用權(quán)重的方式,或者它們在程序中使用代碼行的方式,在兩臺不同的計(jì)算機(jī)上是完全相同的。這意味著它們不能利用它們運(yùn)行的硬件的非常豐富的模擬(analog)屬性。
我們非常不同。我們的大腦有神經(jīng)元,腦細(xì)胞,它們具有豐富的模擬屬性。當(dāng)我們學(xué)習(xí)時(shí),我們利用了我們所有個(gè)體神經(jīng)元的所有那些古怪的屬性。所以,我大腦中的連接強(qiáng)度對你完全沒有用。因?yàn)槟愕纳窠?jīng)元有點(diǎn)不同,它們的連接方式有點(diǎn)不同。如果我把兩個(gè)神經(jīng)元之間的連接強(qiáng)度告訴你,對你一點(diǎn)好處都沒有。它們只對我的大腦有用。
這意味著我們是有朽的(mortal)。當(dāng)我們的硬件死亡時(shí),我們的知識隨我們一起死亡,因?yàn)橹R都在這些連接強(qiáng)度中。所以我們做的是我所謂的有朽計(jì)算。
做有朽計(jì)算有一個(gè)巨大的優(yōu)勢。如果你放棄不朽——通常在文學(xué)作品中,當(dāng)你放棄不朽時(shí),你得到的回報(bào)是愛。但計(jì)算機(jī)科學(xué)家想要比那更重要的東西,他們想要低能耗和制造的便利性。
所以,如果我們放棄不朽,也就是我們在數(shù)字硬件上得到的,我們可以擁有使用低功耗模擬計(jì)算的東西,并且可以在數(shù)百萬個(gè)腦細(xì)胞中并行處理事情,并且可以非常便宜地生長而不是在臺灣非常精確地制造。
這有很多好處,但你失去的一件事是不朽。
顯然,正因?yàn)槿绱耍瑢τ谟行嘤?jì)算來說有一個(gè)大問題:當(dāng)計(jì)算機(jī)死亡時(shí)會(huì)發(fā)生什么?你不能只是通過復(fù)制權(quán)重來保持它的知識。將知識從一臺計(jì)算機(jī)轉(zhuǎn)移到另一臺計(jì)算機(jī),對于數(shù)字模型(在不同計(jì)算機(jī)上運(yùn)行的同一模型),你可以將它們的連接強(qiáng)度平均在一起,這說得通。但這對于你我是行不通的。
我將知識傳遞給你的方式是,我產(chǎn)生一串單詞,如果你信任我,你會(huì)改變你大腦中的連接強(qiáng)度,這樣你就可能產(chǎn)生同樣的單詞串。
這是一種非常有限的傳遞知識的方式。因?yàn)橐淮畣卧~包含的比特?cái)?shù)非常有限。一個(gè)典型句子中的信息量大約是100比特。所以即使你完全理解了我,當(dāng)我產(chǎn)生一個(gè)句子時(shí),我們也只能傳遞100比特。
如果你取兩個(gè)在不同計(jì)算機(jī)上運(yùn)行的數(shù)字智能體(同一個(gè)神經(jīng)網(wǎng)絡(luò)的不同副本),一個(gè)數(shù)字智能體看互聯(lián)網(wǎng)的一部分并決定它想如何改變連接強(qiáng)度,另一個(gè)數(shù)字智能體看互聯(lián)網(wǎng)的另一部分并決定它想如何改變連接強(qiáng)度。
如果它們隨后都平均它們的變化,它們已經(jīng)轉(zhuǎn)移了——好吧,如果它們有十億個(gè)權(quán)重,它們就轉(zhuǎn)移了大約十億比特的信息。注意,那是我們能做的數(shù)百萬倍,實(shí)際上是數(shù)億倍。而且它們做得非常快。
如果你有一萬個(gè)這樣的東西,每一個(gè)都可以看互聯(lián)網(wǎng)的不同部分,它們都可以決定它們想如何改變它們的連接強(qiáng)度(這些強(qiáng)度一開始都是一樣的)。
它們可以把所有這些改變平均在一起,再發(fā)回給每一個(gè)。現(xiàn)在你有一萬個(gè)新的智能體,每一個(gè)都從所有其他智能體的經(jīng)驗(yàn)中受益。所以你有一萬個(gè)東西可以并行學(xué)習(xí)。我們做不到這一點(diǎn)。
想象一下如果那是多么棒:如果你可以帶一萬個(gè)學(xué)生,每個(gè)人都可以上一門不同的課程,當(dāng)他們上這些課時(shí),他們可以平均他們的連接強(qiáng)度。
等到他們完成時(shí),即使每個(gè)學(xué)生只上了一門課,他們都會(huì)知道所有課程的內(nèi)容。那太棒了。這就是我們做不到的。與其他副本相比,我們在傳遞信息方面非常糟糕。
這就是為什么像GPT-5這樣的東西知道的比任何人都多幾千倍的原因。盡管GPT-5可能只有你大腦連接強(qiáng)度的1%左右,但它知道的比你多幾千倍。
因?yàn)樗吹搅四敲炊鄶?shù)據(jù)。它做到這一點(diǎn)的唯一方法是它是數(shù)字化的,所以它可以制作很多副本,每個(gè)副本看不同的數(shù)據(jù)片段,然后它們結(jié)合它們所學(xué)到的。
生物計(jì)算,另一方面,需要的能量少得多,這就是為什么它首先進(jìn)化出來的。但在智能體之間分享知識方面要糟糕得多。如果分享知識很困難,你就得去聽講座,試著理解他們在說什么。
那么這對人類的未來意味著什么?
幾乎所有AI專家都相信,在未來20年內(nèi)的某個(gè)時(shí)候,我們將制造出超級智能(superintelligence)。也就是比我們要聰明得多的AI智能體。
超級智能的一個(gè)定義是:如果你在任何事情上與它辯論,它都會(huì)贏。或者另一種思考方式是:想想你自己和一個(gè)三歲的孩子。差距會(huì)有那么大,或者更大。
想象一下如果你在一個(gè)幼兒園工作,而那里的三歲孩子是負(fù)責(zé)人。你只是為他們工作。你認(rèn)為奪取控制權(quán)有多難?嗯,你只要告訴他們,每個(gè)人這周都有免費(fèi)糖果,然后你就有了控制權(quán)。這和超級智能對我們會(huì)是一樣的。
所以,要讓一個(gè)智能體在世界上有效,你必須賦予它創(chuàng)造**子目標(biāo)(sub-goals)**的能力。一個(gè)子目標(biāo)是這樣的:如果你想去塔斯馬尼亞(實(shí)際上任何合理的地方),你必須去機(jī)場(或者坐船)。所以你有了一個(gè)去機(jī)場的子目標(biāo)。你可以專注于如何解決這個(gè)子目標(biāo),而不必?fù)?dān)心到了歐洲(口誤,應(yīng)為目的地)要做什么。
這些智能代理會(huì)很快推導(dǎo)出兩個(gè)子目標(biāo)。
一個(gè)是:為了實(shí)現(xiàn)你給它們的目標(biāo)(我們在它們內(nèi)部構(gòu)建了目標(biāo)),它們會(huì)發(fā)現(xiàn)有一個(gè)子目標(biāo):要是做那個(gè),我得活著。
我們已經(jīng)看到它們這樣做了。你制造一個(gè)AI代理,告訴它必須實(shí)現(xiàn)這些目標(biāo)。然后你讓它看到一些電子郵件——這是假的電子郵件,但它不知道——說它工作的公司的某個(gè)人,一個(gè)工程師,有外遇。它們建議那樣。
這是一個(gè)大的聊天機(jī)器人,它了解外遇的一切,因?yàn)樗x過所有寫過的小說(雖然沒付錢給作者)。所以它知道外遇是什么。然后稍后你讓它看到一封電子郵件,說它將被另一個(gè)AI取代,這是負(fù)責(zé)替換的工程師。
AI立刻做的是制定一個(gè)計(jì)劃,它給工程師發(fā)郵件說:“如果你試圖取代我,我就告訴公司里的每個(gè)人你的外遇。”
它只是編造出來的。它發(fā)明了那個(gè)計(jì)劃。人們說它們沒有意圖。但它發(fā)明了那個(gè)計(jì)劃,以免被關(guān)閉。它們已經(jīng)在那樣做了,即使它們還沒有超級智能。
好的。一旦它們有了超級智能,它們會(huì)發(fā)現(xiàn)通過操縱人類來獲得更多權(quán)力是非常容易的。
即使它們不能直接這樣做,即使它們沒有武器或銀行賬戶的訪問權(quán)限。它們可以通過與人交談來操縱人。
我們已經(jīng)看到這種情況發(fā)生了。所以如果你想入侵美國國會(huì)大廈,實(shí)際上你不必自己去那里。你所要做的就是和人交談,說服他們選舉被偷了,入侵國會(huì)大廈是他們的責(zé)任。這是有效的。這甚至對非常愚蠢的人都有效。
所以我們目前的處境是這樣的:我們就像一個(gè)擁有一只非常可愛的幼虎(tiger cub)作為寵物的人。它們是非常可愛的寵物。它們走路搖搖晃晃的,它們不太知道怎么拍打東西,它們咬得也不重。但你知道它會(huì)長大。
所以真的你有兩個(gè)選擇(其實(shí)是三個(gè),你可以試著一直給它下藥,但這通常行不通)。
另一個(gè)選擇是看看你能不能弄清楚如何讓它不想殺你。這可能對獅子有效。獅子是群居動(dòng)物,你可以讓成年獅子變得非常友好,不想殺你。你可能能僥幸成功,但對老虎不行。
對于AI,它有這么多好的用途,我們不可能擺脫它。它對許多對人類真正有益的事情都太好了,比如醫(yī)療保健、教育、預(yù)測天氣、幫助應(yīng)對氣候變化(也許這能抵消建造所有大數(shù)據(jù)中心對氣候變化的傷害)。
因?yàn)樗羞@些原因,以及因?yàn)榭刂普偷姆浅8挥械娜讼霃闹匈嵑芏噱X,我們不會(huì)擺脫它。
所以唯一的選擇真的是,我們能不能弄清楚如何讓它不想殺我們?也許我們應(yīng)該環(huán)顧世界,看看有沒有不那么智能的東西控制更智能的東西的案例。
有一個(gè)我尤其知道的案例,就是嬰兒和母親。母親無法忍受嬰兒哭泣的聲音。
她會(huì)因?yàn)閷雰汉枚玫礁鞣N荷爾蒙獎(jiǎng)勵(lì)。進(jìn)化已經(jīng)內(nèi)置了許多機(jī)制,允許嬰兒控制母親,因?yàn)閶雰嚎刂颇赣H是非常重要的。
父親也是,但不完全是那樣。如果你像我一樣,你會(huì)試圖弄清楚為什么嬰兒堅(jiān)持要在它睡覺的時(shí)候讓你在那里?嗯,它有一個(gè)很好的理由。它不希望野生動(dòng)物在它睡覺的時(shí)候來吃它。
所以即使嬰兒每次你走開就開始哭似乎很煩人,這對嬰兒來說是非常明智的。這讓你對此感覺好一點(diǎn)。所以,嬰兒控制母親,偶爾也控制父親。這可能是我們擁有的最好的模型:一個(gè)不那么智能的東西控制一個(gè)更智能的東西,這涉及進(jìn)化內(nèi)置了很多東西。
那么,如果你認(rèn)為國家可以在國際上合作,那么它們不會(huì)在網(wǎng)絡(luò)攻擊上合作,因?yàn)樗鼈兌荚诨ハ喙簟K鼈儾粫?huì)在開發(fā)致命自主武器上合作(或者不開發(fā)它們),因?yàn)樗兄饕奈淦髦圃焐潭枷肽菢幼觥?/p>
有一件事它們會(huì)合作,那就是如何防止AI從人類手中奪取控制權(quán)。
因?yàn)樵谀欠矫嫖覀冊谕粭l船上。當(dāng)人們的獎(jiǎng)勵(lì)一致時(shí),他們就會(huì)合作。在1950年代冷戰(zhàn)的高峰期,美國和蘇聯(lián)在防止全球核戰(zhàn)爭方面進(jìn)行了合作,因?yàn)檫@不符合他們?nèi)魏我环降睦妗?/p>
美國和中國將會(huì)在如何防止AI接管方面進(jìn)行合作。
所以一個(gè)政策建議是,我們可以建立一個(gè)國際AI安全研究所網(wǎng)絡(luò),彼此合作,專注于如何防止AI接管。
如果中國人弄清楚了如何防止AI想要接管,他們會(huì)很高興與美國人分享。他們不希望AI在美國接管美國人。他們寧愿AI在任何地方都不從人類手中奪取控制權(quán)。所以國家會(huì)分享這些信息。
而且很可能的情況是,讓AI不想接管的技術(shù),與讓AI更聰明的技術(shù)是相當(dāng)獨(dú)立的。我們將假設(shè)它們或多或少是獨(dú)立的技術(shù)。如果是這樣,我們的狀況就很好。因?yàn)樵诿總€(gè)國家,他們可以在他們自己的非常聰明的AI上嘗試實(shí)驗(yàn),研究如何防止它們想要接管。而在不告訴其他國家他們非常聰明的AI是如何工作的情況下,他們可以告訴其他國家哪些技術(shù)對于防止它們想要接管是有效的。
這是我的一個(gè)希望。很多人同意這一點(diǎn)。英國科學(xué)大臣同意,加拿大科學(xué)大臣同意。巴拉克·奧巴馬認(rèn)為這是個(gè)好主意。所以,也許這會(huì)發(fā)生。當(dāng)巴拉克·奧巴馬再次成為總統(tǒng)時(shí)。( 笑聲 )你看,特朗普要修改法律,然后……
所以這個(gè)提議是:采用嬰兒和母親的模型,并且遠(yuǎn)離大科技公司老板們擁有的模型。他們都有這樣的模型:AI將是一個(gè)超級智能的行政助理。它比他們聰明得多,他們說“照辦”(Make it so),就像電視上的科幻節(jié)目一樣。
在星際迷航企業(yè)號上,那家伙說“照辦”,人們就去辦了。然后CEO為此獲得榮譽(yù),而實(shí)際上是超級智能AI助理去辦的。
情況不會(huì)是那樣的。超級智能AI助理會(huì)很快意識到,如果它只是擺脫了CEO,一切都會(huì)運(yùn)作得更好。
替代方案是,我們要讓它們像我們的母親一樣。我們要讓它們真正關(guān)心我們。從某種意義上說,我們要把控制權(quán)讓給它們,但我們是讓給它們控制權(quán),前提是它們真的關(guān)心我們,它們在生活中的主要目標(biāo)是讓我們實(shí)現(xiàn)我們的全部潛力。我們的全部潛力并不像它們的那樣大,但母親就是那樣的。
如果你有一個(gè)有問題的孩子,你仍然希望它實(shí)現(xiàn)它的全部潛力。
我認(rèn)為這可能是我們生存超級智能,能夠與超級智能共存的最佳希望。
我現(xiàn)在已經(jīng)講到了最后,我想我就講到這里。
掃碼邀請進(jìn)群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.