OpenAI 前幾天辦了個 Science Week,請了一批科學家來做內部分享。其中一場的主題是「理解動物:AI 幫科學家解讀跨物種語言」
其中講了一個非常具體的故事:用 AI,在抹香鯨的聲音里找到了元音
演講的是Ga?per Begu?,伯克利語言學副教授。他在伯克利帶一個叫「生物與人工語言實驗室」的團隊,同時也是 CETI 項目(鯨魚翻譯計劃)的語言學負責人
演講之后,還有個對談。上來的是Kevin Weil,OpenAI 科學副總裁,之前是 OpenAI 的首席產品官,更早在 Instagram 做產品負責人
![]()
Begu? 在 OpenAI Science Week 演講
Begu? 上來先扔了一個判斷:
在過去 60 年,語言學中的有一個基本假設:只有人類才能學語言 現在,這個假設不成立了
LLM 已經能處理人類語言中最復雜的部分,包括遞歸(把一個結構無限嵌套進另一個結構)和元語言分析(像語言學家一樣畫句法樹、分析句子結構)。他們請語言學博士生來評估,模型表現接近博士水平
如果不是人類也能學語言,那其他生物的交流系統里,可能也有比我們以為的更復雜的東西
然后他講了鯨魚(DeepSeek :應該不是說我)
鯨魚的咔噠聲里藏著元音
抹香鯨靠咔噠聲交流。聽起來像摩爾斯電碼,學界之前也一直這么理解:點擊的數量和時間間隔攜帶信息
下面的這個,是我手機錄的,有點雜音別介意↓
![]()
兩頭抹香鯨游向第三頭鯨,交換咔噠聲
Begu? 團隊做了一件事:把這些咔噠聲喂給他們自己搭的模型,然后打開模型內部,逐個神經元地看它學到了什么
模型確認了兩個已知信息:點擊數量很重要,時間間隔很重要。但它還多說了一句:頻譜也很重要
這是新線索。但從「頻譜重要」到搞清楚頻譜里有什么,中間花了很長時間。Begu? 說有一段時間模型一直在提示頻譜有信息,他們不知道怎么用
直到他們想通了一件事:鯨魚太慢了
人類說話很快,鯨魚的咔噠聲節奏很慢。把鯨魚的點擊聲加速,去掉中間的靜默,調整到更接近人類感知的時間尺度,頻譜上的模式一下子出現了
![]()
人類元音 vs 鯨魚元音的頻譜對比,紅色箭頭指向 formant 條紋
這些模式跟人類元音的頻譜結構幾乎一樣
人類發元音 A 的時候放低下巴,口腔共振頻率的條紋靠得近。發元音 I 的時候舌頭抬高,條紋拉開。鯨魚的咔噠聲里也有這種條紋,目前找到了兩種,團隊把它們叫做 A 元音和 I 元音
發聲機制也類似。人類用聲帶振動,通過改變嘴巴形狀來區分元音。鯨魚用發聲唇(phonic lips)振動,通過改變鼻腔里一個氣囊的形狀來改變頻譜
加速它們的對話之后,能聽到它們在來回交換不同的元音。之前被認為是簡單重復的叫聲,現在知道至少有兩種類型。而且這些頻譜模式在不同海域的鯨魚身上都能重復觀測到
![]()
Pinchy 的對話轉寫,咔噠聲被標注為 A 和 I 元音
這些數據來自多米尼加海岸。Begu? 最喜歡的一頭鯨叫 Pinchy,一位話癆老奶奶,元音結構最早就是在她身上看到的。Begu? 說這些模式清晰到你可以拿紙筆把它們轉寫成人類字母
發現過程:模型告訴你往哪挖,但不幫你挖
Begu? 團隊沒有拿通用大模型去分析鯨魚。他們自己搭了一個基于 GAN 的模型,思路是模擬嬰兒學語言的過程:模型有一個「嘴巴」,需要改變形狀來模仿它聽到的聲音,同時還要傳遞信息
他們叫這個框架「信息性模仿」(informative imitation)
![]()
經過九年義務教育的我們,應該都會說話吧
這個模型先在人類語音上驗證過,腦信號對比實驗顯示模型內部的處理過程跟人腦聽語音時的活動很接近。然后把同一套方法用在鯨魚身上
關鍵是可解釋性。他們用一個叫 CDEF 的技術,能做到單個神經元級別的分析:取出某個神經元,看它編碼了什么,然后因果性地操縱這個神經元來驗證。在這些模型里,單個神經元確實能代表數據中某個有意義的特征
Begu? 反復用了一個說法:AI 在科學發現中的角色是金屬探測器。它告訴你往哪挖,但挖的活兒還是你自己干
回頭看都容易,但當時花了很長時間。他說如果沒有模型一直提示頻譜有信息,他們大概率不會在這個方向上挖這么久
6000 種人類語言不夠用,得讓 AI 再造幾千種
研究動物之前有個實際問題:怎么練習解碼一種你完全不了解的交流系統
Begu? 團隊做了個叫 Conlang Crafter 的管線。多個模型互相配合,自動生成全新的人造語言,從語音到詞法到句法,完整的語法體系,能翻譯句子
Conlang Crafter 生成的外星語言樣本
人類有 6000 到 7000 種語言,但它們之間共性很多。其他物種的交流系統可能跟人類語言完全不同。所以得有練習材料
你可以讓 Conlang Crafter 生成一種由外星頭足類物種使用的語言,音素是顏色值和手勢而非輔音元音,用 ASCII 表示。模型能跑出來
造 Klingon 和 Dothraki 需要語言學家手工干很久。現在這個管線能批量生成,給解碼完全陌生的交流系統提供訓練數據
鯨魚有方言,而且會故意「秀」方言
Begu? 說他聽一分鐘鯨魚交流就能大致判斷它們來自哪片海域
更有意思的是,不同方言群在海洋中碰面時,會故意放大自己的方言特征。跟 1960 年代一個經典語言學研究一樣:Martha's Vineyard 的島民跟外地人說話時口音反而更重,用來強化身份認同
![]()
Begu? 之前發過一篇論文, 大致說: 如果我們聽懂了動物在說什么,現有的法律體系怎么辦
研究團隊還首次錄下了抹香鯨的分娩過程。11 頭雌鯨聚到一起幫忙接生,把新生兒托舉到水面。分娩期間交流量暴增。而且周圍突然出現了大量領航鯨和弗氏海豚,Begu? 說跨物種交流可能比我們以為的更多
模型在發展自己的語言
做可解釋性研究時,Begu? 發現模型被訓練執行高難度任務時,會在內部發展自己的通信協議。一開始團隊看到模型里有些奇怪的靜默,不知道是什么。打開模型內部才發現,模型在用這些靜默傳遞信息
他的判斷是,隨著 Agent 發展,模型之間的通信大概率不會用人類語言,效率不夠。它們會發明自己的協議。理解這些協議需要可解釋性
復雜思維可能不需要語言
Kevin Weil 提了一個問題:推理模型在思考時說話方式完全不同,會自言自語、回溯、糾錯,這算語言嗎
Begu? 覺得更有意思的是另一個現象:你可以訓練一個模型讓它的鏈式思維變成亂碼,推理性能不會大幅下降
如果復雜思維可以在沒有可讀語言的情況下存在,那語言可能只是最外面一層,用來把內部世界傳達給別人
鯨魚可能也是這樣。它們的內部世界可能比它們的「語言」所能表達的要復雜得多
離聽懂你家狗還有多遠
Kevin Weil 說他 9 歲的女兒聽說今天的主題后問了一個問題:我們什么時候能跟狗說話
![]()
Kevin Weil 和 Begu? 討論「能不能跟狗說話」
Begu? 的回答是,我們需要的是一個通道。有些物種天然提供這個通道,比如非洲灰鸚鵡 Alex 能模仿人類語言,科學家通過它發現鸚鵡會計數、能區分形狀和顏色。在 Alex 之前,沒人知道鸚鵡能做到這些
AI 有可能成為其他物種的這種通道。但 Begu? 說他作為語言學家,現階段更想先「聽」,搞清楚它們的系統怎么運作的,而不是急著去「翻譯」
Kevin Weil 接了一句:如果你能解碼狗的語言,你手上就是一家萬億美元公司
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.