![]()
鳥類的啁啾聲、顫音和囀鳴在空氣中回響,而鯨魚的轟鳴聲、"生物彈奏聲"和哨聲則在水下振動。盡管聲音類型和傳播介質(zhì)存在差異,但Google DeepMind開發(fā)的AI音頻模型Perch 2.0都能對鳥鳴和鯨魚發(fā)聲進(jìn)行分類。
作為一個生物聲學(xué)基礎(chǔ)模型,Perch 2.0是基于數(shù)百萬鳥類和其他陸地動物(包括兩棲動物、昆蟲和哺乳動物)的錄音進(jìn)行訓(xùn)練的。然而,當(dāng)研究人員將這個AI模型重新用于鯨魚研究時,其出色表現(xiàn)令他們感到驚訝。
Google DeepMind和Google Research的科學(xué)家們在鯨魚生物聲學(xué)領(lǐng)域已經(jīng)工作了近十年,其成果包括能夠檢測座頭鯨叫聲的算法,以及最近開發(fā)的多物種鯨魚模型,該模型可以識別八個不同物種,并能識別其中兩個物種的多種叫聲。但隨著Perch 2.0的發(fā)布,研究人員萌生了重新利用該模型的想法,以節(jié)省計算時間和實驗努力。
Google Research的數(shù)據(jù)科學(xué)家勞倫·哈雷爾(Lauren Harrell)表示:"如果Perch 2.0在我們的鯨魚使用案例中表現(xiàn)良好,那就意味著我們不需要構(gòu)建一個全新的鯨魚模型,而可以直接在此基礎(chǔ)上進(jìn)行開發(fā)。"
這一理念得到了遷移學(xué)習(xí)技術(shù)的支持,該技術(shù)允許從一種任務(wù)或數(shù)據(jù)類型中獲得的知識應(yīng)用到另一種相關(guān)但不同的任務(wù)中。在這種情況下,Perch 2.0分類鳥鳴的能力可以延伸到分類鯨魚叫聲。從基礎(chǔ)模型進(jìn)行遷移學(xué)習(xí)意味著可以"回收所有已完成的訓(xùn)練,只需在最后為特定使用案例構(gòu)建一個小模型",哈雷爾說。"我們總是在發(fā)現(xiàn)新的叫聲類型。我們總是在學(xué)習(xí)關(guān)于水下聲音的新知識。海洋中有太多神秘的噪音,不能只有一個固定的模型。"
研究團(tuán)隊在三個包含鯨魚聲音和其他水生噪音的海洋音頻數(shù)據(jù)集上評估了Perch 2.0。他們首先將每個五秒鐘的音頻窗口轉(zhuǎn)換為頻譜圖,這是聲音強度在頻率和時間維度上的可視化表示。這些圖像被輸入到模型中,模型產(chǎn)生嵌入向量或特征集,保留數(shù)據(jù)最顯著的屬性,幫助確定座頭鯨和虎鯨哨聲之間的細(xì)微差別。
接下來,科學(xué)家們?yōu)槊總€數(shù)據(jù)集隨機(jī)選擇了少量嵌入向量(最少4個,最多32個)來訓(xùn)練邏輯回歸分類器,這是一種預(yù)測離散結(jié)果的線性模型。去年12月在NeurIPS會議非人類動物交流AI研討會上展示的論文詳細(xì)說明了訓(xùn)練結(jié)果,顯示分類器即使只使用少量嵌入向量也表現(xiàn)良好,并且隨著嵌入向量數(shù)量的增加,性能得到了改善。
研究人員還將Perch 2.0與類似鳥類生物聲學(xué)模型的嵌入向量、前面提到的多物種鯨魚模型,以及在其他動物發(fā)聲和珊瑚礁噪音上訓(xùn)練的模型進(jìn)行了比較。研究結(jié)果表明,Perch 2.0是表現(xiàn)最佳或第二佳的模型,鳥類生物聲學(xué)模型也表現(xiàn)良好。
那么,為什么在鳥類叫聲上訓(xùn)練的模型在鯨類聲音上也表現(xiàn)良好呢?哈雷爾和她的同事們提出了三重理論。
首先,他們考慮了進(jìn)化上的相似性,認(rèn)為鳥類和海洋哺乳動物可能進(jìn)化出了相似的發(fā)聲物理機(jī)制。
其次,他們考慮了規(guī)模定律,即在大量多樣化數(shù)據(jù)上訓(xùn)練的大型模型往往在更具體的域外任務(wù)上也表現(xiàn)良好。
最后,分類鳥類發(fā)聲可能具有挑戰(zhàn)性,這可能迫使模型識別細(xì)粒度的聲學(xué)特征,從而為相關(guān)任務(wù)的預(yù)測提供信息。"我們正在訓(xùn)練這個模型在聲音景觀中找到那些細(xì)微的特征",哈雷爾說。"如果這些特征在某種程度上與水下聲學(xué)也相似,那么它就能在動物發(fā)聲中搜索那些微妙的細(xì)節(jié)。"
例如,虎鯨種群的哨聲"與許多鳥類發(fā)聲處在相同的頻譜圖范圍內(nèi)",哈雷爾解釋說。"但也有許多鳥類、兩棲動物和哺乳動物在發(fā)出低頻叫聲,所以該模型實際上對許多動態(tài)變化都很敏感,這顯然在水下環(huán)境中也表現(xiàn)良好。"
Q&A
Q1:Perch 2.0是什么?它有什么特殊能力?
A:Perch 2.0是Google DeepMind開發(fā)的AI音頻模型,作為生物聲學(xué)基礎(chǔ)模型,最初基于數(shù)百萬鳥類和陸地動物的錄音進(jìn)行訓(xùn)練。令人驚訝的是,它不僅能分類鳥鳴,還能有效識別和分類鯨魚的叫聲。
Q2:為什么訓(xùn)練鳥類聲音的AI模型能識別鯨魚叫聲?
A:研究人員提出三個原因:首先是進(jìn)化相似性,鳥類和海洋哺乳動物可能進(jìn)化出相似的發(fā)聲機(jī)制;其次是大型模型的規(guī)模效應(yīng);最后是鳥類發(fā)聲分類的復(fù)雜性訓(xùn)練了模型識別細(xì)粒度聲學(xué)特征的能力,這些特征在水下聲學(xué)中也適用。
Q3:遷移學(xué)習(xí)在這項研究中起什么作用?
A:遷移學(xué)習(xí)允許將從鳥類聲音分類中獲得的知識應(yīng)用到鯨魚聲音分類上。這意味著研究人員不需要從零開始構(gòu)建新的鯨魚模型,而是可以"回收"已有的訓(xùn)練成果,只需在最后添加一個小的分類器,大大節(jié)省了計算時間和實驗成本。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.