![]()
![]()
01.對咱普通人有啥影響?
第一,這個技術方向上首個國產突破,
且是產品級。
產品做到和演示做到,
區別有多大,
不用多說。
產品級和模型級,
區別有多大,
不用多說。
眾所周知的原因,
OpenAI對我們不Open。
現在想用好AI,只得國產有。
國產AI突破了,
并不意味它就完美了。
作為硬核科技迷妹,
我不能尬吹國產遙遙領先,
同樣也不能說,
不用國產AI不是中國人。
第二,拉高語音嘮嗑水平。
一般來說,
人類和機器人聊天的技術水平變化,
都能感知到,
但是不多。
你若問我:
這個技術能給普通人什么好處?
我只能說體感上,
快是真快。
快是技術能力的直接表現之一。
理解強,要嘮很久才能確定。
對話快,嘮幾句就發現了。
可能有人會說,
沒感到有“提速”。
我只能反駁,
我能從軟件底層系統層面看到明顯提速了。
提速的時間范圍。
三個系統變成一個系統了,
一個系統一秒,
大致是從3秒降低到1秒。
高端科技,就是這么樸實無華。
02.對同賽道廠商啥影響?
技術突破后,沖擊力很大。
畢竟,底層系統變了,
不是功能按鈕變了。
重大更新,名副其實。
以前誰家敢吹機器人語音對話能力強,
過眼云煙。
也就是說,
很多廠商一覺睡醒,
戰火燒到枕頭了。
有新技術的快,
沒新技術的慢。
有新技術的當下1秒,
以后迭代成幾分之一秒。
老技術一頓操作猛如虎,
一看3秒原地杵。
競爭,
如此殘酷。
如果不信,
那就打開手機里的訊飛星火APP,
手指點語音通話,讓超擬人說話,
你會發現,
機器人回復時間(響應時間)變得超快。
如果還想玩,
你使個壞,
瘋狂打斷,
一點禮貌都別講,
你又會發現,
對話又快又機智。
拿起手機感受一下,
否則,我說什么都沒用。
我還問了星火APP,你這是啥設計?
它用女聲告訴我:
“我被設計成,
能連續處理和回應信息流,
即使應答被打斷,
也能從上次的狀態中繼續對話。”
另外,我補充一個產業視角。
任何不溫不火的技術,
只要OpenAI帶個廣告,
立刻頂流,
多模態也不例外。
GPT-4o是美國2024年5月的技術。
那些想緊緊咬住OpenAI的廠商,
最好能盡快拿出成果。
如果拿不出來,
那就相當于承認,
水平不行。
如果一直拿不出來,
那這個破星球,
待著就不痛快了。
為什么?
短短幾個月后,
國內有極少數幾家公司突破這個技術了,
數量應該不超過一只手,就能數清楚,
科大訊飛是其中一家。
那么問題來了,科大訊飛如何實現的?
03.到底是啥技術?
大旗不僅是GPT-4o扯起來的。
還一口氣帶火了三個方向:
圖片視頻語音。
既然文本(模態)已經是必選項,
知名成果是大語言模型,
那么,多模態的“多”字,
還可以有很多選擇,
選圖像,
選視頻,
選語音
選其他傳感器數據,
多模態的每個方向都是一個戰略選擇,
當然,土豪隨意,可選全部,
相信大家都看懂了,
想在哪一個方向上有所突破都不易。
選擇語音,或許就要做到:
語音輸入語音輸出,
它是一個完整的端到端過程。
這意味著,所有轉換在一個系統中完成,
也就是,“語音到語音端到端框架”。
我把這個術語講給一個抖音歷史博主的時候,
他皺了一下眉頭說,
能不能講中文?
技術名稱的確有點復雜。
分開看都認識,
合在一起又不好懂。
![]()
語音到語音是指什么?
這個好理解,
就是你說人話,
機器人也對你說人話。
高質量人話,不是智障說話,
本質是輸入什么就輸出什么,
那些處理和轉換,發生在語音信號層面上。
這里有點晦澀,
那從軟件系統方面,可以這樣理解:
傳統老方法,
要三個系統(識別,理解,合成),
串連在一起,
缺一不可。
新方法僅用一個系統。
好比,上30層的高樓,
新方法一個垂直電梯直達了,
老方法
換乘三部電梯。
以一打三。
從結構層面講,老方法時間上當然快不起來
新方法用時短(時延低)。
當然快。
04.短短幾個月就產品化了?
不吹不黑,
快肯定是有技術儲備。
十個恒大也不能一夜起高樓。
大約一年前,
我見到科大訊飛研究院院長劉聰,
特意問了多模態進展。
訊飛特色是在語音方向上有長期積累。
語音這種模態的進展當然想聽他講。
聊下來,他告訴我重視,且布局。
具體不能說得太細。
有些問號,
需要耐心才能畫下句號。
看到結果,
我推測他們儲備了:
第一,大量語音模型對比學習方案。
第二,大量掩碼自監督學習訓練方案。
第三,足夠使用的“特色”數據。
并且,這次“極速超擬人”的發布。
我和研究院的高建清副院長,
以及幾位研究員聊了挺久。
我的推測得到了驗證。
“從模型到上APP,
雖然三到四個月,
但是技術儲備早就開始。
比如,很早以前,訊飛就著手表征預訓練。”
他們對這類方法足夠熟悉,
對語音這種模態也足夠理解。
看到這里,
應該不會再誤以為,
星火APP上,更新了一個小功能。
我甚至看到,有人批評訊飛,
躺在人工智能1.0的功勞簿上。
我再換個視角強調,
為什么說“不小”呢?
那些日常接到的騷擾式推銷電話里的人聲,
還有高德APP導航用的各色語音包,
新老方法,
完全是兩碼事。
要是談技術晦澀,
那就赤裸裸地談錢,
新技術可能讓定制化語音包的成本打骨折。
可能不是在描述發不發生,
而是我不確定是一折還是兩折,
畢竟,我沒有財務成本的底稿。
除了語音,基礎大模型也很關鍵。
此處也不贅述了,
我引用一句高建清副院長對我說的原話:
“我們做的話,
一定是既有語音基礎,
也有認知大模型的基礎。
有這兩個基礎,
我們肯定不會是從頭做。”
所以,他們三到四個月就做出來,
靠的不是走捷徑。
當下,GPT-4o語音能力仍是期貨,
這話不是別人說的,就是我說的。
據說八月中旬是給一些阿爾法用戶開放了,
但是好像大家都還是用不了。
既然科大訊飛做到了,
那么就很有資格,來談他們的認知。
朋友們,請深吸一口氣,
學霸專區到了。
05.獨家特供一:對齊與統一
以一打三的新方法,
總有點硬核技術含量,
“對齊”就是其中一個。
起猛了,
差點看成互聯網大廠黑話。
模態對齊旨在建立對不同模態的共同理解,
它通常將不同模態的語義空間進行對齊。
即在提取含義相近的不同模態數據的特征后,
得到相近的特征向量。
這兩句就寫得很專業了,
我承認,是書上抄來的。
書名是,
《多模態人工智能:
大模型核心原理與關鍵技術》。
理論是理論,
訊飛是實踐。
我總結一下,
三個舊系統不僅慢,
數據形式轉換還會難免丟失很多信息。
而換成現在一個新系統,
信息始終以表征的形式傳遞,
能少損失很多信息。
對齊很關鍵,而對齊又通常是實現統一的一個前提步驟。
另一個,術語“統一”躍入眼簾。
又起猛了,秦始皇統一六國嗎?
字是那個字,
意思不一樣。
這確實是AI技術術語。
專業上,統一是通過共享的表示和架構,
來整合和處理不同模態的數據,
從而實現多種能力。
比如模型可以看圖片,看電影。
你咳嗽兩聲,機器人也能聽懂。
問你需不需要醫療廣告。
扯遠了,
簡單說,既要又要,
既要會這個,又要會那個。
以前都是分開幾個語音模型來干的,
這種分開的語音模型,
門檻低,
開源多,
效果也就這樣了。
有了大語言模型之后,
效果上了個臺階。
語音模型加上大語言模型的能力,
這個進展互聯網大廠都積極跟進了。
用大上語言模型,
反正正確率都提升。
我來列幾個近期的:
字節跳動的兩個,
Seed-ASR和Seed-TTS。
名字前綴都一樣。
而阿里巴巴通義實驗室也有兩個,
SenseVoice和CosyVoice。
對不起,我又扯遠了,
這些都不是新方法,
這些和“語音到語音端到端”是兩碼事。
我只想告訴你,抵達新技術,
沒有那么容易,
你把大語言模型搬過來能有一些用,
但也不是現階段的最好。
為什么?
因為沒有“統一”。
“”統一能干啥?
能解決原有缺陷。
你把語音轉成文字,
那些音調音色語氣情緒之類的信息都丟棄了。
一個“啊”的聲音,就可能有多個意思,
轉成文字,就一個啊字。
![]()
語音多模態模型在保留音調、音色、語氣和情緒等特征時,
面臨的問題是,
如何將以上這些信息統一到一起處理,
這真是一個好問題。
06.獨家特供二:解耦
先談解耦的產品形態是什么樣的?
拿能成本打骨折的高德語音包為例,
以前于謙語音包上架高德地圖,
郭德綱“隔空懟”,不推薦下載。
現在要是這個語音包用能解耦的技術來做,
會是什么樣的呢?
于謙還說同樣的話,燙同樣的頭,
語氣,音色都不變,
我改“語種”屬性,
于老師的話就變成了,英語,日語等語種。
而其他都不變。
“于謙為你導航,
關閉郭德綱模式”。
"Yu Qian is navigating for you,
turning off Guo Degang mode."
語音語調請讀者自行腦補。
估計郭德綱聽了,更不推薦下載。
![]()
當然,這有賴于,
新技術是做到了能把“語種”屬性拆出來。
這是我的理解。
原理是,人們交流用說話的語言(語種表征),
內容(內容表征),
還會用節奏語調(韻律表征)
和說話者的聲音(音色表征),
來捕捉和傳遞語音中的全部信息。
俗稱,弦外之音,言外之意。
好的,幾句話把訊飛解耦語音表征講完了。
下課。
等一下,
如果你仍有強烈的求知欲,
我就往下講,
原理看似晦澀,其實一點也不簡單。
高建清副院長告訴我,
“語音里面,
哪些是說話的內容,
哪些是說話人的音色,
哪些是韻律,
哪些是情感。
充分解耦出來,
再通過某種編碼的方式送到基礎大模型里。”
解耦異常重要。
究竟解耦了什么?
解耦了語音的屬性。
為什么這么做?
我認為是為了更好地控制。
語音天然有很多屬性,
你想控制好,訊飛拿出的思路是解耦,
至于如何解耦,
解耦的程度,
怎么樣既分開,
下游任務又可以用得好。
屬性之間的微妙之處怎么把握。
那是人家的知識產權。
能理解到這一步的讀者,
應該能看到科學家花了多少心思,
而我只能帶著大家到科大訊飛研究院的門口了,
至于實驗室里的秘密,
智者求知,取用有規。
總之,解耦做得好,后面的控制會做得更好。
方言,韻律,音色都可以分開精細化控制。
解耦還有一個優點,
下游和產品特點關聯設計的時候,
連成本都能控制得更好。
這一點做到非常難,
但確實做到了。
07.獨家特供三:大神經網絡
我有個問題,
這么硬核的思路中,哪個最關鍵?
作為一個學渣,我認為都關鍵,
否則我也不會寫了好幾章。
而高建清副院長給我的答案是:
“在充分理解語音屬性的基礎上,
取舍和平衡是我們技術里面最關鍵的一部分。
算法,也許不是最關鍵的。”
他怕我沒有理解,
甚至他后面特意強調了第二遍。
我懷疑,他想把我教會。
而且我有證據。
既然新系統時間就是生命。
為了快,想盡一切辦法。
我們假設這個目標時間是1秒。
真實的毫秒數,
并不能透露。
反正,“快”既是技術能力的體現,
又是用戶爽感的要求。
總結新方法的三個特點,
第一,該取舍就取舍。
要快的話,
有時候看重語音里面的情緒,
有時候更看重文本的這個情緒。
不同屬性表征之間取舍,
可以讓模型自己學。
你不能解耦就不能精確控制,
但是這還沒完,
難度還在于,模型怎么自學。
不得不感慨,
這確實是整個系統中的一大難點。
第二,該實時就實時。
語音經過編碼器提取出來的語音表征,
這個過程是實時的。
要快的話,
實時對很多做語音算法小哥哥來說豪不陌生。
以現在AI產品的要求,
這個組件大多實時的
你講完再識別,
沒時間了。
第三,該打斷就打斷。
打斷能省時間,
但打斷要有水平。
意思表達完了才能打斷。
魯莽打斷,實在找抽。
高建清副院長的原話是:
“如果不打斷肯定這個系統就慢了。
所以打斷時機是非常關鍵的,
這個也是一個很難的一個問題。”
只有很好地處理打斷,
系統才能“反應快速”,
機器人可以隨時打斷用戶,
用戶也可以隨時打斷機器人,
人機公平沒在烏托邦實現,
在這里實現了。
“打斷背后到底是在解決一件什么事情?”
我向高院長提問。
他告訴我,這是一個理解的問題,
比如,人和人聊天,
什么時候該打斷,
基于你已經表達完了的判斷,
他還告訴我:
“我們對此單獨設計,
并不只靠認知大模型能力做到。
這是效果和響應時間的一個平衡的問題。
任務的定義是,
判斷什么時候該打斷了。”
訊飛語音到語音端到端多模態整個系統,
我們把它當做一個大的神經網絡,
不同組件的工作過程是:
第一步,準備。
需要語音經過編碼器提前提取出來語音表征,
第二步,適配器。
適配器這個東西,
我管它叫“插座”,
如果你了解圖文多模態。
那就一點也不陌生了,
都有這個玩意。
這里適配器把語音表征跟文本表征去做語義對齊,
拉到一個空間上。
第三步,
全名叫做“訊飛語音屬性解耦表征訓練”,
用到了對比學習,掩碼預測等方法。
第四步,
把上一步訓練得到的表征接入給大語言模型,
預測表征。簡單的做法還可以把大模型凍結住,
然而,訊飛怎么會用這種方法呢。
肯定是一起訓練,效果才更好。
第五步,
再經過語音解碼器解碼成語音。
講完了,我留下一道附(送)加(命)題,
![]()
技術很快(8月30日)上線訊飛星火APP,
模型的參數盡量地考慮了性價比,
畢竟,支撐全量產品。
訊飛判斷,端到端技術,
以語音模態應用場景更多,
更有用處。
這是他們做這個事情的出發點。
08.故事的最后
我想多談兩句算力,
AI離不開算力,
眾所周知的原因,
科大訊飛用不了美國的GPU。
有幸,他們向我談起了一些細節,
在與華為聯合團隊的大背景下,
23年下半年聯合攻關團隊的規模很大,
很多華為的兄弟一線現場支持,
現在基礎大模型跑得很好,
目前算力集群訓練能夠達到英偉達90%以上的性能。
困難像潮水,想把人的意志力打成砂礫。
語音特征和認知特征不同,
是非常密集的信號,有很多獨特的難題,
適配過程非常困難。
如是,此次攻堅難度比上次更大,
僅是華為昇騰算子方面,
打磨出的語音模型算子的數量級大概是幾百個。
一場少見的酣暢的交流,
我也希望能把信息盡量保真地帶給讀者。
他們從始至終語速適中,
平和且堅定,
仿佛哪怕難題不斷在視野中出現,
也時刻準備好了,
總有下一個目標,
下一場戰斗。
(完)
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.