網易首頁 > 網易號 > 正文申請入駐

獨家丨科大訊飛多模態：都說端到端好，看誰有本事先做出來

2024-09-12 19:41:32　來源: 親愛的數據

北京舉報

分享至

01.對咱普通人有啥影響？

第一，這個技術方向上首個國產突破，

且是產品級。

產品做到和演示做到，

區別有多大，

不用多說。

產品級和模型級，

區別有多大，

不用多說。

眾所周知的原因，

OpenAI對我們不Open。

現在想用好AI，只得國產有。

國產AI突破了，

并不意味它就完美了。

作為硬核科技迷妹，

我不能尬吹國產遙遙領先，

同樣也不能說，

不用國產AI不是中國人。

第二，拉高語音嘮嗑水平。

一般來說，

人類和機器人聊天的技術水平變化，

都能感知到，

但是不多。

你若問我：

這個技術能給普通人什么好處？

我只能說體感上，

快是真快。

快是技術能力的直接表現之一。

理解強，要嘮很久才能確定。

對話快，嘮幾句就發現了。

可能有人會說，

沒感到有“提速”。

我只能反駁，

我能從軟件底層系統層面看到明顯提速了。

提速的時間范圍。

三個系統變成一個系統了，

一個系統一秒，

大致是從3秒降低到1秒。

高端科技，就是這么樸實無華。

02.對同賽道廠商啥影響？

技術突破后，沖擊力很大。

畢竟，底層系統變了，

不是功能按鈕變了。

重大更新，名副其實。

以前誰家敢吹機器人語音對話能力強，

過眼云煙。

也就是說，

很多廠商一覺睡醒，

戰火燒到枕頭了。

有新技術的快，

沒新技術的慢。

有新技術的當下1秒，

以后迭代成幾分之一秒。

老技術一頓操作猛如虎，

一看3秒原地杵。

競爭，

如此殘酷。

如果不信，

那就打開手機里的訊飛星火APP，

手指點語音通話，讓超擬人說話，

你會發現，

機器人回復時間（響應時間）變得超快。

如果還想玩，

你使個壞，

瘋狂打斷，

一點禮貌都別講，

你又會發現，

對話又快又機智。

拿起手機感受一下，

否則，我說什么都沒用。

我還問了星火APP，你這是啥設計？

它用女聲告訴我：

“我被設計成，

能連續處理和回應信息流，

即使應答被打斷，

也能從上次的狀態中繼續對話。”

另外，我補充一個產業視角。

任何不溫不火的技術，

只要OpenAI帶個廣告，

立刻頂流，

多模態也不例外。

GPT-4o是美國2024年5月的技術。

那些想緊緊咬住OpenAI的廠商，

最好能盡快拿出成果。

如果拿不出來，

那就相當于承認，

水平不行。

如果一直拿不出來，

那這個破星球，

待著就不痛快了。

為什么？

短短幾個月后，

國內有極少數幾家公司突破這個技術了，

數量應該不超過一只手，就能數清楚，

科大訊飛是其中一家。

那么問題來了，科大訊飛如何實現的？

03.到底是啥技術？

大旗不僅是GPT-4o扯起來的。

還一口氣帶火了三個方向：

圖片視頻語音。

既然文本（模態）已經是必選項，

知名成果是大語言模型，

那么，多模態的“多”字，

還可以有很多選擇，

選圖像，

選視頻，

選語音

選其他傳感器數據，

多模態的每個方向都是一個戰略選擇，

當然，土豪隨意，可選全部，

相信大家都看懂了，

想在哪一個方向上有所突破都不易。

選擇語音，或許就要做到：

語音輸入語音輸出，

它是一個完整的端到端過程。

這意味著，所有轉換在一個系統中完成，

也就是，“語音到語音端到端框架”。

我把這個術語講給一個抖音歷史博主的時候，

他皺了一下眉頭說，

能不能講中文？

技術名稱的確有點復雜。

分開看都認識，

合在一起又不好懂。

語音到語音是指什么？

這個好理解，

就是你說人話，

機器人也對你說人話。

高質量人話，不是智障說話，

本質是輸入什么就輸出什么，

那些處理和轉換，發生在語音信號層面上。

這里有點晦澀，

那從軟件系統方面，可以這樣理解：

傳統老方法，

要三個系統（識別，理解，合成），

串連在一起，

缺一不可。

新方法僅用一個系統。

好比，上30層的高樓，

新方法一個垂直電梯直達了，

老方法

換乘三部電梯。

以一打三。

從結構層面講，老方法時間上當然快不起來

新方法用時短（時延低）。

當然快。

04.短短幾個月就產品化了？

不吹不黑，

快肯定是有技術儲備。

十個恒大也不能一夜起高樓。

大約一年前，

我見到科大訊飛研究院院長劉聰，

特意問了多模態進展。

訊飛特色是在語音方向上有長期積累。

語音這種模態的進展當然想聽他講。

聊下來，他告訴我重視，且布局。

具體不能說得太細。

有些問號，

需要耐心才能畫下句號。

看到結果，

我推測他們儲備了：

第一，大量語音模型對比學習方案。

第二，大量掩碼自監督學習訓練方案。

第三，足夠使用的“特色”數據。

并且，這次“極速超擬人”的發布。

我和研究院的高建清副院長，

以及幾位研究員聊了挺久。

我的推測得到了驗證。

“從模型到上APP，

雖然三到四個月，

但是技術儲備早就開始。

比如，很早以前，訊飛就著手表征預訓練。”

他們對這類方法足夠熟悉，

對語音這種模態也足夠理解。

看到這里，

應該不會再誤以為，

星火APP上，更新了一個小功能。

我甚至看到，有人批評訊飛，

躺在人工智能1.0的功勞簿上。

我再換個視角強調，

為什么說“不小”呢？

那些日常接到的騷擾式推銷電話里的人聲，

還有高德APP導航用的各色語音包，

新老方法，

完全是兩碼事。

要是談技術晦澀，

那就赤裸裸地談錢，

新技術可能讓定制化語音包的成本打骨折。

可能不是在描述發不發生，

而是我不確定是一折還是兩折，

畢竟，我沒有財務成本的底稿。

除了語音，基礎大模型也很關鍵。

此處也不贅述了，

我引用一句高建清副院長對我說的原話：

“我們做的話，

一定是既有語音基礎，

也有認知大模型的基礎。

有這兩個基礎，

我們肯定不會是從頭做。”

所以，他們三到四個月就做出來，

靠的不是走捷徑。

當下，GPT-4o語音能力仍是期貨，

這話不是別人說的，就是我說的。

據說八月中旬是給一些阿爾法用戶開放了，

但是好像大家都還是用不了。

既然科大訊飛做到了，

那么就很有資格，來談他們的認知。

朋友們，請深吸一口氣，

學霸專區到了。

05.獨家特供一：對齊與統一

以一打三的新方法，

總有點硬核技術含量，

“對齊”就是其中一個。

起猛了，

差點看成互聯網大廠黑話。

模態對齊旨在建立對不同模態的共同理解，

它通常將不同模態的語義空間進行對齊。

即在提取含義相近的不同模態數據的特征后，

得到相近的特征向量。

這兩句就寫得很專業了，

我承認，是書上抄來的。

書名是，

《多模態人工智能：

大模型核心原理與關鍵技術》。

理論是理論，

訊飛是實踐。

我總結一下，

三個舊系統不僅慢，

數據形式轉換還會難免丟失很多信息。

而換成現在一個新系統，

信息始終以表征的形式傳遞，

能少損失很多信息。

對齊很關鍵，而對齊又通常是實現統一的一個前提步驟。

另一個，術語“統一”躍入眼簾。

又起猛了，秦始皇統一六國嗎？

字是那個字，

意思不一樣。

這確實是AI技術術語。

專業上，統一是通過共享的表示和架構，

來整合和處理不同模態的數據，

從而實現多種能力。

比如模型可以看圖片，看電影。

你咳嗽兩聲，機器人也能聽懂。

問你需不需要醫療廣告。

扯遠了，

簡單說，既要又要，

既要會這個，又要會那個。

以前都是分開幾個語音模型來干的，

這種分開的語音模型，

門檻低，

開源多，

效果也就這樣了。

有了大語言模型之后，

效果上了個臺階。

語音模型加上大語言模型的能力，

這個進展互聯網大廠都積極跟進了。

用大上語言模型，

反正正確率都提升。

我來列幾個近期的：

字節跳動的兩個，

Seed-ASR和Seed-TTS。

名字前綴都一樣。

而阿里巴巴通義實驗室也有兩個，

SenseVoice和CosyVoice。

對不起，我又扯遠了，

這些都不是新方法，

這些和“語音到語音端到端”是兩碼事。

我只想告訴你，抵達新技術，

沒有那么容易，

你把大語言模型搬過來能有一些用，

但也不是現階段的最好。

為什么？

因為沒有“統一”。

“”統一能干啥？

能解決原有缺陷。

你把語音轉成文字，

那些音調音色語氣情緒之類的信息都丟棄了。

一個“啊”的聲音，就可能有多個意思，

轉成文字，就一個啊字。

語音多模態模型在保留音調、音色、語氣和情緒等特征時，

面臨的問題是，

如何將以上這些信息統一到一起處理，

這真是一個好問題。

06.獨家特供二：解耦

先談解耦的產品形態是什么樣的？

拿能成本打骨折的高德語音包為例，

以前于謙語音包上架高德地圖，

郭德綱“隔空懟”，不推薦下載。

現在要是這個語音包用能解耦的技術來做，

會是什么樣的呢？

于謙還說同樣的話，燙同樣的頭，

語氣，音色都不變，

我改“語種”屬性，

于老師的話就變成了，英語，日語等語種。

而其他都不變。

“于謙為你導航，

關閉郭德綱模式”。

"Yu Qian is navigating for you,

turning off Guo Degang mode."

語音語調請讀者自行腦補。

估計郭德綱聽了，更不推薦下載。

當然，這有賴于，

新技術是做到了能把“語種”屬性拆出來。

這是我的理解。

原理是，人們交流用說話的語言（語種表征），

內容（內容表征），

還會用節奏語調（韻律表征）

和說話者的聲音（音色表征），

來捕捉和傳遞語音中的全部信息。

俗稱，弦外之音，言外之意。

好的，幾句話把訊飛解耦語音表征講完了。

下課。

等一下，

如果你仍有強烈的求知欲，

我就往下講，

原理看似晦澀，其實一點也不簡單。

高建清副院長告訴我，

“語音里面，

哪些是說話的內容，

哪些是說話人的音色，

哪些是韻律，

哪些是情感。

充分解耦出來，

再通過某種編碼的方式送到基礎大模型里。”

解耦異常重要。

究竟解耦了什么？

解耦了語音的屬性。

為什么這么做?

我認為是為了更好地控制。

語音天然有很多屬性，

你想控制好，訊飛拿出的思路是解耦，

至于如何解耦，

解耦的程度，

怎么樣既分開，

下游任務又可以用得好。

屬性之間的微妙之處怎么把握。

那是人家的知識產權。

能理解到這一步的讀者，

應該能看到科學家花了多少心思，

而我只能帶著大家到科大訊飛研究院的門口了，

至于實驗室里的秘密，

智者求知，取用有規。

總之，解耦做得好，后面的控制會做得更好。

方言，韻律，音色都可以分開精細化控制。

解耦還有一個優點，

下游和產品特點關聯設計的時候，

連成本都能控制得更好。

這一點做到非常難，

但確實做到了。

07.獨家特供三：大神經網絡

我有個問題，

這么硬核的思路中，哪個最關鍵？

作為一個學渣，我認為都關鍵，

否則我也不會寫了好幾章。

而高建清副院長給我的答案是：

“在充分理解語音屬性的基礎上，

取舍和平衡是我們技術里面最關鍵的一部分。

算法，也許不是最關鍵的。”

他怕我沒有理解，

甚至他后面特意強調了第二遍。

我懷疑，他想把我教會。

而且我有證據。

既然新系統時間就是生命。

為了快，想盡一切辦法。

我們假設這個目標時間是1秒。

真實的毫秒數，

并不能透露。

反正，“快”既是技術能力的體現，

又是用戶爽感的要求。

總結新方法的三個特點，

第一，該取舍就取舍。

要快的話，

有時候看重語音里面的情緒，

有時候更看重文本的這個情緒。

不同屬性表征之間取舍，

可以讓模型自己學。

你不能解耦就不能精確控制，

但是這還沒完，

難度還在于，模型怎么自學。

不得不感慨，

這確實是整個系統中的一大難點。

第二，該實時就實時。

語音經過編碼器提取出來的語音表征，

這個過程是實時的。

要快的話，

實時對很多做語音算法小哥哥來說豪不陌生。

以現在AI產品的要求，

這個組件大多實時的

你講完再識別，

沒時間了。

第三，該打斷就打斷。

打斷能省時間，

但打斷要有水平。

意思表達完了才能打斷。

魯莽打斷，實在找抽。

高建清副院長的原話是：

“如果不打斷肯定這個系統就慢了。

所以打斷時機是非常關鍵的，

這個也是一個很難的一個問題。”

只有很好地處理打斷，

系統才能“反應快速”，

機器人可以隨時打斷用戶，

用戶也可以隨時打斷機器人，

人機公平沒在烏托邦實現，

在這里實現了。

“打斷背后到底是在解決一件什么事情？”

我向高院長提問。

他告訴我，這是一個理解的問題，

比如，人和人聊天，

什么時候該打斷，

基于你已經表達完了的判斷，

他還告訴我：

“我們對此單獨設計，

并不只靠認知大模型能力做到。

這是效果和響應時間的一個平衡的問題。

任務的定義是，

判斷什么時候該打斷了。”

訊飛語音到語音端到端多模態整個系統，

我們把它當做一個大的神經網絡，

不同組件的工作過程是：

第一步，準備。

需要語音經過編碼器提前提取出來語音表征，

第二步，適配器。

適配器這個東西，

我管它叫“插座”，

如果你了解圖文多模態。

那就一點也不陌生了，

都有這個玩意。

這里適配器把語音表征跟文本表征去做語義對齊，

拉到一個空間上。

第三步，

全名叫做“訊飛語音屬性解耦表征訓練”，

用到了對比學習，掩碼預測等方法。

第四步，

把上一步訓練得到的表征接入給大語言模型，

預測表征。簡單的做法還可以把大模型凍結住，

然而，訊飛怎么會用這種方法呢。

肯定是一起訓練，效果才更好。

第五步，

再經過語音解碼器解碼成語音。

講完了，我留下一道附（送）加（命）題，

技術很快（8月30日）上線訊飛星火APP，

模型的參數盡量地考慮了性價比，

畢竟，支撐全量產品。

訊飛判斷，端到端技術，

以語音模態應用場景更多，

更有用處。

這是他們做這個事情的出發點。

08.故事的最后

我想多談兩句算力，

AI離不開算力，

眾所周知的原因，

科大訊飛用不了美國的GPU。

有幸，他們向我談起了一些細節，

在與華為聯合團隊的大背景下，

23年下半年聯合攻關團隊的規模很大，

很多華為的兄弟一線現場支持，

現在基礎大模型跑得很好，

目前算力集群訓練能夠達到英偉達90%以上的性能。

困難像潮水，想把人的意志力打成砂礫。

語音特征和認知特征不同，

是非常密集的信號，有很多獨特的難題，

適配過程非常困難。

如是，此次攻堅難度比上次更大，

僅是華為昇騰算子方面，

打磨出的語音模型算子的數量級大概是幾百個。

一場少見的酣暢的交流，

我也希望能把信息盡量保真地帶給讀者。

他們從始至終語速適中，

平和且堅定，

仿佛哪怕難題不斷在視野中出現，

也時刻準備好了，

總有下一個目標，

下一場戰斗。

（完）

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

伊朗最高領袖：將繼續利用封鎖霍爾木茲海峽這一戰略杠桿

國際在線

2026-04-06 06:53:08

超開拓者升第8！小卡連54場20+快船大勝國王德羅贊總分超大O

醉臥浮生

2026-04-06 11:20:42

毛新宇被攙扶著回鄉祭祖：高顏值妻女照片流出，墓前講話內容披露

溫柔看世界

2026-04-05 11:45:50

材料學家、中山大學教授陳振興逝世，享年60歲

澎湃新聞

2026-04-05 19:02:27

女子孕35周狂吃炸雞漢堡，一周胖10斤，抽出“草莓牛奶”血，急送ICU；浙江醫院：情況緊急，必須立即終止妊娠

環球網資訊

2026-04-06 08:38:11

張雪機車創始人自曝：兩日本零件制約國產率達100%

掉了顆大白兔糖

2026-04-06 10:59:19

韓媒：瀕臨崩盤的中國乒乓球“躲過”恥辱；日媒：團體賽擊敗中國不是夢

去山野間追風

2026-04-06 10:40:48

鄰居蹭我車旅游，剛上車就立規矩，我假裝買東西把她丟在服務區

水泥土的搞笑

2026-04-06 09:36:37

“所有品類都要漲，最高可能30%！”多個品牌店員透露：最好4月中旬前買

新浪財經

2026-04-05 10:51:13

韓國總統就“無人機入朝事件”向朝鮮表示遺憾

環球網資訊

2026-04-06 12:34:20

李亞鵬含沙射影，官媒下場無縫銜接配合，陳光標遮羞布被撕得粉碎

潮鹿逐夢

2026-04-05 16:56:45

“還真把自己當盤菜了”，北京職高女被全網嘲笑，含金量0人買單

妍妍教育日記

2026-04-06 09:15:12

張雪機車最新股權架構

壹號股權

2026-04-06 10:18:22

金昊被執行死刑，最后悔的就是他的母親張杰了，過度溺愛等于害

魔都姐姐雜談

2026-04-05 12:59:20

一輛無法上牌的布加迪威航竟拍出1305萬元，輔拍機構：買家只能用拖車拖走，作收藏或展示等用途

極目新聞

2026-04-06 11:33:54

伊朗公布擊落 12架美戰機名單

每日經濟新聞

2026-04-06 09:28:33

爭議！18歲日本新星拒絕與王楚欽握手+全程黑臉合影時遠離王楚欽

念洲

2026-04-06 06:14:24

這招太狠，美國撤銷伊朗高級官員親屬居留權并將其驅逐出境

山河路口

2026-04-05 00:00:03

趙心童10-3橫掃小特！7次決賽全奪冠，最新世界排名：丁俊暉第16

球場沒跑道

2026-04-06 04:49:22

研究表明：性生活越頻繁，射精和勃起問題越少！

黯泉

2026-04-05 20:40:12

親愛的數據

《我看見了風暴：人工智能基建革命》一書作者

693文章數 219913關注度

往期回顧全部

科技要聞

前同事被蒸餾成Token，AI能否偷走職場經驗

頭條要聞

特朗普希望7日前與伊朗達成協議專家:實現可能性較低

頭條要聞

特朗普希望7日前與伊朗達成協議專家:實現可能性較低

體育要聞

球員系列賽大滿貫！趙心童10-3世界第一加冕賽季第4冠

娛樂要聞

喬任梁離世10年父母曝舞臺光鮮的背后

財經要聞

118噸！這家央行，大幅拋售黃金！

汽車要聞

家用SUV沒駕駛樂趣?極氪8X第一個不同意

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

房產

藝術

手機

本地

手機 / 數碼

房產 / 家居

獨家丨科大訊飛多模態：都說端到端好，看誰有本事先做出來

前同事被蒸餾成Token，AI能否偷走職場經驗

特朗普希望7日前與伊朗達成協議 專家:實現可能性較低

特朗普希望7日前與伊朗達成協議 專家:實現可能性較低

球員系列賽大滿貫！趙心童10-3世界第一 加冕賽季第4冠

喬任梁離世10年 父母曝舞臺光鮮的背后

118噸！這家央行，大幅拋售黃金！

家用SUV沒駕駛樂趣?極氪8X第一個不同意

態度原創

干細胞抗衰4大誤區,90%的人都中招

小陽春全面啟動！現房，才是這波行情里最穩的上車票

20位中國當代名家的25幅油畫

澎湃OS3新進展：小米17 Pro Max手機背屏拍照預覽問題已優化

跟著歌聲游安徽，聽古村回響

特朗普希望7日前與伊朗達成協議專家:實現可能性較低

特朗普希望7日前與伊朗達成協議專家:實現可能性較低

球員系列賽大滿貫！趙心童10-3世界第一加冕賽季第4冠

喬任梁離世10年父母曝舞臺光鮮的背后