情感識別不再是分類題：EmotionThinker讓SpeechLLM 學(xué)會解釋情緒

2026-02-25 13:45:15　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

語音情感識別（Speech Emotion Recognition, SER）在過去基本遵循同一種范式：輸入語音，輸出情緒標(biāo)簽。這種設(shè)定在工程上有效，但在認(rèn)知層面卻過于簡化。

在人類交流中，情緒判斷從來不是一個 “標(biāo)簽選擇” 的過程，而是一種基于證據(jù)整合的推理行為。我們會綜合語調(diào)變化、音高起伏、語速快慢、重音位置、語義內(nèi)容，以及說話人的身份特征，去解釋 “為什么” 這是憤怒、“為什么” 這是失落。

因此，一個更根本的問題浮現(xiàn)出來：

SpeechLLM 是否具備像人類一樣解釋 “為什么” 做出情緒判斷的能力？

為此，研究團(tuán)隊(duì)提出了EmotionThinker—— 首個面向可解釋情感推理（Explainable Emotion Reasoning）的強(qiáng)化學(xué)習(xí)框架，嘗試將 SER 從 “分類任務(wù)” 提升為 “多模態(tài)證據(jù)驅(qū)動的推理任務(wù)”。

論文標(biāo)題：EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning

一、從 “情緒分類” 到 “情感推理”

EmotionThinker 首先對語音情感識別任務(wù)本身進(jìn)行了重定義，將其擴(kuò)展為情感推理任務(wù)（Emotion Reasoning）。在新的設(shè)定下，模型不僅需要預(yù)測情緒標(biāo)簽，還需要生成一段解釋，明確指出：

哪些聲學(xué)線索支持這一判斷
哪些語義線索起到關(guān)鍵作用
這些線索如何共同構(gòu)成最終結(jié)論

這種范式轉(zhuǎn)變意味著，模型輸出從 “標(biāo)簽” 升級為 “標(biāo)簽 + 基于證據(jù)的推理”。

它的意義并非簡單延長輸出，而是對優(yōu)化目標(biāo)的重寫。模型不再只需 “預(yù)測正確”，而必須學(xué)習(xí)如何整合韻律、語義與說話人屬性等多模態(tài)信號，并在解釋中體現(xiàn)證據(jù)對齊過程。情緒識別由此從判別問題轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化推理問題。

二、EmotionThinker：

面向可解釋情感推理的框架

EmotionThinker 的目標(biāo)并不局限于提升最終準(zhǔn)確率，而是同時提升三方面能力：

（1）更高的情緒識別準(zhǔn)確率

（2）更強(qiáng)的情緒線索整合與推理能力

（3）更細(xì)粒度的音頻描述能力，覆蓋說話人特征、韻律線索與語義信息

為了支撐這一目標(biāo)，研究團(tuán)隊(duì)首先構(gòu)建了EmotionCoT-35K。這是一個包含 35,000+ 條樣本的 Chain-of-Thought 風(fēng)格數(shù)據(jù)集。與傳統(tǒng) SER 數(shù)據(jù)不同，它不僅提供情緒標(biāo)簽，還提供細(xì)粒度韻律描述與結(jié)構(gòu)化推理解釋。

這些樣本明確標(biāo)注了音高、能量、語速、重音、語調(diào)輪廓等線索如何支持情緒判斷，使模型能夠?qū)W習(xí)到 “證據(jù) — 推理 — 結(jié)論” 之間的對應(yīng)關(guān)系。

與此同時，研究團(tuán)隊(duì)觀察到：若模型的韻律感知能力不足，其情感推理能力將受到系統(tǒng)性限制。因此，研究團(tuán)隊(duì)進(jìn)一步構(gòu)建了一個 EmotionThinker-Base。EmotionThinker-Base 通過監(jiān)督微調(diào)增強(qiáng)模型對音高變化、能量波動、語速模式與重音等結(jié)構(gòu)的感知能力，從而為后續(xù)的推理優(yōu)化提供穩(wěn)定基礎(chǔ)。

三、GRPO-PTR：

讓強(qiáng)化學(xué)習(xí)真正優(yōu)化 “解釋能力”

在將語音情感識別重定義為情感推理之后，一個新的優(yōu)化難題隨之出現(xiàn)：如何在開放式生成場景中，對 “推理質(zhì)量” 進(jìn)行穩(wěn)定強(qiáng)化學(xué)習(xí)？直接將推理獎勵與情緒預(yù)測獎勵簡單疊加，會帶來明顯的噪聲問題。一方面，模型可能生成語言上看似合理但與最終情緒判斷不一致的解釋；另一方面，在訓(xùn)練初期，模型尚未形成穩(wěn)定的聲學(xué) — 語義對齊能力，過強(qiáng)的推理獎勵容易放大早期隨機(jī)偏差，導(dǎo)致策略梯度震蕩。為此，研究團(tuán)隊(duì)提出了 GRPO-PTR（Progressive Trust-aware Reasoning）。

首先，研究團(tuán)隊(duì)采用了漸進(jìn)式推理獎勵調(diào)度。在訓(xùn)練初期，優(yōu)化重點(diǎn)放在情緒預(yù)測的穩(wěn)定性上；隨著模型策略逐步收斂，逐步提高推理獎勵權(quán)重，使模型從 “預(yù)測正確” 過渡到 “解釋合理”。這種 reward scheduling 降低了早期高方差信號對訓(xùn)練穩(wěn)定性的影響。

其次，研究團(tuán)隊(duì)引入基于一致性的可信度加權(quán)機(jī)制。當(dāng)模型生成的推理與最終情緒預(yù)測保持一致時，推理獎勵按完整權(quán)重計(jì)入；當(dāng)二者存在沖突時，推理獎勵自動衰減。該機(jī)制有效緩解了開放式生成任務(wù)中常見的 reward misalignment 問題，使解釋優(yōu)化始終服務(wù)于情緒判斷本身。

從優(yōu)化角度看，GRPO-PTR 解決的是一個更一般的問題：如何在 “預(yù)測 + 解釋” 的多目標(biāo)生成任務(wù)中，使結(jié)構(gòu)化推理與最終決策保持對齊，并在強(qiáng)化學(xué)習(xí)框架下穩(wěn)定收斂。

四、實(shí)驗(yàn)結(jié)果與研究啟示

在多個標(biāo)準(zhǔn)語音情感識別基準(zhǔn)上，EmotionThinker 同時實(shí)現(xiàn)了：

更高的情緒識別準(zhǔn)確率
更優(yōu)的解釋質(zhì)量
更穩(wěn)定的韻律線索整合能力

更重要的是，我們觀察到一個關(guān)鍵現(xiàn)象：當(dāng)模型被顯式訓(xùn)練去對齊聲學(xué)線索與情緒判斷時，其在復(fù)雜情緒場景下的魯棒性顯著增強(qiáng)。這說明，情感理解的瓶頸并不僅僅在語義層面，而在于聲學(xué)與語義信號的協(xié)同建模能力。換句話說：如果模型不能準(zhǔn)確理解 “怎么說”，它就無法穩(wěn)定理解 “是什么情緒”。

結(jié)語

EmotionThinker 并不僅僅是在情感識別任務(wù)上提升準(zhǔn)確率，而是在任務(wù)定義層面完成了一次轉(zhuǎn)變。

情緒識別不應(yīng)只是標(biāo)簽預(yù)測，而應(yīng)是基于多模態(tài)證據(jù)的結(jié)構(gòu)化推理過程。從 “分類” 到 “解釋”，從 “標(biāo)簽” 到 “證據(jù) — 推理 — 結(jié)論” 的一致性對齊，情感理解正在進(jìn)入一個強(qiáng)調(diào)可解釋性與結(jié)構(gòu)協(xié)同的階段。

當(dāng)模型學(xué)會解釋情緒時，它不僅在給出判斷，也在展示其如何整合聲學(xué)與語義線索。

這或許是多模態(tài)大模型邁向真正情感理解能力的重要一步。

作者簡介

本文第一作者為王丁冬，香港中文大學(xué)博士生，研究方向?yàn)檎Z音大模型的口語理解，對話與推理 (Reasoning)，導(dǎo)師為 Helen Meng 教授。本文在微軟劉樹杰博士與Jinyu Li博士的共同指導(dǎo)下完成。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.