4月16日,階躍星辰發布新一代語音生成模型StepAudio 2.5 TTS,并已全量上線其開放平臺。
同樣在4月16日,谷歌發布了Gemini 3.1 Flash TTS,兩者都選擇了自然語言作為控制入口,指向同一個信號,TTS的控制范式正在從“選標簽”轉向“說需求”。
StepAudio 2.5 TTS的核心升級集中在三點。全局語境控制允許用戶用自然語言定義整段語音的情緒基調、角色狀態和場景氛圍;文中語境控制能在句子層面調節語氣、節奏、停頓和呼吸感;零樣本復刻則讓用戶無需重新訓練即可保留目標音色特征,并靈活調整情感與風格。
一個典型場景是用自然語言描述“克制的悲傷、沒有哭腔、輕輕發顫”,模型據此合成對應音色,而傳統TTS只能從預設的“悲傷”標簽中做選擇。
此外,該模型采用自研流式架構,響應延遲控制在200毫秒以內,音色庫覆蓋300余種預設類型,并開放用戶自定義音色上傳。
TTS賽道近年來競爭激烈,格局變化頻繁。ElevenLabs憑借強大的音色復刻能力長期占據創作者市場頭部位置;Inworld TTS 1.5 Max在2026年3月以1236的ELO評分領跑第三方盲測榜單;Smallest.ai的Lightning V3在語調與韻律等關鍵指標上超越了OpenAI和ElevenLabs。
階躍此次的更新路徑,與行業主流方向高度一致,更細膩的情感控制、更低的使用門檻、更自然的語音表現。但真正的變量可能不是技術參數,而是產品定位。
當ElevenLabs深耕創作者生態、Inworld聚焦實時對話代理時,階躍將場景錨定在角色配音、有聲內容創作和智能語音交互,走了一條更偏向內容生產的路線。
但市場最終會獎勵更擅長工具集成的一方,還是更擅長情感細膩度的一方,答案并不清晰。
TTS控制從標簽到自然語言的轉變,本質上是在降低專業門檻。以前調情緒要靠反復錄制,現在用一句話描述就能定義音色的細膩層次。這對專業創作者和普通用戶都是正向變化。
但問題在于,自然語言控制雖然靈活,卻不一定比標簽更高效。對需要快速復現標準語氣的場景來說,選擇預設標簽可能仍然是最直接的方式。自然語言會不會反而增加操作負擔,還有待驗證。
StepAudio 2.5 TTS的技術方向沒有錯,但在一個已經被多家頭部公司定義好規則的市場里,單純的追趕很難創造新的價值。
真正的問題或許是,當所有TTS模型都在追求更高的表現力,用戶最終需要的是更強大的工具,還是更簡單的工具?
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.