Google宣布在其 Gemini 3.1 系列中推出一款全新的文字轉語音模型 Gemini?TTS,被官方描述為“至今最富表現力的文本轉語音解決方案”。 新模型能夠生成聽感自然、高保真的語音,同時允許開發者通過提示詞(prompt)控制語音的情感、節奏和風格,例如在旁白或對話中精確調節語氣、停頓與情緒變化。
![]()
在多語言支持方面,Gemini?TTS 覆蓋約 70 種語言,包括中文(普通話)、英語、西班牙語、德語、日語等主流語言,模型可自動檢測輸入文本的語種,無須手動標注語言類型即可生成對應語音。 這一能力使得開發者和企業可以在有聲讀物、播客、語音助手、客服機器人、教育應用等場景中,用一套統一的 API 為全球用戶提供多語種語音內容。
Google還強調,Gemini?TTS 與 Gemini 3.1 系列的其他音頻模型(如 Gemini 3.1 Flash Live)協同,進一步強化了“實時語音體驗”的能力。 在實時對話、語音翻譯及多模態交互中,系統可以在保持低延遲的同時,通過文本提示和音頻標記精細控制語音輸出,讓 AI 代理在電話、會議、導航等場景下更接近自然的人類語音交互。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.