![]()
智東西
作者|江宇
編輯|冰倩
智東西3月27日消息,昨日凌晨,谷歌正式推出其最高質(zhì)量的音頻和語音模型——實(shí)時(shí)語音模型Gemini 3.1 Flash Live,并在Gemini App、Search Live以及Google AI Studio中同步開放,其中后者以預(yù)覽版本向開發(fā)者提供。
這一版本的核心在實(shí)時(shí)語音Agent能力升級(jí):語音已可直接驅(qū)動(dòng)應(yīng)用開發(fā)(vibe coding),Gemini App的實(shí)時(shí)多模態(tài)對(duì)話能力同步增強(qiáng),在多項(xiàng)評(píng)測(cè)中超過GPT-Realtime-1.5、Qwen3 Omni 30B A3B Instruct、GPT-4o Audio preview等模型。
模型一出,就被外網(wǎng)網(wǎng)友稱作Siri“救星”。就在昨日,外媒曝2026蘋果WWDC將主打AI并將推新版Siri,蘋果已獲谷歌完整Gemini模型直連權(quán)限,將通過蒸餾自研輕量化端側(cè)AI部署iPhone。
![]()
這款模型面向?qū)崟r(shí)語音交互,對(duì)連續(xù)對(duì)話進(jìn)行了整體優(yōu)化,包括響應(yīng)延遲、上下文記憶、多語言處理及工具調(diào)用等關(guān)鍵能力。
Gemini Live中的上下文窗口已提升至此前的2倍,Search Live支持在200多個(gè)國(guó)家和地區(qū)進(jìn)行多語言實(shí)時(shí)交互,整體能力面向連續(xù)對(duì)話和復(fù)雜任務(wù)場(chǎng)景。
從公開測(cè)試結(jié)果來看,這一版本在語音Agent關(guān)鍵能力上提升顯著。在ComplexFuncBench audio測(cè)試中,Gemini 3.1 Flash Live的函數(shù)調(diào)用準(zhǔn)確率達(dá)到90.8%,相比Gemini 2.5 Flash Native Audio去年12月版本的71.5%,以及2025年9月版本的66.0%,都有明顯提高。
![]()
在Scale發(fā)布的Audio MultiChallenge音頻輸出榜單中,該模型得分36.1%,高于GPT-Realtime-1.5的34.7%、Qwen3 Omni 30B A3B Instruct的24.3%、GPT-4o Audio preview的23.2%等模型。
![]()
與此同時(shí),這一版本重點(diǎn)優(yōu)化了實(shí)時(shí)對(duì)話體驗(yàn)。模型在語音識(shí)別中對(duì)語調(diào)、語速和停頓的處理更細(xì);在嘈雜環(huán)境下,對(duì)背景噪音的過濾能力增強(qiáng),可以更穩(wěn)定識(shí)別用戶指令并執(zhí)行任務(wù);在復(fù)雜指令場(chǎng)景中,對(duì)系統(tǒng)約束的遵循能力也有所提升。
已有獲得更新的用戶開始嘗試新玩法,有人直接用語音指令讓模型生成簡(jiǎn)短演唱片段,這類能力已經(jīng)可以在對(duì)話中被觸發(fā)。
其API價(jià)格也已公布:文本輸入每百萬token約0.5美元、輸出約4.5美元,音頻輸入約3美元、輸出約12美元,支持多模態(tài)輸入調(diào)用。
![]()
模型一經(jīng)發(fā)布,社區(qū)已經(jīng)出現(xiàn)初步反饋。有網(wǎng)友評(píng)價(jià)稱,這是一次“強(qiáng)勢(shì)更新”,并指出更快的語音響應(yīng)是一種“用戶體驗(yàn)層面的關(guān)鍵突破”,如果延遲和多輪對(duì)話中的連續(xù)性能在更長(zhǎng)時(shí)間的使用中保持穩(wěn)定,語音交互的采用速度可能會(huì)明顯提升。
不過,也有用戶仍然保持謹(jǐn)慎。一位開發(fā)者直言,自己此前已經(jīng)放棄使用語音模型,因?yàn)槠浠貜?fù)質(zhì)量明顯不如文本,并反問這一情況是否真的發(fā)生了改變。
![]()
智東西也對(duì)這一功能進(jìn)行了初步體驗(yàn)。其中文語音表現(xiàn)仍偏機(jī)械,多輪對(duì)話過程中存在中斷情況,暫未能完整體驗(yàn)其連續(xù)交互能力。當(dāng)前該版本正分批推送,iOS和安卓用戶已開始陸續(xù)收到更新。
一、開口就是改代碼:UI、交互、風(fēng)格一段話全部重做
在這次發(fā)布中,谷歌首先展示的是語音驅(qū)動(dòng)應(yīng)用開發(fā)(vibe coding)這一類場(chǎng)景,開發(fā)者可以在Google AI Studio里一邊說話一邊做應(yīng)用,讓開發(fā)過程跟上腦暴的節(jié)奏。
![]()
▲Live Vibe Coder頁面,用戶可上手實(shí)操
用戶可以用語音連續(xù)調(diào)整界面。對(duì)話一開始,用戶直接提出修改:“把麥克風(fēng)做大一點(diǎn)”,界面隨即發(fā)生變化;緊接著補(bǔ)一句“背景加點(diǎn)黃色波點(diǎn)”,頁面背景立刻更新。
隨后用戶繼續(xù)疊加需求,例如加入“鼠標(biāo)懸停時(shí)的反饋效果”、讓背景圖案持續(xù)滾動(dòng),這些改動(dòng)都在同一段對(duì)話中逐步完成。
用戶一邊說,界面一邊變化。中途用戶又臨時(shí)調(diào)整方向,說“干脆整體做成波普風(fēng)”,模型就在已有基礎(chǔ)上繼續(xù)重做視覺風(fēng)格,整個(gè)過程接近和設(shè)計(jì)師一對(duì)一的實(shí)時(shí)溝通。
二、設(shè)計(jì)協(xié)作、跨語對(duì)話、角色扮演,三類場(chǎng)景同時(shí)落地
除了應(yīng)用開發(fā),谷歌還給出了三類實(shí)際使用的場(chǎng)景,包括界面設(shè)計(jì)協(xié)作、跨語言陪伴交流,以及游戲中的角色互動(dòng)。
在設(shè)計(jì)工具Stitch的案例中,語音也可直接參與到界面編輯流程。用戶先讓界面跳到“練習(xí)模式”,再切到“歌曲庫(kù)”,隨后開始具體挑問題:“這些虛線和方形邊框看著有點(diǎn)硬,能不能讓數(shù)字更貼合圓形?”界面隨即往更簡(jiǎn)潔的方向調(diào)整。緊接著又換一套思路:“試一個(gè)偏棕色、木質(zhì)一點(diǎn)的配色”,新的視覺版本便直接生成出來。
在面向老年用戶AI硬件設(shè)備Ato的交互案例中,重點(diǎn)放在多語言對(duì)話的連續(xù)性,對(duì)話內(nèi)容圍繞日常問候和陪伴展開。用戶先用英語聊天,再插入一個(gè)條件:“我要跟奶奶說話,但她只會(huì)西班牙語”,模型在同一段對(duì)話里切換語言繼續(xù)交流,對(duì)話內(nèi)容并不會(huì)因?yàn)檎Z言變化而中斷。
對(duì)話中一旦出現(xiàn)真實(shí)場(chǎng)景的插入信息,比如提到“剛從醫(yī)院出來有點(diǎn)累”,模型會(huì)順著語境回應(yīng),給出一段連續(xù)的交流。
在RPG游戲《Wit’s End》的案例中,語音被用來驅(qū)動(dòng)角色本身。玩家提問時(shí),模型會(huì)用帶有設(shè)定的語氣回應(yīng),例如圍繞“你有沒有實(shí)體形態(tài)”“你的能力來自哪里”等問題展開,對(duì)話始終保持在角色語境里。回答不會(huì)跳出設(shè)定,會(huì)沿著同一世界觀繼續(xù)展開,語氣和表達(dá)方式也保持一致。
結(jié)語:谷歌做“全棧語音Agent”,國(guó)內(nèi)玩家一邊抓用戶,一邊補(bǔ)能力
從這次發(fā)布來看,谷歌正在把語音能力做成一套更完整的通用能力體系。無論是編程場(chǎng)景中的vibe coding,還是AI硬件交互、移動(dòng)端Gemini App入口,多個(gè)形態(tài)都在同時(shí)推進(jìn),覆蓋范圍擴(kuò)展到不同使用場(chǎng)景。
在產(chǎn)品形態(tài)上,Gemini App與國(guó)內(nèi)的豆包等產(chǎn)品已有明顯相似之處,都是以對(duì)話為核心入口,承接搜索、工具調(diào)用和多輪交互。但在實(shí)際體驗(yàn)上,兩者并不相同。豆包在中文表達(dá)、語氣風(fēng)格以及互動(dòng)感上更為主動(dòng),調(diào)侃式表達(dá)更容易形成用戶黏性,也已經(jīng)在國(guó)內(nèi)積累了一定用戶規(guī)模。
相比之下,谷歌當(dāng)前的重心仍放在能力拓展上,尤其是在語音驅(qū)動(dòng)開發(fā)這一類場(chǎng)景中,vibe coding所體現(xiàn)的連續(xù)修改能力和實(shí)時(shí)交互節(jié)奏,已經(jīng)領(lǐng)先于現(xiàn)有產(chǎn)品形態(tài)。
與此同時(shí),國(guó)內(nèi)在語音模型能力上的進(jìn)展也在加快。階躍星辰Step-Audio R1.1在Artificial Analysis語音推理榜單中拿下第一,以96.4%準(zhǔn)確率超過Grok、Gemini、GPT-Realtime等模型,成為當(dāng)前語音推理方向的代表性成果之一。
一邊是谷歌不斷拉高能力上限,嘗試覆蓋更多場(chǎng)景;另一邊是國(guó)內(nèi)玩家在用戶規(guī)模與模型能力兩端同時(shí)推進(jìn),語音Agent的競(jìng)爭(zhēng)態(tài)勢(shì),正愈演愈烈。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.