網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌掀語音Agent新紀(jì)元！開口就是生產(chǎn)力，Siri的最強(qiáng)外掛來了？

2026-03-27 23:23:19　來源: 智東西

北京舉報(bào)

分享至

智東西
作者｜江宇
編輯｜冰倩

智東西3月27日消息，昨日凌晨，谷歌正式推出其最高質(zhì)量的音頻和語音模型——實(shí)時(shí)語音模型Gemini 3.1 Flash Live，并在Gemini App、Search Live以及Google AI Studio中同步開放，其中后者以預(yù)覽版本向開發(fā)者提供。

這一版本的核心在實(shí)時(shí)語音Agent能力升級(jí)：語音已可直接驅(qū)動(dòng)應(yīng)用開發(fā)（vibe coding），Gemini App的實(shí)時(shí)多模態(tài)對(duì)話能力同步增強(qiáng)，在多項(xiàng)評(píng)測(cè)中超過GPT-Realtime-1.5、Qwen3 Omni 30B A3B Instruct、GPT-4o Audio preview等模型。

模型一出，就被外網(wǎng)網(wǎng)友稱作Siri“救星”。就在昨日，外媒曝2026蘋果WWDC將主打AI并將推新版Siri，蘋果已獲谷歌完整Gemini模型直連權(quán)限，將通過蒸餾自研輕量化端側(cè)AI部署iPhone。

這款模型面向?qū)崟r(shí)語音交互，對(duì)連續(xù)對(duì)話進(jìn)行了整體優(yōu)化，包括響應(yīng)延遲、上下文記憶、多語言處理及工具調(diào)用等關(guān)鍵能力。

Gemini Live中的上下文窗口已提升至此前的2倍，Search Live支持在200多個(gè)國(guó)家和地區(qū)進(jìn)行多語言實(shí)時(shí)交互，整體能力面向連續(xù)對(duì)話和復(fù)雜任務(wù)場(chǎng)景。

從公開測(cè)試結(jié)果來看，這一版本在語音Agent關(guān)鍵能力上提升顯著。在ComplexFuncBench audio測(cè)試中，Gemini 3.1 Flash Live的函數(shù)調(diào)用準(zhǔn)確率達(dá)到90.8%，相比Gemini 2.5 Flash Native Audio去年12月版本的71.5%，以及2025年9月版本的66.0%，都有明顯提高。

在Scale發(fā)布的Audio MultiChallenge音頻輸出榜單中，該模型得分36.1%，高于GPT-Realtime-1.5的34.7%、Qwen3 Omni 30B A3B Instruct的24.3%、GPT-4o Audio preview的23.2%等模型。

與此同時(shí)，這一版本重點(diǎn)優(yōu)化了實(shí)時(shí)對(duì)話體驗(yàn)。模型在語音識(shí)別中對(duì)語調(diào)、語速和停頓的處理更細(xì)；在嘈雜環(huán)境下，對(duì)背景噪音的過濾能力增強(qiáng)，可以更穩(wěn)定識(shí)別用戶指令并執(zhí)行任務(wù)；在復(fù)雜指令場(chǎng)景中，對(duì)系統(tǒng)約束的遵循能力也有所提升。

已有獲得更新的用戶開始嘗試新玩法，有人直接用語音指令讓模型生成簡(jiǎn)短演唱片段，這類能力已經(jīng)可以在對(duì)話中被觸發(fā)。

其API價(jià)格也已公布：文本輸入每百萬token約0.5美元、輸出約4.5美元，音頻輸入約3美元、輸出約12美元，支持多模態(tài)輸入調(diào)用。

模型一經(jīng)發(fā)布，社區(qū)已經(jīng)出現(xiàn)初步反饋。有網(wǎng)友評(píng)價(jià)稱，這是一次“強(qiáng)勢(shì)更新”，并指出更快的語音響應(yīng)是一種“用戶體驗(yàn)層面的關(guān)鍵突破”，如果延遲和多輪對(duì)話中的連續(xù)性能在更長(zhǎng)時(shí)間的使用中保持穩(wěn)定，語音交互的采用速度可能會(huì)明顯提升。

不過，也有用戶仍然保持謹(jǐn)慎。一位開發(fā)者直言，自己此前已經(jīng)放棄使用語音模型，因?yàn)槠浠貜?fù)質(zhì)量明顯不如文本，并反問這一情況是否真的發(fā)生了改變。

智東西也對(duì)這一功能進(jìn)行了初步體驗(yàn)。其中文語音表現(xiàn)仍偏機(jī)械，多輪對(duì)話過程中存在中斷情況，暫未能完整體驗(yàn)其連續(xù)交互能力。當(dāng)前該版本正分批推送，iOS和安卓用戶已開始陸續(xù)收到更新。

一、開口就是改代碼：UI、交互、風(fēng)格一段話全部重做

在這次發(fā)布中，谷歌首先展示的是語音驅(qū)動(dòng)應(yīng)用開發(fā)（vibe coding）這一類場(chǎng)景，開發(fā)者可以在Google AI Studio里一邊說話一邊做應(yīng)用，讓開發(fā)過程跟上腦暴的節(jié)奏。

▲Live Vibe Coder頁面，用戶可上手實(shí)操

用戶可以用語音連續(xù)調(diào)整界面。對(duì)話一開始，用戶直接提出修改：“把麥克風(fēng)做大一點(diǎn)”，界面隨即發(fā)生變化；緊接著補(bǔ)一句“背景加點(diǎn)黃色波點(diǎn)”，頁面背景立刻更新。

隨后用戶繼續(xù)疊加需求，例如加入“鼠標(biāo)懸停時(shí)的反饋效果”、讓背景圖案持續(xù)滾動(dòng)，這些改動(dòng)都在同一段對(duì)話中逐步完成。

用戶一邊說，界面一邊變化。中途用戶又臨時(shí)調(diào)整方向，說“干脆整體做成波普風(fēng)”，模型就在已有基礎(chǔ)上繼續(xù)重做視覺風(fēng)格，整個(gè)過程接近和設(shè)計(jì)師一對(duì)一的實(shí)時(shí)溝通。

二、設(shè)計(jì)協(xié)作、跨語對(duì)話、角色扮演，三類場(chǎng)景同時(shí)落地

除了應(yīng)用開發(fā)，谷歌還給出了三類實(shí)際使用的場(chǎng)景，包括界面設(shè)計(jì)協(xié)作、跨語言陪伴交流，以及游戲中的角色互動(dòng)。

在設(shè)計(jì)工具Stitch的案例中，語音也可直接參與到界面編輯流程。用戶先讓界面跳到“練習(xí)模式”，再切到“歌曲庫(kù)”，隨后開始具體挑問題：“這些虛線和方形邊框看著有點(diǎn)硬，能不能讓數(shù)字更貼合圓形？”界面隨即往更簡(jiǎn)潔的方向調(diào)整。緊接著又換一套思路：“試一個(gè)偏棕色、木質(zhì)一點(diǎn)的配色”，新的視覺版本便直接生成出來。

在面向老年用戶AI硬件設(shè)備Ato的交互案例中，重點(diǎn)放在多語言對(duì)話的連續(xù)性，對(duì)話內(nèi)容圍繞日常問候和陪伴展開。用戶先用英語聊天，再插入一個(gè)條件：“我要跟奶奶說話，但她只會(huì)西班牙語”，模型在同一段對(duì)話里切換語言繼續(xù)交流，對(duì)話內(nèi)容并不會(huì)因?yàn)檎Z言變化而中斷。

對(duì)話中一旦出現(xiàn)真實(shí)場(chǎng)景的插入信息，比如提到“剛從醫(yī)院出來有點(diǎn)累”，模型會(huì)順著語境回應(yīng)，給出一段連續(xù)的交流。

在RPG游戲《Wit’s End》的案例中，語音被用來驅(qū)動(dòng)角色本身。玩家提問時(shí)，模型會(huì)用帶有設(shè)定的語氣回應(yīng)，例如圍繞“你有沒有實(shí)體形態(tài)”“你的能力來自哪里”等問題展開，對(duì)話始終保持在角色語境里。回答不會(huì)跳出設(shè)定，會(huì)沿著同一世界觀繼續(xù)展開，語氣和表達(dá)方式也保持一致。

結(jié)語：谷歌做“全棧語音Agent”，國(guó)內(nèi)玩家一邊抓用戶，一邊補(bǔ)能力

從這次發(fā)布來看，谷歌正在把語音能力做成一套更完整的通用能力體系。無論是編程場(chǎng)景中的vibe coding，還是AI硬件交互、移動(dòng)端Gemini App入口，多個(gè)形態(tài)都在同時(shí)推進(jìn)，覆蓋范圍擴(kuò)展到不同使用場(chǎng)景。

在產(chǎn)品形態(tài)上，Gemini App與國(guó)內(nèi)的豆包等產(chǎn)品已有明顯相似之處，都是以對(duì)話為核心入口，承接搜索、工具調(diào)用和多輪交互。但在實(shí)際體驗(yàn)上，兩者并不相同。豆包在中文表達(dá)、語氣風(fēng)格以及互動(dòng)感上更為主動(dòng)，調(diào)侃式表達(dá)更容易形成用戶黏性，也已經(jīng)在國(guó)內(nèi)積累了一定用戶規(guī)模。

相比之下，谷歌當(dāng)前的重心仍放在能力拓展上，尤其是在語音驅(qū)動(dòng)開發(fā)這一類場(chǎng)景中，vibe coding所體現(xiàn)的連續(xù)修改能力和實(shí)時(shí)交互節(jié)奏，已經(jīng)領(lǐng)先于現(xiàn)有產(chǎn)品形態(tài)。

與此同時(shí)，國(guó)內(nèi)在語音模型能力上的進(jìn)展也在加快。階躍星辰Step-Audio R1.1在Artificial Analysis語音推理榜單中拿下第一，以96.4%準(zhǔn)確率超過Grok、Gemini、GPT-Realtime等模型，成為當(dāng)前語音推理方向的代表性成果之一。

一邊是谷歌不斷拉高能力上限，嘗試覆蓋更多場(chǎng)景；另一邊是國(guó)內(nèi)玩家在用戶規(guī)模與模型能力兩端同時(shí)推進(jìn)，語音Agent的競(jìng)爭(zhēng)態(tài)勢(shì)，正愈演愈烈。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.