兩周前,Google和三星宣布了一個讓科技圈炸鍋的消息:Gemini(谷歌的生成式人工智能助手)要在Galaxy S26 Ultra上實現(xiàn)真正的任務自動化——不是語音助手那種"打開App",而是讓AI替你完成點餐、叫車全流程。當時這個功能還沒上線,作者Allison Johnson拿到測試機時只能干瞪眼。現(xiàn)在beta版推送了,她的第一反應是:"看著手機自己操作自己,太詭異了。"
實測一:叫車去機場
第一個測試指令很簡單:"叫輛Uber去機場"。
Gemini先確認了一個關(guān)鍵細節(jié)——哪個機場?這步判斷很重要,說明它不是無腦執(zhí)行,而是在做意圖澄清。確認目的地后,AI開始自主操作:輸入地址、跳過"填寫航空公司"的選項(作者當?shù)貦C場只有一個航站樓,這步確實多余)。
系統(tǒng)在最終下單前停了下來,彈出確認界面讓作者檢查。這是設計上的安全閘——AI可以跑腿,但花錢的決策權(quán)還在人手里。
整個流程在"虛擬窗口"里完成,用戶能看到Gemini一步步點擊、滑動,像在看手機自己演獨角戲。
![]()
實測二:點咖啡比叫車更難
第二個測試提高了難度:"點一杯咖啡和一個可頌"。
這次AI花了更長時間——在星巴克的熱飲菜單里瘋狂滾動,最后找到了"澳白"(flat white)。但真正的考驗是:巧克力可頌要加熱還是直接裝袋?
Gemini沒問作者,自己做了判斷:加熱。而且選對了。
作者特意點出這個細節(jié)的分量:就在一年前,Gemini還會為了日歷里的航班細節(jié)跟她抬杠。現(xiàn)在它不僅能理解"咖啡+可頌"這種模糊指令,還能在缺乏明確信息時做出合理推測。
技術(shù)拆解:為什么是"虛擬窗口"
![]()
這套系統(tǒng)的核心設計值得細品。Google沒有讓Gemini調(diào)用App的API接口(那樣需要每家外賣、打車平臺開放權(quán)限),而是讓AI直接在屏幕上的"虛擬窗口"里像人一樣點擊、輸入。
好處顯而易見:不需要等Uber或DoorDash官方合作,理論上任何有界面的App都能操作。代價也很明顯——效率低(你看它滾菜單的樣子就知道),且極度依賴視覺識別穩(wěn)定性。
作者提到一個關(guān)鍵限制:目前只開放了外賣和打車兩類應用。Google顯然在控制試錯半徑,畢竟讓AI亂點外賣和亂打車,后果完全不同。
產(chǎn)品邏輯:為什么是現(xiàn)在?
任務自動化不是新概念。Siri、Alexa、Google Assistant喊了十年"幫你做事",結(jié)果停留在"設鬧鐘""查天氣"。
Gemini這次的不同在于:它不再試圖讓App為AI改造(過去失敗的路),而是讓AI去適應現(xiàn)有的App界面。這是一個工程哲學的大轉(zhuǎn)彎——承認生態(tài)控制權(quán)在App開發(fā)者手里,AI只能做"界面層面的仿生"。
![]()
Galaxy S26 Ultra成為首批搭載機型,背后是Google和三星的深度綁定。對三星來說,這是高端機型的差異化賣點;對Google來說,這是Gemini從"聊天工具"進化為"行動代理"的關(guān)鍵一步。
作者計劃接下來幾天"扔一些曲線球"——測試邊界情況。但目前的初步結(jié)論很明確:這東西真的能用,而且比預期順滑。
一個有趣的對比
作者沒有明說,但字里行間藏著一條暗線:2024年的Gemini還在跟用戶爭論航班細節(jié),2025年就能獨立決定"可頌要不要加熱"。
這個進化速度本身,可能比功能本身更值得注意。如果界面仿生這條路走通,理論上Gemini可以操作任何App——訂機票、搶演唱會門票、甚至操作企業(yè)內(nèi)部的遺留系統(tǒng)(那些根本沒有API的老古董)。
當然,風險也在這里。AI的"合理推測"在咖啡溫度上對了,在醫(yī)療預約、金融轉(zhuǎn)賬上呢?Google目前的安全設計是"最終確認閘",但這個閘能守住多復雜的場景,還要看實測。
作者最后拋出一個開放問題:當你的手機開始自己點外賣,你更擔心它太聰明,還是太笨?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.