手機自己點外賣：Gemini的"代勞"功

2026-03-20 18:09:26　來源: 像素與芯片

北京舉報

分享至

兩周前，Google和三星宣布了一個讓科技圈炸鍋的消息：Gemini（谷歌的生成式人工智能助手）要在Galaxy S26 Ultra上實現(xiàn)真正的任務自動化——不是語音助手那種"打開App"，而是讓AI替你完成點餐、叫車全流程。當時這個功能還沒上線，作者Allison Johnson拿到測試機時只能干瞪眼。現(xiàn)在beta版推送了，她的第一反應是："看著手機自己操作自己，太詭異了。"

實測一：叫車去機場

第一個測試指令很簡單："叫輛Uber去機場"。

Gemini先確認了一個關(guān)鍵細節(jié)——哪個機場？這步判斷很重要，說明它不是無腦執(zhí)行，而是在做意圖澄清。確認目的地后，AI開始自主操作：輸入地址、跳過"填寫航空公司"的選項（作者當?shù)貦C場只有一個航站樓，這步確實多余）。

系統(tǒng)在最終下單前停了下來，彈出確認界面讓作者檢查。這是設計上的安全閘——AI可以跑腿，但花錢的決策權(quán)還在人手里。

整個流程在"虛擬窗口"里完成，用戶能看到Gemini一步步點擊、滑動，像在看手機自己演獨角戲。

實測二：點咖啡比叫車更難

第二個測試提高了難度："點一杯咖啡和一個可頌"。

這次AI花了更長時間——在星巴克的熱飲菜單里瘋狂滾動，最后找到了"澳白"（flat white）。但真正的考驗是：巧克力可頌要加熱還是直接裝袋？

Gemini沒問作者，自己做了判斷：加熱。而且選對了。

作者特意點出這個細節(jié)的分量：就在一年前，Gemini還會為了日歷里的航班細節(jié)跟她抬杠。現(xiàn)在它不僅能理解"咖啡+可頌"這種模糊指令，還能在缺乏明確信息時做出合理推測。

技術(shù)拆解：為什么是"虛擬窗口"

這套系統(tǒng)的核心設計值得細品。Google沒有讓Gemini調(diào)用App的API接口（那樣需要每家外賣、打車平臺開放權(quán)限），而是讓AI直接在屏幕上的"虛擬窗口"里像人一樣點擊、輸入。

好處顯而易見：不需要等Uber或DoorDash官方合作，理論上任何有界面的App都能操作。代價也很明顯——效率低（你看它滾菜單的樣子就知道），且極度依賴視覺識別穩(wěn)定性。

作者提到一個關(guān)鍵限制：目前只開放了外賣和打車兩類應用。Google顯然在控制試錯半徑，畢竟讓AI亂點外賣和亂打車，后果完全不同。

產(chǎn)品邏輯：為什么是現(xiàn)在？

任務自動化不是新概念。Siri、Alexa、Google Assistant喊了十年"幫你做事"，結(jié)果停留在"設鬧鐘""查天氣"。

Gemini這次的不同在于：它不再試圖讓App為AI改造（過去失敗的路），而是讓AI去適應現(xiàn)有的App界面。這是一個工程哲學的大轉(zhuǎn)彎——承認生態(tài)控制權(quán)在App開發(fā)者手里，AI只能做"界面層面的仿生"。

Galaxy S26 Ultra成為首批搭載機型，背后是Google和三星的深度綁定。對三星來說，這是高端機型的差異化賣點；對Google來說，這是Gemini從"聊天工具"進化為"行動代理"的關(guān)鍵一步。

作者計劃接下來幾天"扔一些曲線球"——測試邊界情況。但目前的初步結(jié)論很明確：這東西真的能用，而且比預期順滑。

一個有趣的對比

作者沒有明說，但字里行間藏著一條暗線：2024年的Gemini還在跟用戶爭論航班細節(jié)，2025年就能獨立決定"可頌要不要加熱"。

這個進化速度本身，可能比功能本身更值得注意。如果界面仿生這條路走通，理論上Gemini可以操作任何App——訂機票、搶演唱會門票、甚至操作企業(yè)內(nèi)部的遺留系統(tǒng)（那些根本沒有API的老古董）。

當然，風險也在這里。AI的"合理推測"在咖啡溫度上對了，在醫(yī)療預約、金融轉(zhuǎn)賬上呢？Google目前的安全設計是"最終確認閘"，但這個閘能守住多復雜的場景，還要看實測。

作者最后拋出一個開放問題：當你的手機開始自己點外賣，你更擔心它太聰明，還是太笨？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.