一句話生成一個世界,正從數字隱喻變為物理現實。當AI不僅能回答“如何沖一杯咖啡”,更能直接操控機器為你遞上一杯親手沖調、溫度恰好的咖啡時,我們便站在了一個新時代的門檻上。
本周,一場密集的AI“亮劍”正在上演:阿里“千問”APP正式定位為“會聊天能辦事的個人AI助手”;螞蟻集團“靈光”主打“自然語言30秒生成小應用”;谷歌Gemini 3昨天則以碾壓性的多模態和Agent能力震動行業。
這三款產品,不約而同地指向同一個核心:AI的競爭正從“對話的藝術”轉向“辦事的能力”,從數字世界的比特流,邁向對物理世界的原子進行干預。
AI執行力的三級躍遷
“幫我訂一張下周一到北京最早航班的經濟艙機票,并用企業賬戶支付。”——這在過去需要打開App、多次點擊和輸入才能完成的任務,現在正成為AI“聽令即辦”的日常。
阿里將“千問”項目視為“AI時代的未來之戰”,其野心遠不止一個聊天機器人。據「智能涌現」了解,千問APP正計劃深度整合地圖、外賣、訂票、辦公、學習、購物、健康等生活全場景。其核心進化在于“Agentic AI”(智能體AI)——一種能理解意圖、規劃步驟、自主執行任務的新范式。
![]()
“阿里計劃在未來幾個月內逐步為千問增加Agentic AI功能,支持在淘寶、天貓等平臺上用自然語言購物。”一位接近阿里的人士透露。這意味著,用戶指令從“展示羽絨服”變成了“幫我家人買一件適合零下十度、預算一千五以內的長款羽絨服,要輕便保暖”。AI將自動完成搜索、篩選、比價、尺寸選擇,直至下單支付的全過程。
螞蟻集團的“靈光”則展現了另一種更輕巧的物理世界交互路徑。其“閃應用”功能允許用戶在30秒內通過自然語言生成可交互的小應用。一位用戶體驗后感嘆:“當我讓靈光做一個‘人生計時器’,它生成的應用不僅美觀,更讓我直觀地感受到已流逝和剩余的生命時間,這種震撼源于它將一個抽象概念,變成了可感知、可交互的物理化體驗。”
![]()
谷歌Gemini 3的發布,則將這種執行力推向了新的高度。其強大的屏幕理解能力(ScreenSpot-Pro得分72.7%)是一項關鍵技術突破。它意味著AI不再依賴專用的API接口,就能像人一樣“看懂”任何軟件界面并進行操作。從操作復雜的專業軟件到引導你完成手機設置,Gemini 3展示了其作為“萬能操作員”的潛質。
![]()
這三大產品,清晰地勾勒出AI執行力的躍遷路徑:從被動問答到主動任務規劃,從信息整合到實物交易,從虛擬助手到物理世界的操盤手。
多模態理解與工具調用的關鍵突破
AI之所以能邁出虛擬對話框,得益于其在“眼睛”和“手”上的技術突破——即多模態理解和工具調用能力。
谷歌Gemini 3在多項基準測試中展現了碾壓性優勢。其在涵蓋專業、學術領域的“人類終極考試”中取得37.5%的成績,在高端數學測試MathArena Apex中達到23.4%,大幅領先其他模型。更關鍵的是,其在終端操作基準測試中的優異表現,為AI操作手機、電腦等物理世界終端設備奠定了性能基石。
![]()
阿里的Qwen系列模型同樣構筑了堅實的技術底座。Qwen3-Max在考驗代碼能力的SWE-Bench評測中獲得69.6分,在需要深度推理的Tau2 Bench測試上取得突破性的74.8分,超過Claude Opus4等國際頂尖模型。尤為引人注目的是,在首屆AI大模型真實投資比賽中,Qwen3-Max以22.32%的收益率贏得比賽。這證明AI已不僅能處理結構化任務,更能在充滿不確定性的復雜環境中進行有效決策。
視覺能力的突破是連接物理世界的“臨門一腳”。千問APP的“以圖搜圖”功能可以直接識別現實物品并跳轉購物,而靈光的“靈光開眼”可以實時識別攝像頭中的物體并提供相關信息。當AI能“看懂”我們所見的世界,它才能真正理解“幫我拿一下桌子上的那本書”這樣的指令。
“過去,AI是‘盲人’,只能通過我們的描述來理解世界。現在,它擁有了‘視力’,并能將看到的信息與知識圖譜關聯。”一位行業分析師指出,“多模態理解讓AI從‘文本宇宙’降落在了‘物理地球’。”
從單一App到生活全場景的入口
技術決定了下限,而生態決定了上限。AI應用能否真正融入物理世界,很大程度上取決于其背后生態系統的廣度和深度。
阿里正以更加協同的方式推進其AI戰略。其內部人士指出,“AI技術革命讓阿里多樣化的產品和服務有機會產生更大協同效應。”千問APP正試圖成為串聯起淘寶、天貓、支付寶、高德、餓了么、飛豬等阿里系應用的“超級智能中樞”。用戶未來可能只需對千問說一句“我周末想去上海迪士尼”,它就能自動規劃行程、訂購機票酒店和門票,形成一個無縫的體驗閉環。
螞蟻集團的靈光則扎根于支付寶深厚的金融與本地生活場景。雖然目前尚未完全打通支付寶的核心API,但其想象空間巨大。一旦實現,用戶將能通過自然語言直接完成轉賬、理財、繳費、信用借款等復雜金融操作,將原本需要多步跳轉的金融流程,壓縮為一句簡單的對話。
谷歌憑借其全球化的產品矩陣,為Gemini提供了更廣闊的試驗場。從搜索到Gmail,從Google Calendar到Maps,Gemini的Agent能力可以滲透到用戶數字生活的方方面面,并間接影響物理世界的行為。例如,它可以根據郵件自動添加航班行程到日歷,并提醒你出發時間。
這種生態整合的競爭,本質上是“場景密度”的競爭。誰能為AI提供更豐富、更高頻的物理世界交互場景,誰的AI就能更快地學習和進化。一位深度用戶對比后表示:“千問在購物和本地生活場景明顯更懂中國用戶,而Gemini在處理復雜信息和全球化任務規劃上更勝一籌。”
隨著更多生活場景被接入,AI將不再只是回答問題的助手,而是真正能夠操辦實事的伙伴。擺在所有玩家面前的,是一道共同的難題:如何在確保安全、可靠的前提下,讓AI更好地理解并服務于這個復雜而充滿不確定性的物理世界。這場競賽的序幕剛剛拉開,而它的勝利者,將很有可能定義未來十年的人機交互標準與用戶體驗范式。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.