北京時間 4 月 16 日凌晨,Google 終于把一件「早就該做的事」補上了:正式上線 Gemini 的桌面應用(目前僅 macOS)。
這不是一個突然的發布。過去幾個月里,關于 Gemini 將推出桌面客戶端的消息已經在外媒間反復流傳,彭博社就多次爆料 Google 正在推進 Gemini macOS 桌面端的相關開發,只是節奏一再拖延。相比之下,OpenAI 和 Anthropic 推出 ChatGPT 和 Claude 的桌面應用:
都在 2024 年。
不開玩笑,Google 在這一方面確實太「落后」了,在國內外主流大模型廠商中,也就 DeepSeek、Grok 還沒有桌面應用。所以,當 Gemini 終于出現在 macOS 上,這件事本身并不讓人意外,反倒更像一次遲到的補課。
![]()
圖片來源:雷科技
過去很長一段時間里,Gemini 在桌面端的使用方式始終停留在瀏覽器里:打開網頁、進入對話、完成任務,再切回原本的工作流。這個路徑沒有問題,但在「隨時可用」的競爭里,它顯得太重了。尤其是在 AI 開始頻繁介入寫作、整理信息、處理復雜任務之后,調用路徑本身就變成了體驗的關鍵一環。
Gemini 桌面端首先要解決的,正是這個問題。
一個快捷鍵、一層懸浮窗口,把 AI 嵌進正在進行的工作流里。這套思路并不新鮮,但已經被證明有效。也正因為如此,Gemini 這次的上線,更值得關注的其實不是「有沒有」,而是「做成什么樣」。
換句話說,問題不在于 Google 終于把 Gemini 帶到了 macOS,而在于已經有成熟對手的前提下,它準備拿出一套怎樣的體驗。
Gemini 桌面端初上手,處處透著「粗糙」
Gemini 可以說是我最常用的 AI 之一,但網頁端始終存在使用上不夠便捷等缺點,所以對于 Gemini 桌面端可以說我早就垂涎已久。但實話實說,至少目前上線的這一版,相當粗糙。
第一眼只能說無功無過,沿用了 ChatGPT 定義的對話框主界面,但默認并不打開側邊的對話列表。
默認不打開是對的。因為一打開我就覺得「丑」,對比網頁端,這種感覺只會更加突出。究其原因,桌面端采用了明顯更大、更粗的字號,但字與字、行與行的間距又太小,就顯得視覺上相當擁擠、不協調。
![]()
桌面端,圖片來源:雷科技
![]()
網頁端,圖片來源:雷科技
也不知道是 Google 沒了設計師,還是這版就是用 Gemini 模型 Vibe Coding 出來的。
當然,這些并不影響功能使用。
真正上手之后,會發現 Gemini 桌面端帶來最直觀的一個體驗變化就是「喚起」。在網頁版里,使用 Gemini 的前提是打開瀏覽器,進入頁面,再開始對話。這個過程本身并不復雜,但每一步都意味著一次體驗上的中斷:你需要離開當前正在處理的任務,切換到另一個環境,再切回來。
桌面端把這一步壓縮成了一個動作——快捷鍵喚出,在 macOS 上為了避開蘋果自己的 Spotlight(聚焦搜索)和便利性,默認通常都是 Option + 空格鍵(也有雙擊 Option)。
![]()
圖片來源:雷科技
一個懸浮窗口疊在當前界面之上,不需要切換應用,也不需要進入完整頁面。這種差異看起來很小,但在頻繁調用的場景里,會被不斷放大。寫東西、查資料、改內容,這類操作往往是碎片化的,路徑越短,越容易被真正用起來。
不過這個交互設計早就成了「標準」。至少以我的使用經歷來說,幾乎所有 AI 助手/瀏覽器的桌面端都標配了這個功能。硬要說的是,主要區別都是「位置」,比如 ChatGPT 的桌面端提供了「中下」「左下」「右下」以及「記住上次位置」,Gemini 則是強制使用上次位置。
另一個明顯的變化則是「分享窗口」。
簡單來說,在系統相應權限的授權之后,可以把某個應用窗口交給 Gemini 作為上下文來源。和網頁版相比,「分享窗口」也是一個完全新增的能力,因為瀏覽器里的 Gemini 很難直接接觸到系統內其他 App 的內容。
![]()
圖片來源:雷科技
不過從實際體驗來看,這個功能的實現方式并不復雜,本質仍然是基于對截圖的圖像理解,你甚至可以理解為一次「持續截圖」。開啟之后,Gemini 會在每次發出提示詞時截圖相應 App 當前窗口的畫面,用來作為對話上下文。它的價值在于減少操作成本。
ChatGPT 桌面端的類似功能叫「屏幕截圖」,但每次都需要手動觸發截圖,再發起一次新的請求。而 Gemini 則是一次開啟之后,可以在對話過程中持續使用。這在處理文檔、表格或者網頁內容時,會更順手一些。
![]()
ChatGPT 的屏幕截圖,圖片來源:雷科技
但它能看到的,仍然只是「畫面」。對于應用內部的結構、狀態,或者更細粒度的信息,當前版本并沒有表現出更深入的理解能力。這一點在復雜任務中會逐漸顯現,比如需要精確定位、跨區域引用內容時,仍然會回到手動補充信息的方式。
其他核心功能,Gemini 桌面端目前已經對齊了網頁端,包括支持制作圖片、音樂、視頻,還有 Canvas、Deep Research、學習輔導模式等。
問題比較大的是很多管理、設置還是要跳轉網頁版進行調整,比如記憶管理,目前在客戶端中只是一個入口,點擊之后會直接跳轉到瀏覽器中才能繼續查看和管理。
甚至,Gemini 桌面端的對話界面里還保留了「在瀏覽器打開」這樣的選項。
![]()
Gemini 桌面端,圖片來源:雷科技
從這個設計來看,Gemini 桌面端的產品團隊應該也明白目前版本還很粗糙,在比較簡單的使用需求和場景下或許夠用,但一旦涉及更完整的管理和配置,仍然需要回到網頁版。
整體看下來,這個剛上線的 Gemini 桌面端,確實解決了之前 Gemini 無法全局快速調用、需要反復手動截圖的問題,但它遠遠還稱不上好用。尤其是對比已經迭代了很久的其他競品。
從產品角度,Gemini 離 ChatGPT、Claude 還差得遠
把 Gemini 和 ChatGPT、Claude 的桌面端(僅考慮 macOS 版)放在一起用,很難再用「感覺」去評價,差距基本都體現在具體功能上,而且是那種一上手就能察覺的差別。
先講講 ChatGPT 的桌面端,它已經不只是一個對話窗口,同時也在嘗試打造一個以 ChatGPT 為核心的應用生態。在實際使用中,可以直接調用 macOS 本地應用,也可以接入一批已經打通的第三方工具,比如 Adobe Photoshop、Canva、Figma、Apple Music、OpenTable 等。
![]()
ChatGPT 支持的第三方應用,圖片來源:雷科技
這類能力,更是重要的是給使用方式本身帶來了變化。直接在當前流程里,把相關內容交給 ChatGPT,由它完成分析、生成,甚至一部分操作。這個過程中,AI 相當于直接嵌進了日常的生活和工作流程中,比如直接基于 Figma 讓 AI 快速修改原型設計等。
另一方面,雖然在很多核心功能上和 ChatGPT 也差不多,但 Claude 從大模型層面并不像 GPT、Gemini 一樣重視多模態,而是更重視 Agent 代理功能。這一點也體現在桌面端應用上。
事實上,Claude 最早在 2024 年 10 月就嘗試推出了基于 Claude 桌面端的 Computer Use 代理功能,讓 AI 能夠直接代理操作。不過后續也發現從模型、智能體框架到生態都沒準備好,于是從代碼出發打造了 Claude Code,又延伸出了 Claude Cowork,直接讓 AI 通過 CLI 命令行、GUI 圖形界面直接代理操作計算機。
![]()
圖片來源:X
此外,Claude 還能再基于「連接器」接入 Slack、設計工具、文檔平臺等,把不同工具里的信息拉到一起處理。
而這些都是 Gemini 缺失的。不過也要說明,有些問題是桌面端的,有些則不是。尤其是在生態方面,Google 似乎受制于自身強大但有限的生態,并沒有像 OpenAI 和 Anthropic 一樣積極介入其他第三方軟件和平臺,導致對很多人來說,并不能無縫介入實際的工作流程中。
所以可以說,這一版 Gemini 的桌面端更像是一個起點,它才剛剛解決了把 Gemini 帶到桌面上的問題,但還沒有回答一個更關鍵的問題:
當 AI 已經可以參與工作流時,這個桌面端準備讓用戶在這里完成多少事情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.