![]()
智東西
作者 楊京麗
編輯 李水青
智東西4月14日消息,今天,MiniMax為其桌面端Agent上線兩項新功能:Pocket(Beta)和Computer Use。簡單來說,Pocket讓用戶可以在飛書、微信、Slack等主流IM里,遠(yuǎn)程給Agent下指令,Computer Use則能讓Agent能像人一樣看屏幕、點鼠標(biāo)、敲鍵盤,直接操作電腦上的本地軟件和系統(tǒng)設(shè)置。
上周,MiniMax發(fā)布了命令行工具MMX-CLI,讓Agent可以在終端中調(diào)用其全模態(tài)能力。今天這次更新補上了圖形界面?zhèn)鹊牟僮髂芰Γ⑼ㄟ^IM構(gòu)建了一個統(tǒng)一的遠(yuǎn)程入口,用戶不在電腦前,也能通過手機隨時喚起Agent干活。
一、Pocket打通IM遠(yuǎn)程操控,Computer Use接管圖形界面
Pocket是一項IM接入能力,用戶在飛書、微信等IM中喚起Pocket發(fā)送指令,Agent即可在其電腦上執(zhí)行任務(wù),完成后將結(jié)果回傳至對話。核心場景是遠(yuǎn)程操控,用戶不在電腦前,也能通過手機調(diào)度桌面Agent。
Computer Use則讓Agent具備操作圖形界面的能力,通過截圖識別屏幕內(nèi)容,模擬鼠標(biāo)和鍵盤操作本地軟件。那些沒有命令行接口的任務(wù),比如改系統(tǒng)偏好設(shè)置、操作本地設(shè)計工具、在多個應(yīng)用間手動搬運數(shù)據(jù),現(xiàn)在都可以交給Agent完成。
MiniMax展示了幾個IM與Computer Use組合使用的場景。
1、遠(yuǎn)程找文件。
提示詞:幫我看下我桌面上是不是有一個2025 report的PDF?找到并發(fā)給我。
![]()
▲Agent遠(yuǎn)程找文件(來源:MiniMax)
這是一個比較基礎(chǔ)的應(yīng)用場景。Agent在用戶電腦桌面上定位到目標(biāo)文件后,直接回傳到IM對話中。整個流程不需要用戶打開電腦。從實際演示來看,Agent能準(zhǔn)確識別文件名中的關(guān)鍵詞并完成定位,通過對話將正確的文件發(fā)給用戶。
2、操作本地應(yīng)用與系統(tǒng)設(shè)置,執(zhí)行定時任務(wù)。
提示詞:幫我打開系統(tǒng)設(shè)置,找到鎖定屏幕,把不活躍時啟動屏幕保護程序設(shè)為永不。然后打開Pocket客戶端執(zhí)行每日定時任務(wù),完成后給我一張截圖。
![]()
![]()
由于系統(tǒng)偏好設(shè)置沒有公開的命令行接口,這些操作只能通過圖形界面完成。Agent基于Computer Use打開系統(tǒng)設(shè)置、定位到“鎖定屏幕”面板、調(diào)整下拉菜單,隨后啟動客戶端執(zhí)行任務(wù),最后截圖回傳。整個過程可在IM中完整查看Agent的每一步操作,后續(xù)也按照要求完成了定時任務(wù)。
二、技術(shù)實現(xiàn):桌面操作拆分,可調(diào)度工具總數(shù)超60個
目前主流的Computer Use實現(xiàn)方式是給Agent一個統(tǒng)一的“computer”工具,所有操作都靠截圖加像素坐標(biāo)完成,先截一張屏幕,識別出目標(biāo)位置的像素坐標(biāo),再模擬點擊。這種方式結(jié)構(gòu)簡單,但精度有限,比如讓模型去數(shù)像素點一個按鈕,不如直接調(diào)用系統(tǒng)接口來得準(zhǔn)。
MiniMax的做法是把桌面操作拆分成四個獨立的工作:
1、Desktop Control負(fù)責(zé)截圖、鼠標(biāo)操作(含修飾鍵組合)、鍵盤輸入、滾動、拖拽;
2、Window Manager負(fù)責(zé)窗口列表查詢、聚焦、最小化/最大化、關(guān)閉、移動縮放及應(yīng)用啟動;
3、Browser Engine負(fù)責(zé)DOM操作、CSS選擇器定位、JavaScript執(zhí)行和結(jié)構(gòu)化導(dǎo)航;
4、Clipboard負(fù)責(zé)系統(tǒng)剪貼板讀寫。
Agent執(zhí)行任務(wù)時會根據(jù)場景自動選擇最合適的工具,比如切換窗口直接調(diào)系統(tǒng)接口,不用先截圖再找窗口按鈕在哪。這四套工具再加上飛書、企業(yè)微信、mmx三套平臺工具以及命令行工具,Agent可調(diào)度的工具總數(shù)超過60個。
屏幕適配方面,不同用戶的顯示器分辨率差異很大,同一個按鈕在4K屏上和1080p屏上的像素位置完全不同。MiniMax的處理方式是讓模型只輸出相對位置,由系統(tǒng)自動換算成實際坐標(biāo)。截圖也會根據(jù)模型能處理的畫面上限做縮放,避免高分屏信息過載、低分屏畫面模糊。
三、截圖驗證每一步,敏感操作需IM確認(rèn)
真實任務(wù)往往需要數(shù)十步甚至上百步連續(xù)操作,單步偏差可能導(dǎo)致后續(xù)全部失敗。MiniMax為此給每一步桌面操作接入了驗證環(huán)節(jié):操作執(zhí)行完后立刻自動截圖,由模型判斷該步是否成功。
符合預(yù)期則推進下一步;未達預(yù)期則進入診斷流程,識別失敗原因并嘗試替代方案,比如鼠標(biāo)點不到的按鈕換用鍵盤快捷鍵。若在一定重試次數(shù)內(nèi)仍未解決,Agent會主動告知用戶具體卡在哪一步,而非繼續(xù)盲目嘗試。
安全權(quán)限方面,當(dāng)Agent準(zhǔn)備執(zhí)行文件刪除等敏感操作時,會先暫停,將該步的具體內(nèi)容推送到用戶的IM對話中。在飛書和Slack中會彈出一張交互卡片,用戶點擊即可授權(quán)或拒絕;微信等不支持交互組件的平臺則通過文本指令完成授權(quán)。任務(wù)執(zhí)行過程中,用戶也可隨時發(fā)送指令中止Agent。
結(jié)語:Agent操作電腦從演示走向產(chǎn)品化
從OpenClaw爆火,Anthropic推出Computer Use,到如今MiniMax將類似能力落地到桌面端并接入IM,AI Agent“操作電腦”正在從技術(shù)演示走向?qū)嶋H場景。但從目前各家的進展來看,這項能力仍處于早期,復(fù)雜界面下的識別精度、長任務(wù)中的穩(wěn)定性、面對陌生軟件時的泛化能力,都是共性難題。
MiniMax這次更新提供了一條具體的產(chǎn)品化路徑:用IM做入口降低使用門檻,用工具域拆分提升操作精度,用逐步驗證兜住多步任務(wù)的可靠性。至于這套方案在真實用戶場景中能走多遠(yuǎn),還需要更大范圍的使用反饋來驗證。
來源:MiniMax
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.