![]()
智東西
作者 楊京麗
編輯 李水青
智東西4月14日消息,今天,MiniMax為其桌面端Agent上線兩項(xiàng)新功能:Pocket(Beta)和Computer Use。簡(jiǎn)單來(lái)說(shuō),Pocket讓用戶(hù)可以在飛書(shū)、微信、Slack等主流IM里,遠(yuǎn)程給Agent下指令,Computer Use則能讓Agent能像人一樣看屏幕、點(diǎn)鼠標(biāo)、敲鍵盤(pán),直接操作電腦上的本地軟件和系統(tǒng)設(shè)置。
上周,MiniMax發(fā)布了命令行工具M(jìn)MX-CLI,讓Agent可以在終端中調(diào)用其全模態(tài)能力。今天這次更新補(bǔ)上了圖形界面?zhèn)鹊牟僮髂芰Γ⑼ㄟ^(guò)IM構(gòu)建了一個(gè)統(tǒng)一的遠(yuǎn)程入口,用戶(hù)不在電腦前,也能通過(guò)手機(jī)隨時(shí)喚起Agent干活。
一、Pocket打通IM遠(yuǎn)程操控,Computer Use接管圖形界面
Pocket是一項(xiàng)IM接入能力,用戶(hù)在飛書(shū)、微信等IM中喚起Pocket發(fā)送指令,Agent即可在其電腦上執(zhí)行任務(wù),完成后將結(jié)果回傳至對(duì)話(huà)。核心場(chǎng)景是遠(yuǎn)程操控,用戶(hù)不在電腦前,也能通過(guò)手機(jī)調(diào)度桌面Agent。
Computer Use則讓Agent具備操作圖形界面的能力,通過(guò)截圖識(shí)別屏幕內(nèi)容,模擬鼠標(biāo)和鍵盤(pán)操作本地軟件。那些沒(méi)有命令行接口的任務(wù),比如改系統(tǒng)偏好設(shè)置、操作本地設(shè)計(jì)工具、在多個(gè)應(yīng)用間手動(dòng)搬運(yùn)數(shù)據(jù),現(xiàn)在都可以交給Agent完成。
MiniMax展示了幾個(gè)IM與Computer Use組合使用的場(chǎng)景。
1、遠(yuǎn)程找文件。
提示詞:幫我看下我桌面上是不是有一個(gè)2025 report的PDF?找到并發(fā)給我。
![]()
▲Agent遠(yuǎn)程找文件(來(lái)源:MiniMax)
這是一個(gè)比較基礎(chǔ)的應(yīng)用場(chǎng)景。Agent在用戶(hù)電腦桌面上定位到目標(biāo)文件后,直接回傳到IM對(duì)話(huà)中。整個(gè)流程不需要用戶(hù)打開(kāi)電腦。從實(shí)際演示來(lái)看,Agent能準(zhǔn)確識(shí)別文件名中的關(guān)鍵詞并完成定位,通過(guò)對(duì)話(huà)將正確的文件發(fā)給用戶(hù)。
2、操作本地應(yīng)用與系統(tǒng)設(shè)置,執(zhí)行定時(shí)任務(wù)。
提示詞:幫我打開(kāi)系統(tǒng)設(shè)置,找到鎖定屏幕,把不活躍時(shí)啟動(dòng)屏幕保護(hù)程序設(shè)為永不。然后打開(kāi)Pocket客戶(hù)端執(zhí)行每日定時(shí)任務(wù),完成后給我一張截圖。
![]()
![]()
由于系統(tǒng)偏好設(shè)置沒(méi)有公開(kāi)的命令行接口,這些操作只能通過(guò)圖形界面完成。Agent基于Computer Use打開(kāi)系統(tǒng)設(shè)置、定位到“鎖定屏幕”面板、調(diào)整下拉菜單,隨后啟動(dòng)客戶(hù)端執(zhí)行任務(wù),最后截圖回傳。整個(gè)過(guò)程可在IM中完整查看Agent的每一步操作,后續(xù)也按照要求完成了定時(shí)任務(wù)。
二、技術(shù)實(shí)現(xiàn):桌面操作拆分,可調(diào)度工具總數(shù)超60個(gè)
目前主流的Computer Use實(shí)現(xiàn)方式是給Agent一個(gè)統(tǒng)一的“computer”工具,所有操作都靠截圖加像素坐標(biāo)完成,先截一張屏幕,識(shí)別出目標(biāo)位置的像素坐標(biāo),再模擬點(diǎn)擊。這種方式結(jié)構(gòu)簡(jiǎn)單,但精度有限,比如讓模型去數(shù)像素點(diǎn)一個(gè)按鈕,不如直接調(diào)用系統(tǒng)接口來(lái)得準(zhǔn)。
MiniMax的做法是把桌面操作拆分成四個(gè)獨(dú)立的工作:
1、Desktop Control負(fù)責(zé)截圖、鼠標(biāo)操作(含修飾鍵組合)、鍵盤(pán)輸入、滾動(dòng)、拖拽;
2、Window Manager負(fù)責(zé)窗口列表查詢(xún)、聚焦、最小化/最大化、關(guān)閉、移動(dòng)縮放及應(yīng)用啟動(dòng);
3、Browser Engine負(fù)責(zé)DOM操作、CSS選擇器定位、JavaScript執(zhí)行和結(jié)構(gòu)化導(dǎo)航;
4、Clipboard負(fù)責(zé)系統(tǒng)剪貼板讀寫(xiě)。
Agent執(zhí)行任務(wù)時(shí)會(huì)根據(jù)場(chǎng)景自動(dòng)選擇最合適的工具,比如切換窗口直接調(diào)系統(tǒng)接口,不用先截圖再找窗口按鈕在哪。這四套工具再加上飛書(shū)、企業(yè)微信、mmx三套平臺(tái)工具以及命令行工具,Agent可調(diào)度的工具總數(shù)超過(guò)60個(gè)。
屏幕適配方面,不同用戶(hù)的顯示器分辨率差異很大,同一個(gè)按鈕在4K屏上和1080p屏上的像素位置完全不同。MiniMax的處理方式是讓模型只輸出相對(duì)位置,由系統(tǒng)自動(dòng)換算成實(shí)際坐標(biāo)。截圖也會(huì)根據(jù)模型能處理的畫(huà)面上限做縮放,避免高分屏信息過(guò)載、低分屏畫(huà)面模糊。
三、截圖驗(yàn)證每一步,敏感操作需IM確認(rèn)
真實(shí)任務(wù)往往需要數(shù)十步甚至上百步連續(xù)操作,單步偏差可能導(dǎo)致后續(xù)全部失敗。MiniMax為此給每一步桌面操作接入了驗(yàn)證環(huán)節(jié):操作執(zhí)行完后立刻自動(dòng)截圖,由模型判斷該步是否成功。
符合預(yù)期則推進(jìn)下一步;未達(dá)預(yù)期則進(jìn)入診斷流程,識(shí)別失敗原因并嘗試替代方案,比如鼠標(biāo)點(diǎn)不到的按鈕換用鍵盤(pán)快捷鍵。若在一定重試次數(shù)內(nèi)仍未解決,Agent會(huì)主動(dòng)告知用戶(hù)具體卡在哪一步,而非繼續(xù)盲目嘗試。
安全權(quán)限方面,當(dāng)Agent準(zhǔn)備執(zhí)行文件刪除等敏感操作時(shí),會(huì)先暫停,將該步的具體內(nèi)容推送到用戶(hù)的IM對(duì)話(huà)中。在飛書(shū)和Slack中會(huì)彈出一張交互卡片,用戶(hù)點(diǎn)擊即可授權(quán)或拒絕;微信等不支持交互組件的平臺(tái)則通過(guò)文本指令完成授權(quán)。任務(wù)執(zhí)行過(guò)程中,用戶(hù)也可隨時(shí)發(fā)送指令中止Agent。
結(jié)語(yǔ):Agent操作電腦從演示走向產(chǎn)品化
從OpenClaw爆火,Anthropic推出Computer Use,到如今MiniMax將類(lèi)似能力落地到桌面端并接入IM,AI Agent“操作電腦”正在從技術(shù)演示走向?qū)嶋H場(chǎng)景。但從目前各家的進(jìn)展來(lái)看,這項(xiàng)能力仍處于早期,復(fù)雜界面下的識(shí)別精度、長(zhǎng)任務(wù)中的穩(wěn)定性、面對(duì)陌生軟件時(shí)的泛化能力,都是共性難題。
MiniMax這次更新提供了一條具體的產(chǎn)品化路徑:用IM做入口降低使用門(mén)檻,用工具域拆分提升操作精度,用逐步驗(yàn)證兜住多步任務(wù)的可靠性。至于這套方案在真實(shí)用戶(hù)場(chǎng)景中能走多遠(yuǎn),還需要更大范圍的使用反饋來(lái)驗(yàn)證。
來(lái)源:MiniMax
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.