最近字節開源了自動化桌面辦公的項目開源,這就是現在的UI-Tars-desktop,通過這個系統就可以實現桌面自動化辦公,可以說這就是“豆包電腦”
如下是系統截圖,通過視覺可視化UI完成解讀UI來驅動系統自動化操作
![]()
目前這個產品到底使用如何,簡單來說就是通過對話完成任務命令,就可以完成各類瀏覽器、與應用程序打開。
目前系統支持agent形式的CLI調用以及普通桌面形式使用,前者是可以將以及客戶端2種方式,第一種是支持Web Ui或者CLI的形式,允許開發者進行調用與兼容,第二周則是原生桌面GUI,只能通過遠程桌面完成自動化操作。
也就是官方系統了自動化的平臺調用形式,如下是系統的演示,15秒時間完成了對比酒店信息與價格。
![]()
目前支持多個工具:從CLI命令行到可視化桌面窗口
現在最新版本在11月份更新了之后,支持結構化輸出,查看最后的結果,并且適合系統批量處理。
能夠支持自動debug相關任務流程命令
可以查詢到AI的溝通記錄,以及了解他為什么會這么干,以及了解過去的過程與步驟,從而優化提示詞與界面,
從豆包手機再到“豆包”電腦,接下來白領會成為第一批淘汰的人
在最近大火的2025年底馬斯克的2個半小時訪談里,就提到在2026年預計Grok就會達到AGI,同時第一批被淘汰的人就是用鼠標和鍵盤的這群白領。
這些人將首先最容易被AI替代,因為沒有涉及到物理世界,使用的數據都是數據信號,沒有物理原理,而真實世界會有物理世界,這些會逐步被空間智能與空間感知替代。
帶著團隊打通vision Pro與AndroidXR 以及空間計算與PC、手機
最近之所以發現這個項目,是因為我帶著團隊正在打破空間計算與PC電腦的隔閡,要是使用vision Pro的同學應該知道,我們現在都只能夠投屏PC或手機,所以使用vision Pro總是感覺是割裂的,就是無法和自己的PC電腦進行交互,雖然你知道都是數字化的屏幕,這就導致體驗是割裂的。
但是比較遺憾的,現在vision Pro還沒有提供眼球數據,所以開發者不能夠獲取到精細化的選中,而只有AndroidXR提供了眼球數據。
所以后續這類豆包手機、電腦都會成為大大提升人類與系統交互的工具,就不需要每一次點擊鼠標或鼠標鍵盤打字了,將其通過agent幫忙進行輸入
另外相關開源項目的地址已經放在知識星球了,如果有需要可以在星期查看,今天的分享就到這里。
“關注我,一個產品經理的創業故事”
每日案例拆解庫,今天的開源產品與APP拆解在這兒
我創建的產品設計打卡社群,加入后365天,每天體驗一款APP。提升產品設計能力,同時有1300份體驗報告幫助你找到競品
在這里你可以隨時查詢到你想找的各類競品行業APP,無須自己親自下載就可以馬上得到APP的一手產品優化、交互設計、功能描述信息。
從優化&建議、商業模式、運營、功能描述、交互設計、產品定位至少6個維度,體驗一款應用。
平均1天1塊錢,掃碼購買即可加入
連續體驗48款應用,通過后原路退回
報名后添加星球助理
PMTalk123
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.