![]()
Agent掀起的AI產品熱潮中,如今又進化到了多智能體(Multi-Agent)時代,或者說是L4 智能體時代。
當然,這都是企業給自己產品的稱謂。核心就是多個任務流能一起工作,自主完成更復雜的任務。
從8月1日開始熱鬧,Manus 發布Wide Research功能;到3日,360宣布首個L4 智能體納米AI蜂群;MasterAgent作為初創公司聲量很難比得過前兩者,但實際上也通過一些KOL在傳播首個L4 智能體的概念;APUS的天燕則正常上線,沒有過多傳播。
如果說這幾款產品是多Agent的四大天王(實際上目前也就這幾款),鯨哥發現相比上一代Agent產品,進步真的挺明顯,多任務的效率和復雜任務的處理結果,基本有一兩倍的效果提升。
![]()
這里簡單總結下測評出來的大家亮點:
Manus最大的亮點是多任務執行效率更高,官宣是10個智能體同時能執行10個任務,內部人說最高2000+智能體同時工作,類似調研100家競品公司這種任務就簡單了;
納米AI則類似內置了『扣子』,手動或者自動配置工作流兩種思路,并且能調用的MCP多,任務多樣性不錯;
而MasterAgent則是交互創新幅度最大的產品,每次生成幾個角色形象(Agent),不同角色分工完成任務,看起來十分直觀清爽。
天燕則是產品有一定的進步,在查商業信息查詢領域比較落地。
多說無益,Agent主要是思考、規劃、執行、反思幾個核心步驟,鯨哥認為多Agent應該考驗,多智能體在任務串并聯分解,以及錯誤累加效應處理效果等方面。
我們最終實測了商業計劃、運營設計、內容創作、生活服務四大場景。重點關注了智能體的信息收集、數據分析、全流程鏈路、圖像生成以及復雜任務處理等,力求更全面還原“協作式智能群體”在真實工作流中的表現。
商業計劃橫評
比如在鯨哥的老家開一家門店,向智能體提出具體的問題提示詞,考驗智能體對最新信息的準確抓取、任務分解和執最終回答的可用性。
提示詞:在四五線小城市赤峰開一家門店,幫做一個完整調研,開什么類型店(搜集網絡加盟信息),哪些店鋪便宜(搜集本地商鋪租金信息),怎么經營,以及如何回本和盈利。
MsterAgent在處理任務時,首先會對提示詞進行分解,再反饋用戶詢問相關細節信息,為用戶量身定制更符合方案。當然,不想一個一個回復,也可以點擊「由AI補充」。
![]()
隨后,MsterAgent會生成四個智能體的工作組,點擊「立即運行」,任務會自動分給智能體工作。
![]()
MsterAgent是構建單線程線性智能體的架構,任務拆解的角色十分清晰。但是,這種架構的弊端是如果有大量子任務的大型任務,會導致上下文窗口溢出,而MsterAgent大多數生成4個智能體,很少出現給到10個智能體角色解決任務。
![]()
master Agent
我們再來看最終結果,MsterAgent對抓取的信息完整,保持了任務的整體一致性和可控性。但多為宏觀新聞且內容雜亂、有用性不強,缺乏地方最新動態。
同樣,納米在處理任務時,首先會對提示詞進行分解,分成多個任務。不同的是,納米會將任務生成后,是否需要修改的權力給了用戶,用戶在20秒內可以修改任務執行方案。
![]()
過程中也會調用MCP執行不同的任務,整個工作流程也清晰可見。值得注意的是,很多抓取新的網站需要用戶自己登錄賬號,不然不能繼續執行。
最終回答中,對城市畫像、加盟分析以及租金成本信息抓取完整,對法規政策也進行了監測,真實參考性較強。
![]()
納米AI
APUS 天燕集合多家先進大模型,內置MCP工具鏈,通過分步的任務,在處理實際復雜商業任務時,響應時間短,提升工作效率。但是APUS 天燕智能體缺乏反思機制,一旦信息錯漏,中途難以調節思路。
![]()
APUS 天燕
Manus沒使用最高級版本,質量模式下通過公開信息的深入搜集和分析(10年前的新聞也找出來了),主動調用瀏覽器、數據分析工具等完成任務。最終交付的結果存在AI幻覺(一本正經的瞎編),需要人工進一步篩查。
![]()
Manus
運營設計比拼
這里我們將智能體的內容從文字升維到圖文,而是是超大量工作。這個任務挺考驗圖片Agent的調用效果,以及多智能體的處理任務效率,畢竟如果是人工設計完成,沒有幾個月時間怕是辦不完。
提示詞:幫我給中國熊貓設計一百套不同款式的穿搭。
master Agent從面料、元素、風格等方面進行設計,甚至特別設計了幼年熊貓的方案。所有的設計稿最終以3D模型形式呈現,非常直觀的看見最終效果,可惜的是只生成了8張圖片。
![]()
master Agent
納米AI僅生成了四張圖片,其中兩張還是無關的圖片,敦煌熊貓還挺萌的,還會出現任務過長(超出上下文),可能會宣告失敗,執行不落地。
![]()
納米AI
Manus像一個“自主性高的秘書”,它會自動將任務拆分成多個小步驟,每個批次生成5張圖片,最終充分完成100張不同風格的設計圖任務。
![]()
Manus
內容創作競賽
文生視頻一直是非常火的AI創作功能,于是鯨哥想測試一下多智能體是如何制作文生視頻創作的,也考驗智能體對指令遵循、文本理解以及調用視頻、音頻模型的合成質量。
根據“《靜夜思》床前看月光,疑是地上霜。舉頭望山月,低頭思故鄉。”生成相應的視頻
master Agent通過水墨畫留白技法,使畫面既具體又具有想象空間,能深切的感受到月光光影的變化,同時又創作了四段式結構原創音樂,作品總時長也控制在理想范圍內。
MasterAgent
接近1個小時,納米AI生成了一段講解視頻,對詩人李白《靜夜思》的理解也有一定的深度,視頻畫面流暢。不過中間有一段白素貞的畫面是什么鬼,腳本里也沒有,鯨哥懷疑是納米AI多智能體蜂群協作空間技術,因缺乏共享上下文,產生了沖突回應。
納米AI
生活服務優選
旅游攻略制定想必困擾過非常多的人。尤其是在陪父母或者孩子時,往往需要制定一個兼顧不同年齡層以及特殊需求的旅行計劃。智能體需要深度理解人類復雜任務,考慮各種突發事件,為每一天都做好詳細的計劃。
提示詞:為35歲男性、60歲母親、懷孕3個月的孕婦和10歲孩子設計一份武漢一周旅游攻略。要求確保安全舒適,適合各年齡段和特殊身體狀況的家庭成員。
master Agent雖然說針對不同需求人群制訂計劃,但是卻是特種兵旅行,第四天安排上午逛武漢植物園,下午就去木蘭草原了,大學生也沒這么旺盛的精力吧。
![]()
MasterAgent
納米AI在運行時,調取了小紅書和微博等平臺,但是需要用戶自己登錄賬號密碼才能獲取,導致在執行任務時,用戶需要時不時觀察生成進度。納米AI就像被擋在博物館門口的參觀者,想參觀卻沒有門票。
![]()
納米AI
APUS 天燕考慮的最周全,不管是游玩建議時長、游玩項目還是酒店/飲食/交通的有最優推薦,還給出了避坑指南及行前準備清單。
![]()
APUS 天燕
Manus生成的攻略比較擺爛,要求游玩七天,卻規劃酒店休息三天。景區游玩地點也是東一下西一下,不考慮路程的遠近。
![]()
Manus
通過以上案例看,大家其實各有春秋。鯨哥試著總結下:
Manus還是圍繞Deep Research思路做多Agent產品,抱怨任務太燒Token、會員費貴? 不好意思,這給精英做的產品,普通消費者不是首要考慮目標。
MasterAgent擁有最優想法,但是自研模型帶來的短期弊端,就是能力確實跟不上一線大模型,很多任務分解的漂亮,結果卻差點意思,把好產品做成了玩具。
納米蜂群做得中庸,調用多家大模型,手動、自動多智能體協作,不同角色和不同人群都考慮到了,追求當下的最佳效果。而且納米AI現在還有很多AI功能合集,你很難定義它是Agent 還是瀏覽器,還是AI商店。
APUS 天燕則是在跟上了第一波多智能體的浪潮,特定領域效果做到更好,整體產品還需要發展時間,只能說免費的要要啥自行車。
總體而言,多Agent正實現大模型從“一個聰明的個體”向“協作式智能群體”演進。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.