![]()
作者 | Yoky
郵箱 | yokyliu@pingwest.com
AI Agent正陷入一個矛盾的處境:技術突飛猛進,應用卻支離破碎。
市面上的主流Agent大多是單點突破的“專家型”產品——有的擅長文案寫作,有的專攻圖像生成,有的聚焦客戶服務,但彼此孤立,用戶需要手動串聯各個環節。更為關鍵的是,這些Agent往往存在嚴重的“端側割裂”:Web端體驗無法延續到移動端,PC客戶端的任務進度無法在手機上查看,每一次交互都像“重新開始”, 同一個問題哪怕是中斷后想再追問,都需要用戶反復解釋需求。
更深層的問題在于,當前Agent缺乏統一的認知和記憶中樞。它們往往是“黑箱”式運作,過程不可控,結果質量不穩定,用戶既無法干預過程,也難以建立持續的交互記憶。這種現狀讓人不禁思考:AI Agent的終極形態,難道就是讓用戶管理一堆零散的“工具人”?真正的智能助手,能否像人腦一樣實現統一指揮、無縫適應不同場景和終端?
8月18日,百度文庫聯合百度網盤發布GenFlow 2.0,這是全球首個“全端通用”Agent,正試圖破解這一困局。它預備了100+專家團并行工作、跨端一致體驗,同時過程可干預、記憶可追溯。GenFlow2.0指向了一種全新的技術范式,類似于具身智能領域一腦多形的概念,即一個統一的智能中樞控制不同的表現形態。正如具身智能的最終構想:同一個大腦驅動四足、雙足或人形等不同構型,GenFlow 2.0試圖用統一的Agent中樞,在不同設備、不同場景下提供無縫的智能服務體驗。
![]()
這種范式轉變,或許正在重新定義下一代AI Agent的標準。
實測文庫GenFlow 2.0,什么是Agent的“一腦多形”?
GenFlow 2.0的核心創新在于構建了類似于“一腦多形”架構。這不是簡單的多模型堆砌,而是通過統一智能中樞實現多端自適應的系統性突破。
GenFlow 2.0的“腦”是一個復雜的調度與認知中樞系統,其核心是自研Multi-Agent基礎架構。GenFlow2.0本身是個多輪對話的框架,要想對用戶意圖做精準理解,那就不僅僅是了解當前一個問題的意圖,需要結合用戶個人畫像,及其過去一段時間,一個時間窗里的多輪交互的背景信息,去判斷他的一些個人傾向。
系統采用動態混合推理(MoE)架構,能夠基于不同任務、步驟來調用不同模型,在成本、性能和效率上實現最優平衡。與傳統“大而全”模型不同,GenFlow 2.0維護著100+個專業化Agent池,每個Agent都在特定領域經過深度優化。
更關鍵的是,系統構建了完整的“臨短長記憶中樞”。 GenFlow 2.0打造了獨創的“記憶庫”,可以記住并運用用戶在文庫網盤溝通的歷史記錄、上傳下載文件,可完整交付更懂用戶的個性化內容。這個記憶系統整合了用戶行為記憶、對話記憶、個性化偏好記憶等多源數據融合,形成持續積累的認知基礎。
在“形”的層面,文庫GenFlow 2.0實現了真正的全端通用體驗。用戶可以在百度文庫Web端、App端等多個終端無縫切換,任務進度、交互記憶、文件關聯都保持完全一致。這種一致性不僅體現在功能層面,更體現在交互邏輯的統一:用戶在任意端點發起的任務,都可以在其他端點查看進度、進行干預、獲取結果。
移動端體驗的優化尤其值得關注。GenFlow 2.0在手機上提供了直觀的并行任務視圖,用戶可以通過并列式進度條實時看到多個Agent的工作狀態,支持隨時暫停特定任務、補充新需求、調用云端文件。這種設計充分考慮了移動場景下的碎片化使用特點,讓用戶能夠有效利用通勤、等待等零散時間推進復雜任務。
![]()
系統的智能模式切換功能進一步提升了使用體驗。GenFlow 2.0能夠自動識別用戶需求的復雜程度,在簡單問答與復雜多任務并行模式間無縫切換,無需用戶手動指定。當檢測到單一問題時,系統會快速給出直接回答;當識別到復合需求時,會自動啟動多Agent協作模式,用戶完全感知不到模式切換的存在。
我們測試了Genflow2.0的并行任務能力和全端配合能力。第一個任務,我們讓它設計5個類似labubu的盲盒ip,畫出原型圖,并要求:有可能會火。
![]()
在進行了大量的市場分析和調研之后,大概在3分鐘左右,Genflow2.0同時生成了5種不同風格盲盒ip,包括結合了傳統文化的山海經異獸、像素風手辦等等。
![]()
(大家也可以投出自己喜歡的形象)
在下班回家的路上,我想更多了解一些Labubu設計背后的設計理念,于是在移動端讓Genflow2.0根據我們之前的討論,生成了一份《原創盲盒IP概念設計方案》。可見,Genflow2.0在手機端也可以一鍵將報告生成ppt,并根據報告對上述生成內容進行二次修改,隨時隨地完善任務。
![]()
我們發現在輸出能力上,GenFlow 2.0依托已經過市場驗證的專業Agent,能夠并行生成PPT、分析報告、配圖、數據圖表,甚至交互式H5頁面等多種形態的內容。這種多模態一站式輸出能力切實好用,讓用戶從復雜的工具鏈中解脫出來,通過單一入口就能獲得完整的解決方案。
為什么“全端通用”定義了下一代Agent標準?
從當前市場碎片化的單點工具到統一的智能中樞,這種范式轉變,正在為Agent打開一種新的可能。
傳統Agent產品采用串行處理模式,用戶往往需要等待數十分鐘甚至數小時,才能獲得完整結果。文庫GenFlow 2.0的“百個AI Agent專家團并行”模式徹底改變了這一現狀。當用戶提出復雜需求時,系統能夠同時調動PPT專家、研報專家、繪圖專家等多個Agent并行工作,將原本需要數小時的工作壓縮到3分鐘內完成,實現了生產力的質的飛躍。
此次AIDAY上,百度方面還詳細解釋了并行調度的技術難點。總結來說,一個最大的點就是狀態的管理。因為最開始對意圖做拆解以后,會呈一個子任務序列,所謂的動態任務編排,每個任務調度具體的底層Agent不一樣,任務本身內部的環節節點也有所差異,所以,文庫GenFlow2.0會有一個消息通訊總控,會同步協調它整個的進度。
這種并行模式帶來了顯著的性能提升。GenFlow 2.0平均3分鐘生成,比主流Agent快5-10倍,而且一個480p生成1分鐘的視頻,是行業水平整個成本的十分之一。
![]()
“全端可用”特別是移動端的深度整合,讓Agent的能力范圍大大提高。傳統Agent產品往往局限于PC端或Web端,移動端體驗嚴重缺失。GenFlow 2.0在手機上提供了直觀的并行任務視圖,用戶可以通過并列式進度條實時查看多個Agent的工作狀態,支持隨時暫停、補充需求、調用文件。
同時,“過程可干預、記憶可追溯”將傳統AI的黑箱運作模式轉變為透明的白箱體驗,這是建立人機協作信任的關鍵。用戶不再被動接受AI的輸出結果,而可以全程參與、實時調整、深度干預。系統支持在任何環節暫停任務、追問細節、補充要求,甚至修改思考內容。
這種深度的人機協作模式,極大提升了AI的可用性和用戶的信任度。當用戶擁有控制權和知情權時,他們更愿意將重要任務交給AI處理,從而釋放出更多的創造性時間。
在Agent的擴展邊界上,GenFlow 2.0兼容MCP協議,意味著其“中樞大腦”可以靈活接入更多第三方服務、工具,甚至硬件設備。這種開放架構避免了對單一技術路線的依賴,為未來的功能擴展和生態合作奠定了基礎。
榮耀作為全球首批接入MCP生態的硬件廠商,已經將GenFlow 2.0原生接入榮耀智能助理YOYO,實現了AI Agent與硬件廠商的系統級原生調度。這種合作模式預示著AI Agent正在從軟件應用向操作系統級服務演進。
對于用戶而言,百度文庫的公域知識庫與用戶授權后的百度網盤私域數據解決了Agent記憶的關鍵問題,為Agent提供了強大的個性化認知基座。系統可以同時調用超14億專業內容資源、6.8億篇學術文獻,以及用戶個人的文件、歷史記錄、偏好設定,實現真正的個性化智能服務。
對比當前主流的單點工具型Agent和Copilot類助手,GenFlow 2.0在統一調度、多端適應、生態開放等方面展現出的組合優勢,正在定義一個更接近下一代AI Agent標準。
回歸本質:“好用”才是終極奧義
GenFlow 2.0的問世,根植于百度文庫(AI MAU 9700萬)和百度網盤(10億+用戶)兩大國民級應用的深厚積累。海量用戶在跨端、多任務、個性化場景中的真實需求,直接推動了"統一調度中樞"和"全端自適應"架構的誕生,這是百度“讓AI真正有用”的另一種體現。
可以說,GenFlow 2.0的突破性表現,很大程度上得益于百度獨特的AI全棧布局優勢。
![]()
這種"芯片-框架-模型-應用"的垂直整合體系,為復雜Agent系統提供了端到端的深度優化能力。昆侖芯在芯片層提供的強大算力支撐,確保了上百個Agent并行調度的實時響應;飛槳框架層的動態圖與分布式訓練能力,成為實現復雜Multi-Agent動態調度的技術中軸;文心大模型層通過MoE架構的靈活集成,構建起專業Agent的智能內核;而文庫網盤應用層既是需求源頭,也是能力沉淀與數據融合的載體。
相比依賴第三方API或模型的競品,百度能夠在算力調度、模型推理、數據流轉等關鍵環節進行系統級優化,從而實現更低的延遲、更高的穩定性和更精準的個性化體驗。這也是百度區別于純模型廠商或純應用廠商的核心差異化優勢。
從概念驗證走向實用工具,從單點應用走向系統能力。當Agent系統變得日益復雜,涉及多模態處理、實時協同、跨端同步等高難度技術挑戰時,考驗的,正是廠商技術積累的厚度與廣度。
而百度憑借十余年AI全棧布局與億級用戶場景沉淀,正在這場長跑中,展現出獨特的競爭優勢。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.