![]()
天下苦 PPT 久矣。
體驗過市面上各種 AI 生成 PPT 工具的人,往往都會遇到同樣的痛點:排版崩壞、內容空洞、經不起推敲。 為什么會這樣?因為目前的通用大語言模型(LLM)寫 PPT,本質上是在對話框里 “盲寫” 代碼或文本。它們既沒有真正的 “手” 去查閱權威文獻,也沒有真正的 “眼睛” 去審視自己排版出來的最終效果。
近日,中國科學院軟件研究所中文信息處理實驗室開源了第二代 PPTAgent --DeepPresenter。這是業界首次將幻燈片智能體模型與完整的智能體沙箱環境一同開源,更能支持在單張 3090/MAC 上一鍵部署。它徹底重構了 AI 制作 PPT 的邏輯,讓智能體不僅能 “深度探索”,還能 “親眼所見”。
![]()
- GitHub 鏈接: https://github.com/icip-cas/PPTAgent
- HuggingFace鏈接: https://huggingface.co/collections/ICIP/deeppresenter
- 論文鏈接: https://arxiv.org/abs/2602.22839
核心破局點:給智能體裝上 “眼睛” 與 “手”
DeepPresenter 放棄了傳統的 “語言模型直接生成” 路徑,而是將智能體置入了一個全功能的 Docker 沙箱環境(Shared Agent Environment)中,直接切中目前 AI 辦公的兩大痛點:
痛點一:內容全是 “車轱轆話” 和幻覺?
解決:構建強大的智能體環境,賦予其研究和閱讀的 “手”。
在 DeepPresenter 中,智能體手握 20+ 種專業工具。它不僅能通過 MinerU 深度解析復雜的 PDF 文獻,還能實時連接 arXiv 和 Google Scholar 進行有據可查的深度調研(DeepResearch),甚至可以直接運行 Python 代碼來繪制數據圖表,確保 PPT 內容的專業度與數據準確性。
![]()
痛點二:排版錯亂、文字擋圖?
解決:環境感知反思機制(Environment-Grounded Reflection),給它加上 “眼睛”。
以往的模型不知道自己生成的排版長什么樣。而 DeepPresenter 形成了一套 “寫→看→改” 的視覺閉環。Presenter 智能體每寫完一頁代碼,都會調用沙箱內的瀏覽器將其渲染成真實圖片,然后 “親眼” 檢查這張截圖。標題被擋住了?對比度不夠?它會像人類設計師一樣立即進行自適應調整并回爐重造,直到視覺效果完美。
![]()
案例演示
只需一行極其簡單的指令,即可體驗這種全新的 Agentic 工作流:
接收指令后,DeepPresenter 會立即啟動:Researcher在自動檢索相關的相關資料和高清圖片;隨后交棒給Presenter,根據呈現主題設計相稱的風格,最終輸出一份內容扎實、樣式精美的幻燈片。
![]()
幫我做一個小米 SU7 的 PPT
![]()
制作一份4:3幻燈片,以美國自由漫畫師視角分享創作《超級戰隊》與《假面騎士》同人作品的實用技巧,涵蓋理解原作、發展風格、捕捉角色、編寫故事及建立粉絲社群
![]()
幫我做一份關于羅賓漢(Robin Hood)的介紹 PPT,包含歷史背景、傳奇故事和文化影響。
更重要的是,所有生成內容均為 .pptx 可編輯格式,支持自由修改與二次創作,徹底擺脫類似 nanobanana 那樣 “生成后無法編輯” 的困擾,讓 PPT 創作真正可控、高效、靈活。
![]()
核心技術:如何煉成 “最強 PPT 智能體”?
DeepPresenter 之所以能以 9B 參數實現 “下克上”,核心在于其創新的訓練流水線(Pipeline):
![]()
1.數據構建:團隊基于 PersonaHub 與 arXiv 等多源數據集構建了高多樣性的任務數據。通過在指令中顯式定義頁數限制、長寬比及語言策略等細粒度約束條件,確保模型在訓練階段即建立了對復雜用戶意圖的深度語義表征。
2.外在驗證引導:為了打破智能體 “自我感覺良好” 的驗證偏差(Self-verification Bias),團隊引入了獨立評審機制。在訓練數據合成階段,由獨立模型作為 “獨立評估者” 指出生成產物中的排版或邏輯缺陷,引導智能體產生高質量的執行軌跡
3.多級軌跡過濾:團隊從 1,152 個任務中篩選出 802 條頂級質量的智能體軌跡進行 SFT 訓練。這些軌跡涵蓋了中英雙語、多種寬高比及復雜的指令約束。
性能實測:消費級顯卡下的極限表現
為了全面驗證 DeepPresenter 的實際效果,作者在預留的 128 個任務上使用 PPTEval 進行了系統評測,并與三種主流幻燈片生成方案進行了對比。
![]()
在此基礎上,作者進一步分析了不同模型設置下的成本 — 性能表現,從 “效果” 和 “成本” 兩個維度進行綜合評估。
![]()
結果表明:DeepPresenter-9B 取得了 4.19 的高分,表現與閉源模型 GPT-5(4.22)幾乎持平,并且 DeepPresenter 顯著優于其他的幻燈片生成方案。
更值得關注的是,在成本 — 性能曲線中,DeepPresenter-9B 位于前沿的 “突變點” 位置,意味著在性能與價格之間達到了極具競爭力的平衡。
換句話說,它用GPT-5 幾十分之一的算力成本,實現了同等級別的智能表現。這也意味著 —— 在消費級顯卡上,我們就能夠運行一個媲美頂級閉源模型的 PPT 智能體。
目前,DeepPresenter 項目已完全開源,歡迎開發者共同構建 Presentation Agent 的未來。
作者介紹:
本開源項目以及論文作者均來自中國科學院軟件研究所中文信息處理實驗室孫樂研究員、韓先培研究員團隊,主要作者包括鄭昊、莫國釗、陳軒昂、陸垚杰及林鴻宇。實驗室的主要研究領域包括大模型和大模型驅動智能體的知識機制、知識能力增強及應用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.