網易首頁 > 網易號 > 正文申請入駐

Paper2Video開創學術視頻自動化新范式，實現分鐘級生成

2025-10-23 19:11:32　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在，歡迎加入共同成長。

學術展示視頻作為科研交流的重要媒介，制作過程仍高度依賴人工，需要反復進行幻燈片設計、逐頁錄制和后期剪輯，往往需要數小時才能產出幾分鐘的視頻，效率低下且成本高昂，這凸顯了推動學術展示視頻自動化生成的必要性。然而，與自然視頻生成不同（如Sora2、Veo3等擴散模型），學術展示視頻面臨以下獨特挑戰：

長文檔與高密度輸入(Multi-modal Long-context Input): 來源于完整學術論文，包含大段專業文本、復雜公式、多幅圖表，遠超自然視頻的輸入復雜度。
多模態通道的協同生成(Coordination of Multiple Aligned Channels): 需要同時生成并對齊幻燈片、字幕、語音、光標軌跡與講者視頻，保證多模態之間的語義一致性與時序同步。
缺乏專門的評價標準(Lacks Well-defined Evaluation Metrics): 現有視頻生成指標主要關注畫面質量或風格一致性，難以衡量學術展示視頻在知識傳遞、受眾理解與學術可用性上的效果。

因此，現有自然視頻生成模型和簡單的幻燈片+語音拼接方法難以勝任，亟需一個系統化的基準和方法來推動自動化、可用的學術視頻生成。為了解決以上挑戰，新加坡國立大學 Show Lab 團隊提出了Paper2Video基準對學術展示視頻進行評價，并提出一個多智能圖框架PaperTalker，為實現自動化和可用的學術視頻生成邁出切實可行的一步。目前Paper2Video的代碼已上線了始智AI-wisemodel開源社區，歡迎體驗。

代碼地址

https://wisemodel.cn/codes/Zeyu/Paper2Video

01.

Paper2Video評價基準及指標

1.1評價基準

圖1: Paper2Video概覽

為了評價學術展示視頻的質量，本文收集了101片論文和對應的作者錄制的學術展示視頻作為測試基準，并從學術展示視頻的用途出發，提出了四個評價指標: Meta Similarity, PresentArena, PresentQuiz和IP Memory。

圖2: Paper2Video基準統計概覽

Paper2Video基準收集了來自近三年頂會的 101 篇論文及其作者錄制的展示視頻，涵蓋機器學習、計算機視覺與自然語言處理領域。每個樣例包含論文 LaTeX 工程、幻燈片、展示視頻、講者肖像與語音樣本，其中部分還提供原始 PDF 幻燈片。數據統計顯示，論文平均 13.3K 字、44.7 幅圖表，展示視頻平均 16 頁幻燈片、時長 6 分鐘。作為首個系統化的學術展示視頻基準，它為多模態長文檔輸入與多通道輸出（幻燈片、字幕、語音、光標、講者）的生成與評估提供了可靠依據，為推動自動化學術展示視頻生成奠定了基礎。

1.2評價指標設計

圖3: Paper2Video評價指標設計

本文從學術展示視頻的用途出發，認為其質量應從三個核心視角進行衡量：

類人一致性：生成的視頻應與作者精心設計的人類版本保持相似，反映人類偏好。

信息傳遞性：生成的視頻應盡可能涵蓋論文中的關鍵信息，并被受眾正確理解。
學術影響力：生成的視頻應能突出作者的學術身份，并增強觀眾對該工作的記憶。

基于上述視角，團隊設計了四個互補的評價指標：

Meta Similarity——類人相似度（內容級）: 比較生成的幻燈片、字幕和語音與人類版本的一致性，衡量生成結果在細節和風格上的接近程度。
PresentArena——類人一致性（觀感級）: 使用 VideoLLM 作為代理觀眾進行成對對比，從清晰度、流暢性與吸引力等維度判斷生成視頻是否符合人類偏好。
PresentQuiz——信息傳遞性:通過基于論文構造選擇題，使用VideoLLM 作為代理觀眾進行問答，測試生成視頻能否覆蓋并有效傳遞論文中的關鍵信息。
IP Memory——學術影響力: 模擬會議場景，使用VideoLLM 作為代理觀眾，評估觀眾是否能夠在觀看后將視頻與作者身份和研究工作正確關聯，反映學術可見性與記憶度。

四個指標共同構建了一個覆蓋類人偏好、信息傳遞與學術記憶的系統化評價框架，為學術展示視頻生成的客觀測評提供了可靠依據。

02.

PaperTalker多智體架構

2.1PaperTalker關鍵構建模塊

圖4: PaperTalker流程簡介

為解決學術展示視頻制作繁瑣且難以自動化的問題，本文提出了PaperTalker —— 首個支持學術展示視頻生成的多智能體框架，用于處理這一具有長時依賴的多模態智能體任務（Long-horizon Multi-modal Agentic Task）。該框架以研究論文、講者圖像與語音樣本為輸入，自動生成包含幻燈片、字幕、語音、光標軌跡和講者視頻(slide creation, subtitling, speech, cursor highlight, talking head) 的完整展示視頻。

PaperTalker 由四個關鍵構建模塊組成：
1、Slide Builder：基于論文內容生成 LaTeX Beamer 幻燈片，并引入Tree Search Visual Choice模塊克服大語言模型在細粒度數值調整上的局限，從而優化版面布局，確保幻燈片布局合理設計。
2、Subtitle Builder：利用視覺語言模型從幻燈片提取關鍵信息，生成逐句字幕及對應的視覺焦點提示詞。
3、Cursor Builder：結合UI-Grounding和WhisperX模型，實現光標在時間和空間上的精準對齊，在演講過程中，引導觀眾關注關鍵信息。
4、Talker Builder：根據講者肖像與語音樣本，合成身份一致、唇形同步的個性化講者視頻，并支持逐頁并行生成以提升效率。
由此，PaperTalker 通過模塊化的多智能體協作，實現了可控、個性化、學術風格化的展示視頻生成。

2.2高效魯棒的幻燈片生成

在學術展示視頻生成任務中，我們測試發現LaTeX/Beamer 在輸出效果與穩定性上顯著優于 pptx，能夠直接生成學術風格的幻燈片。但在此過程中，即便是閉源 VLM 也難以魯棒地判斷視覺元素（如圖片文字大小、排版比例），導致基于多輪交互的參數調優效率極低。

圖5: Tree Search Visual Choice模塊

為此，本文提出Tree Search Visual Choice：針對給定的視覺素材，預設一組比例參數，渲染得到多種候選布局，并將這些候選拼接成單張大圖，交由 VLM 進行一次性的多選比較，從而將低效的多輪參數搜索轉化為高效的單輪視覺判別，實現圖像尺寸與布局的自動優化。

2.3空間-時間對齊的光標生成

本文進一步探討了如何模擬人類在講解過程中使用鼠標的行為。光標軌跡能夠引導觀眾聚焦于幻燈片的關鍵區域，但實現這一點需要將幻燈片和演講內容與光標停留點—時間戳—屏幕空間坐標 (x, y, t)建立起對應關系。為此，團隊引入Computer-Use和WhisperX模型分別進行空間和時間的標定，實現了時間與空間的雙重對齊。具體來說，首先基于幻燈片內容生成逐句字幕及視覺焦點提示，然后利用 UI-TARS 將提示 grounding 為屏幕坐標 (x, y)，再通過 WhisperX 獲取詞級時間戳并對齊到對應的字幕句子，從而得到精確的光標軌跡 (x, y, t)。

2.4高效Talking-head生成

在學術展示視頻生成中，講者部分對于增強觀眾參與感和體現研究者的學術身份至關重要。然而，Talking-Head 渲染通常需要數小時才能生成幾分鐘的視頻，而且部分模型甚至無法原生支持長時段視頻的生成，這嚴重限制了方法的可擴展性與實用性。為此，本文提出一種高效的解決方案：首先，基于每頁幻燈片的字幕與講者的語音樣本，利用F5-TTS合成逐頁的個性化語音；隨后，結合Hallo2（高保真頭像驅動）與FantasyTalking（支持上半身動作）生成對應的講者視頻。

受到人類逐頁錄制習慣的啟發，我們進一步將講者生成過程劃分為獨立的幻燈片片段，并行化執行每頁的語音合成與視頻渲染。由于幻燈片間存在自然的硬切換，且無需保持跨頁的動作連續性，這種設計既保證了身份一致性與唇形同步，又顯著提升了整體效率，實驗證明這種方式實現了超過6 倍的加速。

03.

基于Paper2Video基準的實驗與評估

在實驗中，本文對比了三類方法：(i)端到端方法（如 Wan2.2、Veo3），直接從文本或提示生成視頻；(ii)多智能體框架（如 PresentAgent、PPTAgent），將論文內容轉化為幻燈片并結合文本轉語音生成展示視頻；(iii)本文提出的 PaperTalker，通過幻燈片生成與布局優化、字幕與光標對齊以及個性化講者合成來生成的學術展示視頻。

3.1學術演示視頻性能比較

圖6: 學術演示視頻性能比較

Meta Similarity（相似度）：PaperTalker 在幻燈片、字幕和語音的相似度上均取得最高分，說明其生成結果與人類作品最為接近。個性化Text-to-Speech模型與基于 Beamer 的幻燈片生成設計顯著提升了相似度表現。
PresentArena（觀感質量對比）：在與人類視頻的成對對比中，PaperTalker 獲得最高的勝率，說明PaperTalker視頻觀感質量最高。同時，相比去掉講者和光標的變體，完整的 PaperTalker 視頻更受偏好，表明講者與光標均有貢獻。
PresentQuiz（知識傳遞）：PaperTalker 在問答準確率上超過了其他基線方法，能夠更好地覆蓋論文信息。缺少講者和光標的版本會導致性能下降，表明這些模塊有助于增強信息傳遞。
IP Memory（學術記憶度）：PaperTalker 在觀眾識別作者與作品的一致性上表現最佳。引入講者視頻（面孔與聲音）顯著提升了記憶效果。
人類主觀評價：人類評價結果顯示，人類錄制視頻得分最高，PaperTalker 次之，且顯著優于其他方法，接近人類水平。

實驗結果表明，本文提出PaperTalker 在 Meta Similarity、PresentArena、PresentQuiz 和 IP Memory 四個維度均取得最佳表現：其生成的幻燈片、字幕與語音更接近人類作品，整體觀感更受偏好，知識傳遞更完整，且在學術身份記憶方面更具優勢；同時，人類主觀評價也顯示 PaperTalker 的視頻質量接近人工錄制水平。

3.2模型效率比較

圖7: 模型效率比較

PaperTalker 在生成成本上最低。其效率主要來自三個方面：(i) 基于 Beamer 的幻燈片生成顯著減少了 token 消耗；(ii) 引入輕量化的 tree search visual choice 作為幻燈片的后處理；(iii) 采用并行的 talking-head 生成機制縮短了整體運行時間。相比之下，PresentAgent由于在幻燈片編輯過程中頻繁依賴大模型查詢，導致成本更高。

3.3消融實驗

3.3.1. 光標提示對信息定位與理解的貢獻

圖8: 光標提示消融實驗

光標提示通過提供顯式空間線索，幫助觀眾和 VLM 更好地定位幻燈片中的關鍵信息。為驗證這一點，本文設計了定位問答任務，比較有無光標情況下的答題準確率。結果顯示，帶光標的視頻準確率顯著更高，證明了光標在增強學術展示視頻的視覺定位與內容可達性方面的重要作用。

3.3.2. Tree Search Visual Choice 在幻燈片質量提升中的作用

圖9: Tree Search Visual Choice消融實驗

為評估 Tree Search Visual Choice 模塊的貢獻，本文進行了消融實驗（表 5），利用 VLM 從內容、設計與連貫性三個維度對生成的幻燈片進行 1–5 分評價。結果顯示，當去除該模塊時，幻燈片的設計質量明顯下降，說明該方法在解決版面溢出問題、提升整體設計質量方面發揮了關鍵作用。圖9展示了該模塊的性能。

圖10: Tree Search Visual Choice可視化

本文提出 Paper2Video 基準與 PaperTalker 框架，為學術展示視頻生成提供了系統化任務與評測體系。實驗驗證了其在信息傳遞、觀感質量與學術記憶方面的優勢，生成效果接近人工水平。我們期待這項工作能推動 AI4Research 的發展，促進科研交流的自動化與規模化。

本研究由新加坡國立大學 Show Lab 團隊主導完成。共一作者 Zeyu Zhu 祝澤宇（博士生）與 Kevin Qinghong Lin 林慶泓（博士生）均來自 ShowLab@NUS，聚焦于多模態理解以及智能體（Agent）研究。項目負責人為新加坡國立大學校長青年助理教授 Mike Zheng Shou 壽政。

編輯丨趙雅鑫

----- END -----

wisemodel相關：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區，為了加快公司發展，我們長期需要技術、運營等人才加盟，技術側重在AI infra、后端開發，熟悉K8S、模型訓練和推理等技術，以及熟悉開發者生態運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.