337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

CVPR 2026|AI開始會拍電影了:一分鐘十鏡頭,全程不崩劇情

0
分享至



安照崇現為哥本哈根大學博士生,隸屬于 Pioneer Centre for Artificial Intelligence 和 ELLIS 項目,導師為 Serge Belongie 教授。他于 2023 年獲得蘇黎世聯邦理工學院(ETH Zurich)計算機科學碩士學位,導師為 Luc Van Gool 教授。他的研究方向主要包括三維理解、視頻生成以及多模態模型。

多鏡頭視頻生成是自然世界敘事的重要表達形式,也是視頻生成領域中一個挑戰性的研究方向。

與單鏡頭視頻不同,多鏡頭視頻并不是簡單地把幾個片段拼接起來,而是要求模型同時處理兩類信息:一類需要在不同鏡頭之間保持穩定,例如人物身份、環境主體和故事主線;另一類則需要隨著敘事自然變化,例如視角切換、動作推進和場景轉場。

這一任務通常可以定義為:給定每個 shot 的 prompt,以及一個可選的初始圖像作為首幀條件,模型需要生成多個 shot,并同時維持跨 shot 的內容一致性和對每個 shot prompt 的準確遵循。

這意味著,模型必須能夠持續維護長程的跨鏡頭上下文。然而,現有方法大致存在兩類局限:一類方法依賴固定窗口,在窗口內同時生成多個 shot,但隨著窗口滑動,較早鏡頭的信息會被丟棄;另一類方法先生成各 shot 關鍵幀,再以關鍵幀為條件生成各 shot,但這樣限制了 shot 間交互,難以有效傳遞 shot 內更復雜的敘事細節。

最近,來自 Meta 與 University of Copenhagen 的研究者提出了 OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory(收錄于 CVPR 2026)。



論文地址:https://arxiv.org/pdf/2512.07802

這項工作聚焦于一個核心問題:如何在生成多鏡頭視頻時,有效保留長程跨鏡頭上下文,從而實現更強的敘事一致性。其核心思路,是為多鏡頭視頻生成建立一種全局但緊湊的跨鏡頭記憶機制。



圖 1 OneStory 可生成分鐘級、十鏡頭的長視頻故事,在復雜敘事推進過程中保持人物與場景的一致性;同時統一支持 image-to-multi-shot 與 text-to-multi-shot 兩種生成設置,并在 out-of-domain 場景中展現出良好的泛化能力。

OneStory 做了什么?



圖 2 OneStory 的訓練與推理流程示意圖。訓練階段,模型以前兩個 shot 為條件生成第三個 shot;推理階段,模型根據輸入 caption 按 shot-by-shot 的方式逐步生成多鏡頭視頻。

OneStory 首先將多鏡頭視頻生成重新表述為一個更自然的問題:next-shot generation。也就是說,模型不再一次性生成整段長視頻,而是像講故事一樣,基于前面已經生成的鏡頭,生成下一個鏡頭(每個鏡頭同時生成)。這樣的設定實現了shot-by-shot的自回歸式多鏡頭生成。

與此同時,OneStory 以預訓練的 image-to-video 基礎模型作為初始化,因此可以自然繼承基礎模型本身強大的視覺條件生成能力。通過這樣的任務重構,OneStory 的第一個 shot 可以由用戶通過使用任一 text-to-video 或 image-to-video 模型得到,而后續 shot 則由 onestory 根據輸入的shot prompt 逐步生成。

也正因如此,OneStory 能夠在同一個模型中統一支持text-to-multi-shot video和image-to-multi-shot video兩種生成方式。



圖 3 OneStory 中 Frame Selection 和 Adaptive Conditioner 的結構示意圖。兩者共同實現了自適應記憶建模,從而支持全局但緊湊的跨鏡頭上下文表示,用于連貫的敘事生成。

在此基礎上,OneStory 設計了兩個關鍵模塊。

1. Frame Selection:找到真正相關的歷史 memory

并不是所有前序鏡頭對當前鏡頭的生成都同等重要。

例如,第 1 個鏡頭中出現主角,第 2 個鏡頭切換到配角,第 3 個鏡頭又回到主角。那么在生成第 3 個鏡頭時,第 1 個鏡頭往往比第 2 個鏡頭更關鍵。基于這種跨鏡頭相關性不均等的現象,OneStory 引入了Frame Selection模塊,從所有歷史鏡頭中自動挑選出與當前鏡頭 prompt 在語義上最相關的一些幀,作為當前 shot 生成時的 memory。

這一設計不僅避免了固定窗口滑動帶來的遺忘問題,也使模型能夠真正構建起全局的跨鏡頭上下文。



圖 4 與以往方法按時間順序機械分配 patchifier 不同,Adaptive Conditioner 根據內容相關性動態分配不同粒度的 patchifier,從而更高效地利用跨鏡頭記憶。

2. Adaptive Conditioner:把 memory 壓縮成高效條件信息

僅僅 「記住」還不夠,如何高效地將這些歷史信息輸入生成器同樣關鍵。

OneStory 的Adaptive Conditioner會根據 Frame Selection 模塊預測的重要性,對選中的歷史幀進行自適應patchification:更重要的信息保留更細粒度的表示,不那么關鍵的信息則被更強地壓縮。這樣一來,模型就在計算成本可控的前提下,將歷史上下文轉化為緊湊而有效的條件信號,并直接注入生成過程。



圖 5 多 shot 視頻數據收集流程

此外,論文沒有沿用「整段故事需要一個總腳本,再輔以分鏡頭定義」的數據構建方式,而是僅保留分鏡頭 prompt,并將每個鏡頭寫成帶有前文指代關系的描述。這樣的數據形式更貼近真實的故事講述邏輯,也讓用戶的提示控制更加簡化。

實驗結果



圖 6 定性比較結果。OneStory 能夠更忠實地遵循 shot-level captions,生成在內容和敘事上更加連貫的多鏡頭視頻。

各實驗表明,OneStory 能夠在復雜提示不斷變化的情況下持續推進敘事,同時保持人物和環境的一致性。論文中也提供了對 OneStory 在復雜敘事場景中的表現分析,包括:

  • 外觀變化下的人物一致性保持
  • 從大全景到局部特寫時的空間定位能力
  • 人與物體交互發展過程中的敘事延續能力

這些現象說明,OneStory 學到的并不只是表層的視覺連續性,而更接近于一種跨鏡頭敘事理解能力。

OneStory 的意義是什么?

如果說單鏡頭視頻生成解決的是「把一段畫面做出來」,那么多鏡頭視頻生成真正要解決的,就是「把一個故事講下去」。

OneStory 給出的答案是:不是一味拉長上下文窗口,也不是依賴單張關鍵幀,而是通過自適應記憶建模,在全局信息建模能力和計算效率之間找到平衡。它讓模型在跨鏡頭生成時,既能夠記住過去,又不會被冗余信息淹沒。

對于長視頻生成和可控世界模型而言,這是一條非常值得關注的方向,因為 OneStory 為視頻模型提供了一種有效的自適應 memory 管理機制,也為更長時程、更高一致性的視頻生成打開了新的可能。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國的陰謀藏不住了!臺海南海就是幌子,真正目標是中國最大王牌

美國的陰謀藏不住了!臺海南海就是幌子,真正目標是中國最大王牌

歲暮的歸南山
2026-04-18 20:00:55
前世界第一中鋒!天王山統治內線取賽點:總決賽三戰69+36+6帽

前世界第一中鋒!天王山統治內線取賽點:總決賽三戰69+36+6帽

顏小白的籃球夢
2026-04-20 09:46:55
人心惶惶!兩位經理被裁拿到23萬、13萬補償,重慶網友發帖引熱議

人心惶惶!兩位經理被裁拿到23萬、13萬補償,重慶網友發帖引熱議

火山詩話
2026-04-20 05:59:58
“我老公喜歡大胸,能做多大做多大”,女子身高174,體重47公斤,想做隆胸手術被醫生勸退,醫生:她本身是A減,一心想做E杯

“我老公喜歡大胸,能做多大做多大”,女子身高174,體重47公斤,想做隆胸手術被醫生勸退,醫生:她本身是A減,一心想做E杯

觀威海
2026-04-07 10:15:03
蔚來樂道L90殺到!48小時席卷全國,友商瑟瑟發抖?

蔚來樂道L90殺到!48小時席卷全國,友商瑟瑟發抖?

三農老歷
2026-04-19 22:01:29
表妹和表哥偷情大瓜:8年感情歸零,表妹不滿表哥分手曝兩人奸情

表妹和表哥偷情大瓜:8年感情歸零,表妹不滿表哥分手曝兩人奸情

江山揮筆
2026-04-18 20:54:36
交錢也炸!伊朗內斗,全球驚呆

交錢也炸!伊朗內斗,全球驚呆

思哲與創富
2026-04-20 09:59:58
48歲的老阿姨,這氣質可以打多少分

48歲的老阿姨,這氣質可以打多少分

鄉野小珥
2026-04-20 09:26:48
驚天內幕!中國專家揭露美國攻打伊朗的真正目的,竟然是這個!

驚天內幕!中國專家揭露美國攻打伊朗的真正目的,竟然是這個!

橙色書卷
2026-04-18 22:56:03
日本爆冷奪冠!朝鮮U20女足全場0進球,球員賽后黑臉拒絕握手

日本爆冷奪冠!朝鮮U20女足全場0進球,球員賽后黑臉拒絕握手

談史論天地
2026-04-19 13:52:15
“磨膝大戶”被公布,是跑步的20倍,醫生:不想軟骨磨光,早扔掉

“磨膝大戶”被公布,是跑步的20倍,醫生:不想軟骨磨光,早扔掉

垚垚分享健康
2026-04-19 14:35:09
久保建英成為首個奪得國王杯的日本球員,也是其個人生涯首冠

久保建英成為首個奪得國王杯的日本球員,也是其個人生涯首冠

懂球帝
2026-04-19 15:42:52
初中就是:抓好初一,穩住初二,盯緊初三!

初中就是:抓好初一,穩住初二,盯緊初三!

好爸育兒
2026-04-20 08:34:38
71.5%!歷史性暴跌,以貸養貸的泡沫崩了

71.5%!歷史性暴跌,以貸養貸的泡沫崩了

月滿大江流
2026-04-16 13:54:38
一夜成名!張雪的岳父登上熱搜,被麻陽當地領導邀請參加騎行活動

一夜成名!張雪的岳父登上熱搜,被麻陽當地領導邀請參加騎行活動

火山詩話
2026-04-19 17:46:25
SpaceX:受天氣影響,GPS III-8發射任務調整為4月21日

SpaceX:受天氣影響,GPS III-8發射任務調整為4月21日

界面新聞
2026-04-20 10:43:44
我媽93歲,獨居自理,她的長壽秘訣就六個字:別老想著走動!

我媽93歲,獨居自理,她的長壽秘訣就六個字:別老想著走動!

蟬吟槐蕊
2026-04-19 06:23:45
砂之船關聯企業5.78億元拍下上海閔行爛尾商業項目 擬打造亞洲最大單體奧特萊斯

砂之船關聯企業5.78億元拍下上海閔行爛尾商業項目 擬打造亞洲最大單體奧特萊斯

觀點機構
2026-04-20 09:36:06
拉夫羅夫:西方將烏克蘭推向更大范圍沖突 俄方耐心有限

拉夫羅夫:西方將烏克蘭推向更大范圍沖突 俄方耐心有限

財聯社
2026-04-19 17:41:04
被章若楠“卷發高馬尾造型”驚艷了!藍衣灰裙,盡顯青春女大感!

被章若楠“卷發高馬尾造型”驚艷了!藍衣灰裙,盡顯青春女大感!

明星私服穿搭daily
2026-04-20 10:19:01
2026-04-20 11:16:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12801文章數 142632關注度
往期回顧 全部

藝術要聞

王羲之《換鵝帖》尚在人間,驚艷無比!

頭條要聞

失蹤女老板被找到 嫌犯曾改名整容還催警察"還我清白"

頭條要聞

失蹤女老板被找到 嫌犯曾改名整容還催警察"還我清白"

體育要聞

七大獎項候選官宣!文班或全票DPOY

娛樂要聞

章子怡!增重20斤素顏拍新片

財經要聞

月之暗面IPO迷局

科技要聞

藍色起源一級火箭完美回收 客戶衛星未入軌

汽車要聞

外觀非常驚艷 全新一代寶馬6系有望回歸

態度原創

家居
旅游
教育
本地
公開課

家居要聞

法式線條 時光靜淌

旅游要聞

去藝術現場,赴一次深度游

教育要聞

給孩子最深的滋養:一半愛護,一半需要

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版