337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI視頻不再串戲:免訓(xùn)練精準(zhǔn)控制多段動作,SwitchCraft一招破解

0
分享至



近年來,隨著 Sora、Seedance 等文本到視頻(T2V)擴散模型的飛速發(fā)展,AI 視頻生成在視覺保真度與動態(tài)表現(xiàn)上已取得突破性進展。特別是近期備受矚目的 Seedance 2.0,展現(xiàn)出了極其強大的多鏡頭敘事與復(fù)雜分鏡控制能力。 僅需一段文本提示,生成模型即可合成具備高度物理規(guī)律與電影級質(zhì)感的視頻片段。

然而,當(dāng)我們審視當(dāng)前的開源視頻擴散模型時,一個嚴(yán)峻的技術(shù)瓶頸依然存在:在卓越的單場景生成效果背后,它們大多針對 “單事件” 生成進行優(yōu)化,難以駕馭包含多個連續(xù)動作或復(fù)雜場景切換的時序敘事。 面對包含明確時序遞進的復(fù)雜指令時,開源模型的指令依從性往往面臨巨大挑戰(zhàn)。

當(dāng)模型處理 “多事件” 的提示詞時,由于缺乏顯式的幀級時間約束,往往會表現(xiàn)出顯著的性能衰退。具體而言,模型極易產(chǎn)生語義特征糾纏,導(dǎo)致多個動作在時空維度發(fā)生違背物理常識的重疊與坍縮;亦或是出現(xiàn)事件遺漏,完全忽略提示詞中的部分關(guān)鍵動作,從而徹底破壞預(yù)期的敘事邏輯。



圖注:在無時序控制的基線模型中,多個動作特征在時空維度發(fā)生嚴(yán)重坍縮,而采用了 SwitchCraft 框架后,系統(tǒng)成功實現(xiàn)了細粒度的對齊,人物動作演進清晰分明,指令依從性得到了顯著提升。

為突破這一多事件視頻生成的技術(shù)壁壘,西湖大學(xué) AGI 實驗室的研究團隊提出了一種全新的免訓(xùn)練多事件視頻生成框架SwitchCraft。該框架創(chuàng)新性地引入了底層注意力控制機制,在不更新任何基礎(chǔ)大模型參數(shù)的前提下,實現(xiàn)了對視頻注意力的精準(zhǔn)時序引導(dǎo)。它不僅確保了復(fù)雜動作的按序生成,同時維持了極高的視覺保真度與主體一致性。

目前,該研究成果已成功入選計算機視覺頂級會議CVPR 2026。項目代碼與演示主頁均已開源。



第一作者為在西湖大學(xué) AGI 實驗室訪問的大三本科生徐千尋,指導(dǎo)老師為西湖大學(xué) AGI 實驗室助理教授張馳。



  • 論文標(biāo)題:SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls
  • 論文鏈接:https://arxiv.org/abs/2602.23956
  • 項目地址:https://switchcraft-project.github.io
  • Github:https://github.com/Westlake-AGI-Lab/SwitchCraft

技術(shù)痛點:多事件視頻生成的底層困境

要理解 SwitchCraft 的學(xué)術(shù)貢獻,首先需要剖析現(xiàn)有視頻擴散模型在處理 “多事件” 任務(wù)時的底層缺陷。

在當(dāng)前的視頻生成架構(gòu)(如基于 Diffusion Transformer 的擴散模型)中,文本提示詞的特征通常通過交叉注意力機制(Cross-Attention)在整個時間軸上被均勻分布與注入。模型缺乏一種內(nèi)在機制來建立 “特定時間段” 與 “特定文本事件” 之間的強映射關(guān)系。這導(dǎo)致不同時間維度的語義特征在全局幀中發(fā)生嚴(yán)重的特征泄漏,最終呈現(xiàn)出動作的異常疊加或?qū)傩缘腻e誤融合。

此前,業(yè)界嘗試的替代方案通常是 “分段生成與拼接”,即強行將長文本拆分為多個獨立子事件,分別生成視頻后再進行組合。然而,這種自回歸或基于拼接的方法會引發(fā)致命的主體特征退化:在場景或動作切換時,視頻極易出現(xiàn)生硬的跳切,核心主體的外觀特征及背景環(huán)境往往無法在轉(zhuǎn)場前后保持時空一致性。

如何不拆分生成、不破壞時序連貫性的前提下,引導(dǎo)模型精準(zhǔn)響應(yīng)復(fù)雜的時間線索?這正是 SwitchCraft 致力于解決的核心挑戰(zhàn)。

方法概述:精準(zhǔn)注意力時序控制



SwitchCraft 的核心創(chuàng)新在于:通過直接干預(yù)底層模型的注意力響應(yīng)模式,實現(xiàn)隱幀級別的語義解耦。

作為一個免訓(xùn)練框架,SwitchCraft 具備極高的泛化性與實用性。它無需消耗高昂的計算資源對現(xiàn)有的視頻大模型進行重新訓(xùn)練或微調(diào),即可作為即插即用的模塊集成至現(xiàn)有流水線中。該框架主要由兩大核心組件構(gòu)成:

貢獻一:事件對齊的查詢引導(dǎo) (Event-Aligned Query Steering, EAQS)

在主流的視頻擴散模型中,視覺生成高度依賴于交叉注意力機制:即通過隱幀提取的視覺查詢向量(Visual Queries)去匹配文本提示詞的鍵特征(Textual Keys)。EAQS 模塊直接介入這一底層計算過程,以實現(xiàn)時序上的語義隔離。

  • 時序綁定與事件劃分: EAQS 首先接收全局文本提示,每個獨立事件對應(yīng)的錨點(Anchor Tokens),以及用戶設(shè)定的事件時間邊界。EAQS 會根據(jù)用戶設(shè)定的時間跨度,將視頻幀劃分為不同的事件區(qū)間。對于任意一個具體的生成幀(例如:第 0~2 秒),系統(tǒng)會自動將當(dāng)前應(yīng)當(dāng)發(fā)生的動作(如 “走路”)定義為激活事件(Active Event),而將該時間段外發(fā)生的動作(如 2~4 秒的 “轉(zhuǎn)身”、4~5 秒的 “招手”)定義為非激活事件(Inactive Events)。
  • 查詢向量的精準(zhǔn)偏移: 在特定時間段隱幀序列的去噪過程中,EAQS 會在特征維度上對模型的視覺查詢向量施加定向的偏移(Steering)。其核心邏輯非常明確:在當(dāng)前幀,強制視覺查詢向量向 “激活事件” 的特征靠近(增強注意力),同時主動將其從所有 “非激活事件” 的特征處推開(抑制注意力)。
  • 解耦效果: 通過這種嚴(yán)格按時間窗口觸發(fā)的 “一拉一推” 機制,EAQS 從根本上阻斷了特征糾纏與跨時序的語義泄漏,確保未發(fā)生的動作絕不會提前 “搶戲”。

貢獻二:自適應(yīng)強度平衡求解器 (Auto-Balance Strength Solver, ABSS)

在擴散模型中,對交叉注意力圖施加過度的外部干預(yù),易破壞模型預(yù)訓(xùn)練所建立的原始特征分布,從而導(dǎo)致生成的畫面出現(xiàn)偽影、結(jié)構(gòu)扭曲或視覺質(zhì)量急劇下降。此外,由于不同提示詞的語義復(fù)雜度與動作生成難度存在顯著差異,固定的超參數(shù)無法泛化至多樣化的生成任務(wù)中。

為解決這一魯棒性問題,自動得到最優(yōu)的 “推”“拉” 強度,研究團隊設(shè)計了具備閉環(huán)調(diào)節(jié)機制的 ABSS 模塊:

  • 主導(dǎo)方向提取與缺口(Margin Deficit)量化: 在每一個去噪步中,ABSS 首先利用奇異值分解(SVD)提取出 “目標(biāo)事件” 與各 “干擾事件” 在潛空間中的主導(dǎo)方向,并分別計算當(dāng)前視覺查詢向量在這些方向上的對齊得分 ;基于此,系統(tǒng)會精準(zhǔn)鎖定得分最高的 “最強干擾事件”,通過計算其得分超越目標(biāo)事件的部分,嚴(yán)格量化出當(dāng)前亟需彌補的 “邊距缺口” 。
  • 動態(tài)求解最優(yōu)強度: 基于評估結(jié)果,ABSS 會自適應(yīng)地求解出當(dāng)前幀與當(dāng)前去噪步下的最優(yōu)干預(yù)強度。該機制通過精確的數(shù)學(xué)約束,確保施加的注意力引導(dǎo)既能精準(zhǔn)驅(qū)動動作發(fā)生,又不會過度偏離基礎(chǔ)模型原本的視覺特征分布。
  • 實現(xiàn)動態(tài)最優(yōu)平衡: 這一自適應(yīng)調(diào)節(jié)機制徹底消除了繁瑣的手動調(diào)參痛點。它從算法層面保證了 SwitchCraft 能夠在 “最大化多事件時序?qū)R度” 與 “嚴(yán)格維持基礎(chǔ)模型高視覺保真度” 之間,取得動態(tài)的最優(yōu)平衡。

實驗亮點:高一致性的多事件連貫敘事

得益于上述兩大核心機制的協(xié)同作用,SwitchCraft 在多事件視頻生成任務(wù)中展現(xiàn)出了卓越的控制性能:



提示詞:一個男人抬起一只手臂,然后抓了抓頭,然后向前跑去



提示詞:一個人在走路,然后跑步,然后起跳。



提示詞:一輛越野車駛過沙丘,然后穿過森林小徑,然后在雪地小路上行駛。



提示詞:一個學(xué)生筆直地坐在書桌前打開筆記本電腦,然后開始打字,然后向后靠并伸展雙臂。

此外,SwitchCraft 在場景切換上還展現(xiàn)出了一項獨特的優(yōu)勢:創(chuàng)意遮擋轉(zhuǎn)場(Creative Occluding Transitions)。不同于現(xiàn)有基線模型在轉(zhuǎn)場時極易產(chǎn)生的殘影或主體突變,該框架能夠巧妙利用環(huán)境遮擋關(guān)系生成創(chuàng)意的無縫運鏡。它不僅實現(xiàn)了前后異構(gòu)場景的平滑融合,更在全過程中完美鎖定了核心主體的身份特征一致性。



對比多種現(xiàn)有的視頻生成與時序控制基線方法(如 MEVG、DiTCtrl、LongLive 等),SwitchCraft 在多事件文本對齊度、視覺保真度與運動平滑度等方面均表現(xiàn)突出,綜合客觀評測指標(biāo)穩(wěn)居領(lǐng)先水平 。



此外,團隊在消融實驗中發(fā)現(xiàn),SwitchCraft 的各項核心機制缺一不可。在 EAQS 模塊中,若打破 “推拉” 協(xié)同(僅保留單向的 “增強” 或 “抑制”),生成的視頻將面臨動作遺漏或跨時序特征泄漏;而在 ABSS 模塊中,若放棄自適應(yīng)機制(采用固定的注意力干預(yù)強度或移除 SVD 主導(dǎo)方向提取),則會導(dǎo)致畫面視覺保真度出現(xiàn)斷崖式下跌,文本對齊準(zhǔn)確率也會顯著降低。這充分證明了 “一推一拉” 的時序注意力調(diào)度與 “動態(tài)自適應(yīng)求解” 必須相輔相成,二者的完美配合正是模型能夠在 “高保真視覺質(zhì)量” 與 “精準(zhǔn)多事件控制” 之間取得動態(tài)最優(yōu)平衡的關(guān)鍵所在。

結(jié)語

SwitchCraft 展示了復(fù)雜視頻生成的新思路:無需微調(diào)的精準(zhǔn)時序注意力控制。我們期待這一即插即用的框架在長篇視頻敘事、動態(tài)分鏡等領(lǐng)域落地,并與開源社區(qū)共同探索更多可能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
外賣員吐槽以前隨便跑月入過萬:現(xiàn)在每天工作12小時以上收入暴跌

外賣員吐槽以前隨便跑月入過萬:現(xiàn)在每天工作12小時以上收入暴跌

眼光很亮
2026-03-27 17:00:05
原來精神小妹的生活方式這么離譜!看完網(wǎng)友分享,大開眼界了

原來精神小妹的生活方式這么離譜!看完網(wǎng)友分享,大開眼界了

另子維愛讀史
2026-03-02 19:55:07
北京菜市場、機場為啥都開始“說”北京話?

北京菜市場、機場為啥都開始“說”北京話?

消費日報
2026-03-27 09:12:22
不懂車的人都多可怕?網(wǎng)友:?這個媳婦怕是人家都看不上

不懂車的人都多可怕?網(wǎng)友:?這個媳婦怕是人家都看不上

另子維愛讀史
2026-03-21 19:01:06
“LV老板娘”來香港彈琴,何超瓊捧場!嫁首富35年,穩(wěn)坐豪門C位

“LV老板娘”來香港彈琴,何超瓊捧場!嫁首富35年,穩(wěn)坐豪門C位

商務(wù)范
2026-03-27 18:45:58
最壞情況發(fā)生,美軍艦載機在沿海被擊中,白宮意識到大國出手了!

最壞情況發(fā)生,美軍艦載機在沿海被擊中,白宮意識到大國出手了!

云舟史策
2026-03-28 07:25:48
漲價!浙江姑娘腸子悔青,去年沒下單今年貴5000元!老板:可能還要漲

漲價!浙江姑娘腸子悔青,去年沒下單今年貴5000元!老板:可能還要漲

浙江之聲
2026-03-20 13:26:35
24分逆轉(zhuǎn),倫納德完成跳投絕殺!步行者演技拙劣,加蘭30分5助攻

24分逆轉(zhuǎn),倫納德完成跳投絕殺!步行者演技拙劣,加蘭30分5助攻

老梁體育漫談
2026-03-28 09:49:14
深夜利好,半導(dǎo)體龍頭利潤增3213%,8股高增5股暴雷,別踩雷

深夜利好,半導(dǎo)體龍頭利潤增3213%,8股高增5股暴雷,別踩雷

鵬哥投研
2026-03-28 08:54:39
馬杜羅瘦脫相了?穿囚服戴腳鐐出庭,這畫面信息量有點大

馬杜羅瘦脫相了?穿囚服戴腳鐐出庭,這畫面信息量有點大

小虎新車推薦員
2026-03-28 05:27:34
可怕!浙江一男子被確診艾滋病,傳染他的,竟是上高中的17歲男生

可怕!浙江一男子被確診艾滋病,傳染他的,竟是上高中的17歲男生

周哥一影視
2026-03-27 18:02:10
王一博續(xù)約樂華炸鍋!粉絲大規(guī)模脫粉,這步棋真走對了?

王一博續(xù)約樂華炸鍋!粉絲大規(guī)模脫粉,這步棋真走對了?

鄉(xiāng)野小珥
2026-03-28 07:44:57
29歲離異美女征婚!帶一女,不要彩禮要求交社保,有人表示愿接盤

29歲離異美女征婚!帶一女,不要彩禮要求交社保,有人表示愿接盤

火山詩話
2026-03-27 11:41:05
妻子升副局長跟我離婚,半年后我去開會,見她在門口等我2小時

妻子升副局長跟我離婚,半年后我去開會,見她在門口等我2小時

千秋文化
2026-03-25 21:49:57
隨著3名巴薩悍將發(fā)威+比分3-0,西班牙完勝歐洲勁旅,迎開門紅

隨著3名巴薩悍將發(fā)威+比分3-0,西班牙完勝歐洲勁旅,迎開門紅

側(cè)身凌空斬
2026-03-28 05:52:37
說說“氣象站”的那些事兒

說說“氣象站”的那些事兒

測控技術(shù)有限公司
2026-03-06 13:36:22
伊朗已經(jīng)想好了,打完這場仗,自己將成阿拉伯國家新“保護傘”

伊朗已經(jīng)想好了,打完這場仗,自己將成阿拉伯國家新“保護傘”

小曙說娛
2026-03-27 20:59:47
教育部發(fā)布20條嚴(yán)禁清單,嚴(yán)禁宣傳炒作中高考狀元、名校率、升學(xué)率,整治陰陽課表違規(guī)補課等行為

教育部發(fā)布20條嚴(yán)禁清單,嚴(yán)禁宣傳炒作中高考狀元、名校率、升學(xué)率,整治陰陽課表違規(guī)補課等行為

每日經(jīng)濟新聞
2026-03-27 11:33:29
低迷2場后爆發(fā),謝潑德15+5亂戰(zhàn)高手 火箭第六人上位 5場9記三分

低迷2場后爆發(fā),謝潑德15+5亂戰(zhàn)高手 火箭第六人上位 5場9記三分

替補席看球
2026-03-28 10:21:38
小卡28+8準(zhǔn)絕殺創(chuàng)歷史最老紀(jì)錄 快船24分逆轉(zhuǎn) 步行者故意兩罰不中

小卡28+8準(zhǔn)絕殺創(chuàng)歷史最老紀(jì)錄 快船24分逆轉(zhuǎn) 步行者故意兩罰不中

醉臥浮生
2026-03-28 09:43:53
2026-03-28 11:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12619文章數(shù) 142596關(guān)注度
往期回顧 全部

科技要聞

遭中國學(xué)界"拉黑"后,這家AI頂會低頭道歉

頭條要聞

前大廠員工開"網(wǎng)絡(luò)賭場" 三個月吸金1900萬

頭條要聞

前大廠員工開"網(wǎng)絡(luò)賭場" 三個月吸金1900萬

體育要聞

“我是全家最差勁的運動員”

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網(wǎng)抵制

財經(jīng)要聞

我在小吃培訓(xùn)機構(gòu)學(xué)習(xí)“科技與狠活”

汽車要聞

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

藝術(shù)
游戲
親子
公開課
軍事航空

藝術(shù)要聞

華國鋒與耿飚的草書書信,你見過嗎?氣勢恢宏引發(fā)熱議!

PS5瘋狂漲價!或?qū)⑼侠邸禛TA6》硬件銷量

親子要聞

科學(xué)運動 助力提升女性生育力

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:已組織超100萬人為地面戰(zhàn)斗做準(zhǔn)備

無障礙瀏覽 進入關(guān)懷版