網易首頁 > 網易號 > 正文申請入駐

香港科技大學團隊突破實時視頻生成關鍵瓶頸

2026-03-31 16:37:04　來源: 科技行者

天津舉報

分享至

這項由香港科技大學、京東探索研究院和香港大學聯合開展的研究發表于2026年3月，論文編號為arXiv:2603.17051v1。有興趣深入了解的讀者可以通過該編號在學術數據庫中查詢完整論文。

制作一段流暢的AI視頻，就像烹飪一道精美菜肴——既需要高效的制作過程，又需要符合食客的口味偏好。目前最先進的AI視頻生成技術雖然能創造出令人驚嘆的畫面，但面臨著一個關鍵矛盾：要么生成速度極慢，無法實現實時互動；要么為了提高速度而犧牲質量，產生的視頻充滿瑕疵，與人類的審美期望相去甚遠。

研究團隊注意到，許多追求實時生成的視頻AI模型采用了一種叫做"蒸餾"的技術來提高速度。這個過程就像是把一位經驗豐富的大廚的烹飪技藝，快速傳授給一個新手廚師，讓新手能夠用更簡單快捷的方式做出類似的菜品。然而，這種"速成培訓"雖然讓新手廚師工作效率大大提高，卻往往忽略了食客的真實口味偏好。結果就是，這些快速版本的AI模型雖然能夠迅速生成視頻，但制作出的內容經常出現畫面抖動、物體形變、時間不連貫等問題，讓觀看者感到不適。

為了解決這個根本性矛盾，研究團隊開發了一套名為"Astrolabe"的創新訓練框架。這個名字來源于古代航海中的天體定位儀器，寓意著在AI視頻生成的汪洋大海中，為模型提供準確的方向指引，讓它們既能保持高效運轉，又能朝著符合人類審美的目標前進。

一、革命性的"前向過程強化學習"：告別傳統訓練的繁重負擔

傳統的AI模型優化就像是逆向工程一臺復雜的機械裝置——工程師需要從最終產品開始，一層層往回追溯每個零件的制造過程，記錄下每一個細節，然后再根據這些信息來改進整個生產線。這種方法不僅需要龐大的存儲空間來保存所有中間步驟的信息，還要消耗大量計算資源來處理這些數據，就像需要一個巨大的倉庫來存放所有的機械圖紙和工具。

Astrolabe采用了一種截然不同的方法，研究人員稱之為"前向過程強化學習"。這種方法更像是一位經驗豐富的品酒師在品鑒美酒——他不需要了解每一顆葡萄的生長過程，只需要品嘗最終的成品，就能準確判斷哪款酒更符合客人的口味偏好，然后給釀酒師提供改進建議。

具體來說，這套系統會讓AI模型生成多個版本的視頻片段，然后通過專門設計的評價體系來判斷哪些片段質量更高，哪些存在明顯缺陷。評價體系就像是一個由多位專家組成的評審團，從視覺美感、動作連貫性、文本匹配度等多個維度來打分。系統會獎勵那些獲得高分的生成方式，同時抑制產生低質量內容的生成路徑。

這種方法的最大優勢在于，它只需要關注最終的生成結果，而不必追蹤整個生成過程中的每一個細節。就像一位教練在訓練運動員時，不需要分析肌肉運動的每一個細微變化，只需要觀察最終的動作表現，就能給出有效的改進建議。這大大減少了計算負擔，讓整個訓練過程變得更加高效。

二、流式訓練機制：化解長視頻生成的內存難題

當AI需要生成長達幾分鐘的視頻時，傳統方法面臨的挑戰就像是讓一個人同時記住一本厚厚小說中每個章節的每句話，然后要求他保證整個故事的前后一致。這不僅極其困難，還會消耗巨大的"記憶空間"——在AI的世界里，這意味著需要龐大的計算機內存來存儲所有信息。

研究團隊設計了一種巧妙的"流式訓練機制"來解決這個問題。這個機制的工作原理類似于一位經驗豐富的電視劇導演在拍攝長篇連續劇時的方法。導演不會試圖同時指導所有集數的拍攝，而是專注于當前正在制作的那一集，同時保持對整部劇故事脈絡的把握。

在這套系統中，AI模型會維護一個"滾動記憶窗口"，就像是一個能夠滑動的觀察框。這個窗口包含兩個關鍵部分：一個是"錨定幀"，類似于故事的主要線索，始終保持在記憶中，確保整個視頻的主題和風格不會偏離；另一個是"活躍窗口"，包含最近生成的幾秒鐘內容，這是模型當前重點關注和優化的部分。

隨著視頻生成的進行，這個窗口會像潮水一樣向前推進。舊的內容會逐漸"退出"活躍區域，但關鍵信息會被保留在錨定幀中。新生成的內容則進入活躍窗口，接受精細的質量評估和優化。這種機制確保了無論視頻多長，系統的內存使用量都保持在一個可控范圍內，就像是用有限的畫布創作無限長的畫卷。

更重要的是，系統在訓練時會將歷史內容的梯度信息"分離"出去，這意味著AI不會試圖改變已經確定的歷史片段，而是專注于優化當前正在生成的部分。這種做法既保證了計算效率，又維持了整個視頻的時序連貫性。

三、多維度獎勵體系：防止AI"投機取巧"

在訓練AI模型時，經常會出現一種被研究人員稱為"獎勵黑客"的現象。這就像是給學生設定了"提高考試成績"的目標，結果學生選擇了作弊而不是真正學習知識。AI模型也可能找到一些"取巧"的方式來獲得高分，比如生成看起來很炫目但實際上毫無意義的視頻內容，或者過度強調某一個方面而忽略其他重要特征。

為了避免這種情況，研究團隊設計了一套全面的多維度獎勵體系，就像是為學生設計了包括考試成績、課堂表現、創新能力等多項評價標準的綜合評估體系。這套體系包含三個核心維度的評價。

視覺質量評價就像是一位專業的攝影師在審視作品，關注畫面的清晰度、色彩搭配、構圖美感等因素。系統會使用專門的算法來評估每一幀畫面的美學質量，但有一個巧妙的設計：它只考慮質量最好的前30%的畫面來計算平均分。這種做法的原因在于，動態視頻中難免會出現一些過渡幀或運動模糊的畫面，如果簡單地對所有幀求平均，可能會因為這些技術性的瑕疵而低估整體的視覺效果。

動作連貫性評價則像是一位舞蹈教練在觀察舞者的動作流暢度。系統會分析視頻中物體運動的時序邏輯，確保前后幀之間的變化合理自然。有趣的是，研究團隊選擇了在灰度模式下進行這項評估，去掉顏色信息的干擾，讓AI專注于純粹的運動分析。

文本對齊度評價負責檢查生成的視頻內容是否與輸入的文字描述相匹配，就像是一位嚴格的編輯在核實文章內容是否符合標題要求。這確保了AI不會生成與用戶期望完全無關的內容。

為了進一步防止AI模型的"投機行為"，研究團隊還引入了一套"不確定性感知的選擇性正則化"機制。這個機制的工作原理類似于一個由多位專家組成的評審團。當多位專家對某個生成結果的評價出現較大分歧時，系統會認為這個結果存在不確定性，可能是AI模型在"投機取巧"。在這種情況下，系統會對該結果施加額外的約束，確保AI不會過度偏離已經驗證的可靠路徑。

四、智能參考更新機制：適應訓練過程中的能力提升

AI模型的學習過程就像是一位學生從小學升到中學再到大學的成長歷程。在不同的學習階段，評價標準也需要相應調整——用小學的標準來評價大學生顯然是不合適的。同樣，用初始階段的AI能力作為永恒的參照標準，也會阻礙模型的進一步發展。

Astrolabe采用了一套動態的參考更新機制來解決這個問題。系統會持續監控AI模型的表現變化，當發現模型的能力已經顯著提升，與原始參考標準的差距過大時，就會自動更新參考基準。這就像是一位明智的教練，會根據運動員的實際進步情況來調整訓練目標和評價標準。

這種更新不是隨意進行的，而是基于嚴格的條件判斷。當模型的生成質量持續穩定在一個更高水平上，并且這種提升得到了多維度評價體系的一致確認時，系統才會認為是時候"畢業"到下一個階段了。更新后的參考標準會成為新的起點，推動AI模型繼續向更高質量的目標邁進。

五、實驗驗證：多款主流模型的顯著改進

研究團隊將Astrolabe應用到了當前最主流的幾款快速視頻生成模型上，包括Self-Forcing、Causal-Forcing和LongLive等，驗證其普適性和有效性。這些模型原本各有特色和優勢，但都面臨著生成質量與人類期望不匹配的共同問題。

實驗結果顯示，經過Astrolabe訓練的模型在多個維度都獲得了顯著改善。在短視頻生成任務中，模型的視覺質量評分平均提升了1.5分以上，動作連貫性也有明顯改進。更令人印象深刻的是，這些改進是在保持原有生成速度的前提下實現的——就像是讓一位快餐廚師在不降低出菜速度的情況下，顯著提升了菜品的味道和賣相。

在長視頻生成方面，Astrolabe展現出了更加出色的表現。傳統方法在生成超過30秒的視頻時，往往會出現明顯的質量下降和內容不一致問題。而經過Astrolabe優化的模型能夠維持更好的長期連貫性，生成的長視頻在視覺吸引力和故事完整性方面都有顯著提升。

特別值得注意的是，研究團隊還測試了多段提示詞的連續視頻生成場景。在這種更復雜的任務中，AI需要根據一系列相關的文字描述生成一段連貫的長視頻，就像是根據分鏡頭腳本拍攝一部短片。Astrolabe訓練的模型在這種任務中表現出了更強的適應性和創造力，能夠更好地處理不同提示詞之間的過渡和銜接。

六、技術創新的深層意義

Astrolabe的技術創新不僅僅是對現有方法的簡單改進，而是代表了AI訓練思路的一次重要轉變。傳統的強化學習方法往往需要深入分析整個決策過程的每一個步驟，這在復雜的視頻生成任務中會帶來巨大的計算負擔。而前向過程的訓練思路證明了一個重要觀點：有時候，專注于最終結果的質量評估，比詳細分析中間過程更加有效和高效。

這種思路上的轉變類似于從"過程導向"向"結果導向"的管理哲學轉變。在很多實際應用場景中，我們更關心的是最終產出的質量，而不是每個細節的完美執行。Astrolabe成功地將這種思維方式應用到了AI訓練中，為未來類似問題的解決提供了新的思路。

從技術實現的角度來看，流式訓練機制的引入解決了長序列學習中的一個根本性挑戰。這種機制不僅適用于視頻生成，也可能被推廣到其他需要處理長序列數據的AI任務中，如長文本生成、連續對話系統等。

多維度獎勵體系的設計也體現了對AI安全性和可控性的深度思考。隨著AI系統變得越來越強大和復雜，如何確保它們的行為符合人類價值觀和期望，成為了一個越來越重要的問題。Astrolabe提供的解決方案——通過多維度評價和不確定性檢測來防止AI的投機行為——為這個領域的研究提供了有價值的參考。

Astrolabe框架的成功應用表明，在追求AI系統效率的同時，我們完全可以兼顧質量和用戶體驗。這項研究為實時AI視頻生成技術的發展開辟了新的道路，讓我們離真正實用的AI視頻助手又近了一步。無論是內容創作者希望快速制作高質量視頻，還是教育工作者需要生動的教學素材，抑或是普通用戶想要創造個性化的視頻內容，這種技術都有著廣闊的應用前景。

隨著技術的不斷完善和優化，我們有理由相信，在不遠的將來，AI視頻生成將成為一種像拍照一樣簡單而普及的創作工具，讓每個人都能輕松地將想象轉化為生動的視覺作品。

Q&A

Q1：Astrolabe是什么？

A：Astrolabe是由香港科技大學團隊開發的AI視頻生成優化框架。它專門解決快速視頻AI模型質量不佳的問題，能讓AI在保持快速生成的同時，制作出更符合人類審美期望的高質量視頻。就像給快餐廚師提供了一套既不影響出菜速度，又能顯著提升菜品質量的烹飪方法。

Q2：為什么現有的AI視頻生成模型需要Astrolabe這樣的優化？

A：現有的快速AI視頻模型雖然生成速度快，但經常出現畫面抖動、物體變形、時間不連貫等問題，與人類的審美期望差距較大。這是因為這些模型在追求速度時采用了"蒸餾"技術，雖然提高了效率，卻忽略了用戶的真實喜好。Astrolabe就是專門來解決這種質量與速度之間矛盾的技術方案。

Q3：Astrolabe如何處理長視頻生成時的內存問題？

A：Astrolabe采用了"流式訓練機制"，就像電視劇導演不會同時拍攝所有集數一樣。它維護一個滾動的記憶窗口，包含關鍵的"錨定幀"保持故事主線，以及"活躍窗口"專注優化當前片段。隨著視頻推進，舊內容逐漸退出活躍區域，新內容進入優化范圍，這樣無論視頻多長，內存使用都保持可控。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.