品玩3月24日訊,騰訊元寶推出創新框架PrismAudio,致力于解決視頻生成高保真環境音的難題。該框架要求生成的聲音在語義、時序、美學和空間四個維度上與視頻內容嚴格對齊,代表了該領域的最新研究進展。
PrismAudio的核心在于融合“思維鏈”與強化學習,首創“先規劃,后執行”的生成范式。模型首先為四個維度分別生成詳細的音頻“行動指南”,再基于綜合規劃生成音頻。生成后,由四個獨立的打分器進行多維度評估,并通過創新的Fast-GRPO算法進行高效強化學習優化,其訓練效率約為傳統方法的三倍。
實驗表明,在VGGSound與AudioCanvas等權威測試集上,PrismAudio在多項關鍵指標上均超越了MMAudi與ThinkSound等現有最佳模型。該模型參數量為5.18億,生成9秒音頻僅需0.63秒,兼具高性能與高效率。此項工作已被ICLR 2026接收。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.