![]()
??表外表里
文丨張冉冉 赫晉一
AI視頻技術,正以“周”為單位快速迭代。
兩周前,PixVerse發(fā)布新項目:人在下邊輸入提示詞,AI在上邊同步生成視頻,實現(xiàn)連續(xù)視覺輸出。
![]()
Source:PixVerse
上周,Runway又上新Gen 4.5模型,AI在3秒內連切近、中、遠景,運鏡構圖堪比專業(yè)導演,且人臉上的紋理清晰可見。
![]()
Source:Runway
不止海外,國內公司也踩死油門,字節(jié)旗下的即夢AI,核心版本兩年內歷經9次關鍵迭代;快手的可靈AI,問世以來升級30余次。廠商們“你追我趕”,一個模型月初份額很高,月底就可能被擠下去。
它們卷生卷死,在于退一步是“流量危機”,進一步是“萬億藍海”。
抖音、快手們的成功,證明了“視頻”殺時間的能力,而AI視頻或許還會帶來更沉浸的體驗。目前,已有大量AI短視頻、AI短劇殺入內容平臺,搶奪用戶的注意力。
隨著模型能力提升和推理成本降低,狂熱的“淘金潮”還會蔓延至漫劇、游戲甚至電影等領域,屆時AI視頻可能迎來一輪大爆發(fā)。
![]()
AI 不僅是技術進步,更是個性體驗、內容生產和商業(yè)效率的“三重革命”。 對字節(jié)、快手等 視頻 玩家來說,這是一 場 不得不跟的 牌局。只不過同一命題,它們打出了截然不同的牌面。
即夢的入口野心VS可靈的工具理性
在即夢3.5Pro和可靈2.6輸入同一段提示詞,對比生成的AI視頻會發(fā)現(xiàn),可靈的畫面細節(jié)更豐富,電影感撲面而來。
Source:即夢AI、可靈AI
但代價是,可靈排隊時間超過了30分鐘,而即夢無需等待,1分鐘之內生成了視頻,且每天都能免費使用2次。
這樣的視頻效果和使用體驗,正是快手和字節(jié)不同技術路線選擇的結果。
盡管AI視頻能力日新月異,但六根手指、360度旋轉手臂等物理破綻仍頻繁上演,模型只是從“不可用”跨越到了“偶爾驚艷”。外媒Winsome Marketing實測發(fā)現(xiàn),用Sora2生成的視頻中,真正可用于發(fā)布的內容只有5%-10%,剩下90%全是廢片。
這不僅浪費時間,更燒錢如流水。據第三方評測榜單Artificial Analysis,可靈2.6Pro每分鐘生成成本為4.2美元,谷歌Veo 3.1平均每分鐘生成成本高達10.5美元。
因此AI視頻的進化史,可以視為“開盲盒式”生成效果的抗爭史。只不過廠商們資源稟賦不同,有的“高舉高打”,有的“精耕細作”。
即夢和可靈就是如此,二者看似功能相似,實則內核迥異:字節(jié)Seedance是多模態(tài)基礎大模型,即一個模型同時支持文生圖、文/圖生視頻等;快手不具備多模態(tài)基座,但擁有相對領先一小步的視頻生成模型。
![]()
在此背景下,即夢選擇了優(yōu)化Seedance大模型,既實現(xiàn)參數(shù)和知識共享,又避免了多個模型重復維護。但視頻每秒有數(shù)十幀,每幀包含數(shù)百萬個像素點,每一點上都有時空信息,同步處理意味著計算量和內存需求“立方級增長”。
為了破解算力難題,字節(jié)在Seedance中嵌入擴散變換器,把任務拆給不同模塊并行處理,降低計算復雜度;同時在蒸餾機制中引入特殊算法,確保小模型“又快又準”,最終實現(xiàn)用更少的推理步驟,生成更順的視頻。
![]()
快手則聚焦打磨視頻模型基座:每次迭代,除了擴充參數(shù)和優(yōu)化數(shù)據,也在產品交互層引入新功能,提升生成結果的可控性。
可靈1.0推出首尾幀功能,讓模型根據首尾兩張圖片,生成連貫的運動變化;可靈2.0則允許用戶輸入參考圖像和視頻,讓AI更能“讀懂”復雜創(chuàng)意;可靈O1新增的“主體庫”,把人和物封裝成一個主體,在后續(xù)生成中保持特征穩(wěn)定。
![]()
顯然,可靈走的是“產品創(chuàng)新驅動”的務實路線,而即夢有著“突破產品技術上限”的野心。
這樣的路線選擇,重現(xiàn)了兩家的“來時路”:短視頻時代,抖音靠推薦算法躋身超級APP行列,快手則從工具轉向內容社區(qū),二者各憑本事割據一塊江山。
到了AI時代,字節(jié)仍想重寫規(guī)則,定義下一代產品、搶占新的超級入口,剪映和即夢業(yè)務負責人曾公開說過:“即夢的探索方向,是結合AI技術解鎖全新的場景與產品形態(tài),幫助人類提升創(chuàng)造力。”而快手管理層則多次公開強調聚焦P端(專業(yè)創(chuàng)作者)和B端客戶,對C端“保持探索”。
當然,快手不跟字節(jié)正面硬剛,或許并非“不想”,而是“不能”——2025年,字節(jié)在算力、芯片等方面的資本投入達1500億元,斷層領先第二名阿里50%,比快手足足“多了一個0”。
![]()
字節(jié)對AI的資源傾注,堪稱“飽和式”轟炸:四處招兵買馬,被公認為“中國AI人才密度最高的公司”;對核心團隊不設OKR和考核,鼓勵工程師挑戰(zhàn)“高效架構”和“前沿算法”。
甚至不惜“內部賽馬”,2025年即夢獲得的算力資源同比增加300%,而同期豆包視頻模塊預算被削減15%;具體到即夢,目前可供用戶調用的5款視頻生成模型,分別來自4個不同的研發(fā)團隊,哪個更優(yōu)用哪個。
![]()
AI競爭對技術、人才和資金的消耗,跟短視頻早已不在一個量級。在資源約束下,“專注一個基座、凝聚一個團隊智慧”的差異化路徑,是更適合快手的理性選擇。
其“最大化解決實際問題”的務實策略也很快有效,可靈生成視頻越來越“像真的一樣”,在技術不穩(wěn)定時期,率先贏得了挑剔的P端和B端用戶,用戶總量在發(fā)布一年時間內,從600萬一路飛升到4500萬。
“大力出奇跡”的即夢,每一代產品都有著更低價格、更高生成效率,積攢了拉攏海量普通用戶的底氣。公開數(shù)據顯示,截至去年9月,其月活用戶達到2037萬,是可靈的13倍。
![]()
而這樣的路線分野,也為兩家的商業(yè)化進程,寫下了不同的腳本。
放眼長期增長的即夢VS專注即時收益的可靈
據美國知名風投公司a16z合伙人透露,Sora的30天用戶留存率僅1%,60天留存率近乎0%。
![]()
這揭示了一個殘酷的現(xiàn)實:AI視頻生成,現(xiàn)在可能稱不上一門好生意。
每一家AI視頻公司都愿景著“傻瓜也能創(chuàng)作”,但上文說過,90%的AI視頻生成后“根本不能用”,少數(shù)高質量作品底下也總跟著一長串“怎么做?”的提問——AI創(chuàng)作的門檻,依然高懸。
想要生成一條合格的視頻,不能跟AI講大白話,而是要輸入復雜的“提示詞公式”,包括主體、場景、動作、風格等,再進行一致性控制和后期調整。許多人好奇嘗鮮AI,很快就會因為用不好而離開。
![]()
這導致主打大眾市場的AI視頻產品,集體陷入變現(xiàn)困局。據第三方機構非凡產研的數(shù)據,即夢AI和Minimax的海螺AI,年化營收(ARR)均未破億。
相比之下,Runway的ARR,去年中已經突破6億元大關;快手2025Q3業(yè)績會披露,可靈累計收入達到7億元,預計全年收入達10億。
![]()
其中,可靈近70%的營收由P端訂閱會員貢獻,B端客戶規(guī)模也超過了2萬家。很顯然,當下專業(yè)創(chuàng)作者的付費能力更強、意愿也更高。
這并不難理解,對AI輸入想法,能直接獲得一段科幻大片;新品發(fā)布,不用再請昂貴的模特、明星,AI廣告效果直逼真人……數(shù)據顯示,AI視頻能將傳統(tǒng)視頻制作時間從平均7小時縮短至45分鐘,制作成本省一半。
當AI視頻成為打工人的生產力工具,大家會用真金白銀投票,而那些“不夠實用”的平臺,自然會顯得冷清。
但差距或許只是暫時的,將目光放遠,走“大眾之路”同樣擁有廣闊的想象空間。
字節(jié)高管曾提出:“AI對話類產品可能只是AI產品的‘中間態(tài)’,更理想的產品形態(tài)大概率需要視覺化的用戶體驗。”言外之意就是,視頻遠比文字更直觀、更能讓普通人“入迷”。
而隨著AI技術的演進,視頻創(chuàng)作門檻還有望進一步降低:未來可能不用輸入素材、提示詞,告訴AI“找出所有寶寶第一次走路的片段,配上溫馨音樂”,就能自動生成視頻。
![]()
這會讓創(chuàng)作徹底平民化,引發(fā)新一輪內容爆炸,就像當年智能手機讓照片、短視頻普及一樣。字節(jié)內部甚至判斷:“長期看,即夢的價值空間可能是剪映的十倍。”若以剪映2024年近百億收入為參照,即夢有著千億級市場蛋糕。
為此,即夢正不遺余力鋪路,試圖留住更多用戶。
打開APP,首頁即是一條AI視頻,與可靈的“工具風”大相徑庭。即夢期望通過熟悉的短視頻交互,把優(yōu)質AI作品推薦給用戶。
![]()
其還在全平臺大量投流,尤其在抖音上,一度不允許其他AI產品打廣告。而抖音生態(tài)正是即夢最大“殺手锏”——即夢生成的視頻可直接導入剪映或抖音發(fā)布,形成“即夢生素材+剪映剪輯+抖音發(fā)布”一條龍,2025Q1該路徑為即夢導流的新用戶占比達37%。
在價格上,即夢也放低身段,不惜犧牲短期收入提升吸引力:其單條視頻生成最低僅0.1-0.19元,而可靈最低成本比其貴上10倍,高達1.25-1.5元/條。
![]()
可以說,字節(jié)已在產品設計、流量扶持、使用門檻上做足了準備,只待“人人皆可創(chuàng)作”的時代東風。這種“抬頭看天”的勇氣值得稱贊,卻也有風險,畢竟沒人知道“船票”何時才能兌現(xiàn)。
反觀“低頭看路”的快手,先落袋為安,未來再找機會轉型,不失為一種智慧。
不過可靈也并非沒有煩惱,海外AI短片《The Colorless Man》的創(chuàng)作流程,就給國內創(chuàng)作者帶來了沖擊:圖像由ChatGPT、MidJourney和即夢處理,可靈負責視頻,ElevenLabs處理語音,Dreamina處理唇形同步,Suno處理音樂,MMAudio處理音效。
![]()
如今廠商們的 模型 各有所長, 尚未出現(xiàn)一個在所有維度都碾壓對手的 產品。而創(chuàng)作者 組合使用 、 用腳投票,可能會使 可靈辛苦拿下的 用戶 , 被 其他 廠商 以更專精的模型、更低廉的 價格 搶走 。
這場AI視頻的戰(zhàn)爭,注定是艱難而曲折的持久戰(zhàn)。
![]()
人們熱議著,豆包要借春晚之力,完成AI搜索的“全民普及”;千問全面接入淘寶、支付寶、飛豬、高德等阿里生態(tài),重塑下一代生活方式。
卻常常忽略,每日刷上一兩個小時的短視頻世界里,另一場更深層的風暴也在悄然醞釀。
沒人能斷言AI視頻的“未來”將以何種形態(tài)降臨,無論是快手的“務實當下”,還是字節(jié)“豪賭未來”的路線,都在等待時間給出最終的答案。
但可以確定的是,科技正加速駛入一條快車道,我們能做的就是坐穩(wěn)、扶好,迎接一切可能的轉向與顛覆。
鏡象娛樂(ID:jingxiangyuler)
━━ 已入駐平臺 ━━
![]()
━━ 視頻號 已入駐平臺 ━━
合作、投稿、應聘可添加微信:
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.