網易首頁 > 網易號 > 正文申請入駐

AI視頻的“1毛錢戰(zhàn)爭”與“萬億生意”

2026-02-09 20:13:44　來源: 鏡像娛樂

北京舉報

分享至

??表外表里

文丨張冉冉赫晉一

AI視頻技術，正以“周”為單位快速迭代。

兩周前，PixVerse發(fā)布新項目：人在下邊輸入提示詞，AI在上邊同步生成視頻，實現(xiàn)連續(xù)視覺輸出。

Source:PixVerse

上周，Runway又上新Gen 4.5模型，AI在3秒內連切近、中、遠景，運鏡構圖堪比專業(yè)導演，且人臉上的紋理清晰可見。

Source:Runway

不止海外，國內公司也踩死油門，字節(jié)旗下的即夢AI，核心版本兩年內歷經9次關鍵迭代；快手的可靈AI，問世以來升級30余次。廠商們“你追我趕”，一個模型月初份額很高，月底就可能被擠下去。

它們卷生卷死，在于退一步是“流量危機”，進一步是“萬億藍海”。

抖音、快手們的成功，證明了“視頻”殺時間的能力，而AI視頻或許還會帶來更沉浸的體驗。目前，已有大量AI短視頻、AI短劇殺入內容平臺，搶奪用戶的注意力。

隨著模型能力提升和推理成本降低，狂熱的“淘金潮”還會蔓延至漫劇、游戲甚至電影等領域，屆時AI視頻可能迎來一輪大爆發(fā)。

AI 不僅是技術進步，更是個性體驗、內容生產和商業(yè)效率的“三重革命”。對字節(jié)、快手等視頻玩家來說，這是一場不得不跟的牌局。只不過同一命題，它們打出了截然不同的牌面。

即夢的入口野心VS可靈的工具理性

在即夢3.5Pro和可靈2.6輸入同一段提示詞，對比生成的AI視頻會發(fā)現(xiàn)，可靈的畫面細節(jié)更豐富，電影感撲面而來。

Source:即夢AI、可靈AI

但代價是，可靈排隊時間超過了30分鐘，而即夢無需等待，1分鐘之內生成了視頻，且每天都能免費使用2次。

這樣的視頻效果和使用體驗，正是快手和字節(jié)不同技術路線選擇的結果。

盡管AI視頻能力日新月異，但六根手指、360度旋轉手臂等物理破綻仍頻繁上演，模型只是從“不可用”跨越到了“偶爾驚艷”。外媒Winsome Marketing實測發(fā)現(xiàn)，用Sora2生成的視頻中，真正可用于發(fā)布的內容只有5%-10%，剩下90%全是廢片。

這不僅浪費時間，更燒錢如流水。據第三方評測榜單Artificial Analysis，可靈2.6Pro每分鐘生成成本為4.2美元，谷歌Veo 3.1平均每分鐘生成成本高達10.5美元。

因此AI視頻的進化史，可以視為“開盲盒式”生成效果的抗爭史。只不過廠商們資源稟賦不同，有的“高舉高打”，有的“精耕細作”。

即夢和可靈就是如此，二者看似功能相似，實則內核迥異：字節(jié)Seedance是多模態(tài)基礎大模型，即一個模型同時支持文生圖、文/圖生視頻等；快手不具備多模態(tài)基座，但擁有相對領先一小步的視頻生成模型。

在此背景下，即夢選擇了優(yōu)化Seedance大模型，既實現(xiàn)參數(shù)和知識共享，又避免了多個模型重復維護。但視頻每秒有數(shù)十幀，每幀包含數(shù)百萬個像素點，每一點上都有時空信息，同步處理意味著計算量和內存需求“立方級增長”。

為了破解算力難題，字節(jié)在Seedance中嵌入擴散變換器，把任務拆給不同模塊并行處理，降低計算復雜度；同時在蒸餾機制中引入特殊算法，確保小模型“又快又準”，最終實現(xiàn)用更少的推理步驟，生成更順的視頻。

快手則聚焦打磨視頻模型基座：每次迭代，除了擴充參數(shù)和優(yōu)化數(shù)據，也在產品交互層引入新功能，提升生成結果的可控性。

可靈1.0推出首尾幀功能，讓模型根據首尾兩張圖片，生成連貫的運動變化；可靈2.0則允許用戶輸入參考圖像和視頻，讓AI更能“讀懂”復雜創(chuàng)意；可靈O1新增的“主體庫”，把人和物封裝成一個主體，在后續(xù)生成中保持特征穩(wěn)定。

顯然，可靈走的是“產品創(chuàng)新驅動”的務實路線，而即夢有著“突破產品技術上限”的野心。

這樣的路線選擇，重現(xiàn)了兩家的“來時路”：短視頻時代，抖音靠推薦算法躋身超級APP行列，快手則從工具轉向內容社區(qū)，二者各憑本事割據一塊江山。

到了AI時代，字節(jié)仍想重寫規(guī)則，定義下一代產品、搶占新的超級入口，剪映和即夢業(yè)務負責人曾公開說過：“即夢的探索方向，是結合AI技術解鎖全新的場景與產品形態(tài)，幫助人類提升創(chuàng)造力。”而快手管理層則多次公開強調聚焦P端（專業(yè)創(chuàng)作者）和B端客戶，對C端“保持探索”。

當然，快手不跟字節(jié)正面硬剛，或許并非“不想”，而是“不能”——2025年，字節(jié)在算力、芯片等方面的資本投入達1500億元，斷層領先第二名阿里50%，比快手足足“多了一個0”。

字節(jié)對AI的資源傾注，堪稱“飽和式”轟炸：四處招兵買馬，被公認為“中國AI人才密度最高的公司”；對核心團隊不設OKR和考核，鼓勵工程師挑戰(zhàn)“高效架構”和“前沿算法”。

甚至不惜“內部賽馬”，2025年即夢獲得的算力資源同比增加300%，而同期豆包視頻模塊預算被削減15%；具體到即夢，目前可供用戶調用的5款視頻生成模型，分別來自4個不同的研發(fā)團隊，哪個更優(yōu)用哪個。

AI競爭對技術、人才和資金的消耗，跟短視頻早已不在一個量級。在資源約束下，“專注一個基座、凝聚一個團隊智慧”的差異化路徑，是更適合快手的理性選擇。

其“最大化解決實際問題”的務實策略也很快有效，可靈生成視頻越來越“像真的一樣”，在技術不穩(wěn)定時期，率先贏得了挑剔的P端和B端用戶，用戶總量在發(fā)布一年時間內，從600萬一路飛升到4500萬。

“大力出奇跡”的即夢，每一代產品都有著更低價格、更高生成效率，積攢了拉攏海量普通用戶的底氣。公開數(shù)據顯示，截至去年9月，其月活用戶達到2037萬，是可靈的13倍。

而這樣的路線分野，也為兩家的商業(yè)化進程，寫下了不同的腳本。

放眼長期增長的即夢VS專注即時收益的可靈

據美國知名風投公司a16z合伙人透露，Sora的30天用戶留存率僅1%，60天留存率近乎0%。

這揭示了一個殘酷的現(xiàn)實：AI視頻生成，現(xiàn)在可能稱不上一門好生意。

每一家AI視頻公司都愿景著“傻瓜也能創(chuàng)作”，但上文說過，90%的AI視頻生成后“根本不能用”，少數(shù)高質量作品底下也總跟著一長串“怎么做？”的提問——AI創(chuàng)作的門檻，依然高懸。

想要生成一條合格的視頻，不能跟AI講大白話，而是要輸入復雜的“提示詞公式”，包括主體、場景、動作、風格等，再進行一致性控制和后期調整。許多人好奇嘗鮮AI，很快就會因為用不好而離開。

這導致主打大眾市場的AI視頻產品，集體陷入變現(xiàn)困局。據第三方機構非凡產研的數(shù)據，即夢AI和Minimax的海螺AI，年化營收（ARR）均未破億。

相比之下，Runway的ARR，去年中已經突破6億元大關；快手2025Q3業(yè)績會披露，可靈累計收入達到7億元，預計全年收入達10億。

其中，可靈近70%的營收由P端訂閱會員貢獻，B端客戶規(guī)模也超過了2萬家。很顯然，當下專業(yè)創(chuàng)作者的付費能力更強、意愿也更高。

這并不難理解，對AI輸入想法，能直接獲得一段科幻大片；新品發(fā)布，不用再請昂貴的模特、明星，AI廣告效果直逼真人……數(shù)據顯示，AI視頻能將傳統(tǒng)視頻制作時間從平均7小時縮短至45分鐘，制作成本省一半。

當AI視頻成為打工人的生產力工具，大家會用真金白銀投票，而那些“不夠實用”的平臺，自然會顯得冷清。

但差距或許只是暫時的，將目光放遠，走“大眾之路”同樣擁有廣闊的想象空間。

字節(jié)高管曾提出：“AI對話類產品可能只是AI產品的‘中間態(tài)’，更理想的產品形態(tài)大概率需要視覺化的用戶體驗。”言外之意就是，視頻遠比文字更直觀、更能讓普通人“入迷”。

而隨著AI技術的演進，視頻創(chuàng)作門檻還有望進一步降低：未來可能不用輸入素材、提示詞，告訴AI“找出所有寶寶第一次走路的片段，配上溫馨音樂”，就能自動生成視頻。

這會讓創(chuàng)作徹底平民化，引發(fā)新一輪內容爆炸，就像當年智能手機讓照片、短視頻普及一樣。字節(jié)內部甚至判斷：“長期看，即夢的價值空間可能是剪映的十倍。”若以剪映2024年近百億收入為參照，即夢有著千億級市場蛋糕。

為此，即夢正不遺余力鋪路，試圖留住更多用戶。

打開APP，首頁即是一條AI視頻，與可靈的“工具風”大相徑庭。即夢期望通過熟悉的短視頻交互，把優(yōu)質AI作品推薦給用戶。

其還在全平臺大量投流，尤其在抖音上，一度不允許其他AI產品打廣告。而抖音生態(tài)正是即夢最大“殺手锏”——即夢生成的視頻可直接導入剪映或抖音發(fā)布，形成“即夢生素材+剪映剪輯+抖音發(fā)布”一條龍，2025Q1該路徑為即夢導流的新用戶占比達37%。

在價格上，即夢也放低身段，不惜犧牲短期收入提升吸引力：其單條視頻生成最低僅0.1-0.19元，而可靈最低成本比其貴上10倍，高達1.25-1.5元/條。

可以說，字節(jié)已在產品設計、流量扶持、使用門檻上做足了準備，只待“人人皆可創(chuàng)作”的時代東風。這種“抬頭看天”的勇氣值得稱贊，卻也有風險，畢竟沒人知道“船票”何時才能兌現(xiàn)。

反觀“低頭看路”的快手，先落袋為安，未來再找機會轉型，不失為一種智慧。

不過可靈也并非沒有煩惱，海外AI短片《The Colorless Man》的創(chuàng)作流程，就給國內創(chuàng)作者帶來了沖擊：圖像由ChatGPT、MidJourney和即夢處理，可靈負責視頻，ElevenLabs處理語音，Dreamina處理唇形同步，Suno處理音樂，MMAudio處理音效。

如今廠商們的模型各有所長，尚未出現(xiàn)一個在所有維度都碾壓對手的產品。而創(chuàng)作者組合使用、用腳投票，可能會使可靈辛苦拿下的用戶，被其他廠商以更專精的模型、更低廉的價格搶走。

這場AI視頻的戰(zhàn)爭，注定是艱難而曲折的持久戰(zhàn)。

人們熱議著，豆包要借春晚之力，完成AI搜索的“全民普及”；千問全面接入淘寶、支付寶、飛豬、高德等阿里生態(tài)，重塑下一代生活方式。

卻常常忽略，每日刷上一兩個小時的短視頻世界里，另一場更深層的風暴也在悄然醞釀。

沒人能斷言AI視頻的“未來”將以何種形態(tài)降臨，無論是快手的“務實當下”，還是字節(jié)“豪賭未來”的路線，都在等待時間給出最終的答案。

但可以確定的是，科技正加速駛入一條快車道，我們能做的就是坐穩(wěn)、扶好，迎接一切可能的轉向與顛覆。

鏡象娛樂（ID：jingxiangyuler）

━━ 已入駐平臺 ━━

━━ 視頻號已入駐平臺 ━━

合作、投稿、應聘可添加微信：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.