![]()
「像做恨一樣做ai視頻」
最近Seedance 2.0接入大賽開始了,有頭有臉的視頻agent都當上字節中介原地起飛了。
OiiOii也不求Sora2 API了,Libtv狂投一波慶祝自己接入Seedance2.0了,連低調Flova都忍不住出來炒作,暗示剪映技術負責人王學智和產品負責人張逍然已經去Flova了。
早知今日何必離開字節呢?我建議即夢直接按照鬧鬧、陳冕、郭列在字節的級別給他們分一下額度。
我也又回去用了下之前盛贊過的Flova,畢竟之前說它懷了個剪映寶寶雛形,現在得檢查一下是否破肚而出了。
結果他們很幽默,非得聲稱自己接入了一個能全能參考、能動作模仿、能時長翻倍的怎么看著都是Seedance 2.0的視頻模型,但不知道是保密需求還是怎么的,硬是給它起名叫StarDawn 2.0。給我看一愣一愣,以為這公司掌握核心蒸餾技術了。
![]()
最近兩天才使用查找替換功能把名都改成Seedance 2.0了
于是我先試著做了一個喜鵲謀殺案片頭式的朝鮮宣傳片,準備在我們本月朝鮮之旅的時候獻給將軍。
集成了Seedance 2.0參考功能的Flova確實是把「不用寫提示詞」這一核心賣點給發揚光大了,我只需要把刷到的視頻和一句話靈感發給它,就開始自動分析風格了。
![]()
而且在具體的影片策劃上,之前還需要打字,現在直接給了幾輪二選一,實現像打旮旯game一樣做ai。
![]()
![]()
出現哪些地標、兩個鏡頭之間如何絲滑轉場,也基本都是它獨立思考出來的。我只做一些微小的工作。
最后生成視頻如下,雖然不知道末尾的朝鮮話是啥意思,但感覺挺對味的。
動畫的試完了,試試真人效果。我結合最近鋪天蓋地的把同事壓縮成skills的熱點,做了一個不到十秒的恐怖小短片。
蒽其實不算特別恐怖,但基本也能看明白核心劇情和預設的恐怖點在哪。也算是個成品。
但當我讓Flova做一個30秒的中長視頻的時候,就有點翻車了。
我設想的劇情比較簡單:全程第一人稱視角,主角給同事拍離職vlog,跟著同事走出公司大門之后發現,這人直接被扔到一個蒸餾工廠里被邪惡的資本家給回收成skills二次利用了。有點像《約定的夢幻島》的劇情。
但用Flova做的時候,就發現它有三個嚴重的問題。
第一,空間位置關系只為單個鏡頭服務,沒有一個整體的規劃。
比如主角把頭伸地板里看,下一秒看到的居然是個天花板,成顛倒世界了。
也可以理解,畢竟在Flova的工作流里,它只是給故事所需的場景生成了幾張孤立的平面圖,又不是做了個賽博片場的3D建模。
第二,在生成視頻的時候,沒能把劇情基礎設定作為畫面提示詞的一部分進行考慮。
比如我說這主角偷偷摸摸進到工廠里拿手機偷拍,結果很多鏡頭要么是第三人稱央視紀錄片視角,要么懟著人形機器人的臉拍。給人一種主角蒞臨工廠親自視察的意思。
第三,多個鏡頭組之間常常硬連尬連,最終成片有素材堆積感。
比如我跟Flova說,視頻里要有同事被抓獲、同事被壓縮成SKILL、同事.skill被安裝到公司電腦這三件事。
它就確實把事件A、事件B、事件C的鏡頭都給我生成得明明白白的。
但從主角看到事件A到看到事件B之間的過渡,轉個頭或者走個路,或者對著屏幕說「讓我們去那邊看看」,這就都不存在。都得自己手動添加。
好在這三個問題在短平快的片子制作流程中體現并不明顯,所以我在做朝鮮宣傳片和驚悚小視頻的時候也沒怎么難受。
估計Flova也意識到這些問題了,因為他們最近舉辦的活動基本上就是鼓勵大家多做一句話生成的短視頻。
![]()
Flova的反面就是TapNow。
首先,在Flova邀請用戶做只有3個鏡頭的視頻發網上的同時,TapNow辦了一場需要連續抽卡36個小時做視頻的動畫黑客松,又發起了一場連先導片都需要1~3分鐘的AI視頻生成大賽,然后他們網站首頁和對外宣發的也都是一些電影質感的中長視頻創作。
![]()
其次,Flova的交互基本全靠對話,TapNow的界面就是畫布,像是打開了100個文件夾。
![]()
這甚至只是一個模 板
我說實話這畫布看起來比AE界面都復雜,誰能研究明白這界面,做視頻也不用AI了。
基于以上兩點,TapNow生成的確實都是精準的、有質感的高水平視頻,Flova生成的則是混沌的、差點意思的視頻。
在現階段的AI視頻生成領域,可以說TapNow是一個專業的精密儀器,Flova更像是個玩具。
之前和沐秋聊到視頻agent,他也說現在畫布就是版本答案。這可能也是行業共識。
但即便如此我也是非常恨畫布,且盡量不使用TapNow。
因為任何視頻agent的本質都是畫布,AI視頻生成都是文生圖——圖生視頻這么幾步,它們后臺肯定有個超大畫布在那默默運作。唯一構成產品區別的就是你把這個畫布藏多少,幫用戶畫多少。
TapNow呢?畫布就是它的本質了。這不算什么偉大發明啊。
換句話說,如果有足夠的耐心、時間和精力,只要你在電腦里建立100個套來套去的文件夾,再打開Gemini和即夢,你基本上也手搓了一塊畫布。
TapNow做的其實就是這塊畫布的交互界面,就我個人而言,沒感覺它設計得有多用心。
看這畫布復雜程度,打開電腦都要死機了,我也直接看力竭了,根本不想接著做。
![]()
合著我得是個當代電影大師才能來當AI視頻大師。
那我能說什么?我不是什么當代電影大師啊,我是連畫布都看不懂的**啊。
不會以為在AI技術出現之前,阻礙我拍一部電影的只是預算吧?顯然除此之外,還有我貧瘠的美學知識和視頻拍攝技術啊。
你不能只是把攝影機和一整套燈具換成一臺能登錄TapNow官網的電腦,把分鏡表改成畫布模樣,然后把電池和膠卷定為token的翻譯,就說現在已經沒有任何實現創意可視化的阻礙了。
往大了說這甚至是一種傲慢。默認消費者應該努力適應產品而不是反過來,就算產品再好也會被淘汰。
上世紀八九十年代日本傻瓜相機因為簡單好用席卷全球,以往走高端裝高雅的徠卡差點都被干破產了,只能聯合美能達推出了貼牌產品。
請注意這個時候他們可沒派一個公關高管出來教育用戶說,傻瓜相機雖好,我們手動機械相機才是墜能拍出精確曝光的,才是最省膠卷不用抽卡的。
對吧,這話都沒用,這還是徠卡,眾畫布類產品有徠卡的產品力和用戶忠誠度嗎,你們能應對日后出現的哪怕沒那么精準但更易用的傻瓜產品嗎?
對于我們**用戶來說,商品有學習成本,那就是路邊一條。
沒有學習的義務.jpg
這也是為什么剪映比pr偉大,你pr再能做高級效果再能導入16K240幀的片子也沒用,我一個特效拉過去,村口老太都發了10條抖音了。
哦說到抽卡,很多人就提到TapNow這種畫布類產品的一大優點,省token。
事實上你在用TapNow的時候其實在燒雙倍token。AI燒之前你人腦還燒了一遍呢,研究那個畫布的時間都夠你搬磚賺倆月會員了。
別把自己的精氣神不當回事。人的token也是token。
當然,噴了TapNow一屏幕,不意味著Flova就更勝一籌了·。
我純個人視角總結了一下,現在視頻agent基本就兩個發展方向。
一個是抄TapNow,致力于做出更大更全更無限的超級無敵畫布,然后和其他的畫布比誰接入Seedance 8.0更快。
另一個是Flova這種,走一個無知即力量的路線,讓用戶不用管提示詞是怎么寫的,也不用想腳本、模型這些事,把用戶手感作為壁壘。(沐秋還真誠建議Lovart做完TapNow后可以順手再做個Flova)
然而現在前者的使用體驗讓我想死,后者的視頻成片讓我不想活。
所以我決定等待。就像之前學不明白車現在等來無人駕駛,之前沒蹭上轉碼熱潮現在都開始vibe coding。
我現在就要原地不動每天噴你們兩家公司,直到TapNow把交互和操作改成對我這種**用戶也友好時,直到Flova能看懂我如夢話般的指令時,我再開始用你們進行AI視頻。
畢竟在此之前,用你們做ai就像做恨一樣難受。
(本文封面由ChatGPT 生成,純人工寫作)
??
歡迎訂閱我們的Substack
funeralai.substack.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.