網易首頁 > 網易號 > 正文申請入駐

LibTV：你的龍蝦，真的可以當導演了

2026-03-18 10:05:03　來源: AI進化論花生

北京舉報

分享至

我給OpenClaw發了一句話：

我之前開發了一款叫「小貓補光燈」的app，主要價值是幫助女生在餐廳、飛機、酒吧等暗光環境下補光。請幫我收集下這個產品的相關信息，然后用LibTV skill做一個30秒左右的Apple風格宣傳視頻。

然后就看著它開始工作。

它先自己去找本地有沒有LibTV Skill，有沒有關于小貓補光燈的現成資料——找到了，把產品賣點抽出來。然后調用LibTV，先把劇本框架寫好，然后生成角色參考圖：正面、側面各一張，用來鎖定后續所有場景的角色一致性。參考圖出來之后，逐個分鏡生成關鍵幀畫面，最后拼成25秒完整視頻。

整個過程，我沒有手動操作任何節點，沒有打開任何界面，沒有寫任何一句prompt。Agent自己完成了：找資料 → 寫劇本 → 生成角色圖 → 出分鏡 → 拼成片。

回頭看LibTV的畫布，能清楚地看到這條鏈路：劇本節點 → 角色圖節點 → 分鏡節點 → 視頻片段節點 → 最終成片。

讓我覺得比較驚喜的是LibTV主動傳了我的產品首頁界面圖和logo圖作為參考，而且，似乎它看著這些界面就天然知道產品該怎么操作了。最終的宣傳視頻效果如下

對了，在裝了LibTV Skill之后，我的龍蝦成了我的導演了。

這是他們的產品地址你大可以先關閉這篇文章，自己去親自動手試試。

LibTV官網：https://www.liblib.tv/

LibTV Github倉庫：https://github.com/libtv-labs/libtv-skills

這件事為什么現在才發生

往前推一年，這件事還不可能發生，或者說，沒法做好。

AI視頻生成有一個明顯的拐點，就在過去這半年多里悄悄過了。可靈從1.0到3.0，Sora 2出來，Veo 3.1出來，Seedance 2.0也發了，Wan系列也在快速迭代。這些模型在差不多同一段時間里集中爆發，把「AI視頻」這件事的質量上限抬高了一大截。以前出來的東西「看起來像AI做的」，有一種特殊的平滑感和不自然的運動方式，一眼就能認出來。現在這條線模糊了很多。

記得就在Seedance模型的新版本出來那天，即夢的排隊人數一度破萬。上一次見到這種陣仗，我還是在排隊退ofo押金。

那些排隊的人，很多不是來玩的，是真的專業黨來干活的。

最近刷到越來越多關于AI視頻的消息了，比如有報道已經有導演在混合調用這幾個視頻模型加上圖像模型，一個人做出了質量過得去的AI短劇，在平臺上掙錢了。有人做了個粗略測算，一部30集的AI短劇，傳統方式可能要幾百萬制作成本，現在一個懂工具的人，幾萬塊能搞定。

更標志性的一個信號：賈樟柯和即夢合作，用AI做出了一部有明顯導演質感的作品。這件事的意義不在于「AI能生成視頻」，而在于一個有審美判斷的導演，真的把AI工具當成了自己創作的一部分。原來只有大公司能玩的賽道，現在個人創作者也能進去了。

但那是懂工具的人。

專業導演身上有一樣東西，任何工具都給不了你：他們知道怎么「調度」。知道一個場景該用哪個模型，什么時候換風格，角色在不同鏡頭里怎么保持一致，分鏡節奏怎么排。這套思維方式，是從無數個項目里磨出來的。

你把Seedance 2.0給一個沒有這種積累的人（比如我），很多時候，他打開輸入框，發現自己不知道第一句話該寫什么。

工具在加速進化，但工具和結果之間的那段距離，那段叫「導演思維」的東西，并沒有因此消失。有時候工具越強，這段距離反而越明顯，因為工具能做的事太多了，你反而不知道該讓它做什么。

現有工具，有兩個極端

LibTV的團隊在做這個產品之前，觀察到一個問題：現在的AI創作工具，要么太簡單，要么太復雜。

太簡單的一類，是聊天式的Agent工具。你給它發指令，它幫你生成東西，能聊，但做不出復雜作品。一旦你想精細調整某個鏡頭，它就跟不上了。

太復雜的一類，是純節點式工作流。搭起來成本很高，需要對工具本身有深入理解，普通創作者上手門檻陡。更麻煩的是，創作過程中的小修改、小調整，沒有順手的工具，只能不斷導出到別的軟件二次編輯，流程被切得很碎。

LibTV想填的是這中間的空白：比聊天工具更專業，比純節點工作流更好上手。

一個給導演設計的工作臺

LibTV（liblib.tv）的界面是一塊無限畫布。

進去之后是一片黑色的空白，中間有一行小字：「雙擊畫布，自由生成節點」。底部有四個快速入口：故事腳本生成、角色三視圖、首幀圖生視頻、音頻生視頻。你從哪個環節開始都行。

不是在一個生成框里點來點去，而是在畫布上把整個項目鋪開。劇本是一個節點，角色是一個節點，分鏡是一個節點，圖像生成、視頻生成、音頻都是節點，節點之間連線，組成一條完整的創作工作流。這種設計讓你的創作過程是「可見的」，哪一步出了問題，單獨調那個節點就行，不用從頭來。

功能上，有幾個讓我覺得確實在認真考慮「導演視角」的設計。

我最喜歡的是兩個能力：

1、我可以丟給他一套我想模仿的廣告片，點一下「解析」，即可獲得顆粒度到0.1秒級別的極致清晰的腳本信息。

2、你也可以單純的有個粗淺的腦洞，然后讓LibTV幫你生成包含角色描述、景別、角色動作，甚至情緒的專業腳本

學不完，根本學不完...

以往這樣的腳本應該怎么寫的認知，你可能需要在電影學院學個4年時間，或者在前兩年，你大概需要花個x99買AI課程，而現在Libtv的這套工作流以及封裝的Skill相當于完全把導演的職業技能開源了。

目前LibTV上線了20多個專業視頻創作功能，其中不少是行業首發。

更多功能我就不介紹了，講道理，我也不太懂，我希望我的Claude Code和OpenClaw作為成熟的Agent，該自己去學這些東西，而不是完全依賴我了。

以及，如果你不確定自己的導演思維從哪里開始練，LibTV首頁其實是一個不錯的起點。那里有一個「TV Show」社區，按商業廣告、專業影視、動漫游戲等分類展示了大量創作者的真實作品，每一條都是可以點開看、可以反推工作流的案例。光刷首頁，就能大概建立起「什么樣的畫面用什么方式做出來」的感覺。

模型方面，圖像有Seedream 5.0、Qwen image等，視頻有可靈3.0、Wan 2.6等，文本接了三個頂級大模型，全在一塊畫布里，不用來回切平臺。

關于價格

做AI視頻的人都懂「抽卡」這件事。

同樣一段prompt，生成十次可能只有一兩條讓你滿意。一個認真的項目，核心鏡頭可能要反復抽幾十次。隨機性是AI生成的底層邏輯，沒辦法消除，只能用更多次數去篩。

問題在于，次數是有成本的。

LibTV目前會員價格比競品低76%，模型積分定價比競品低92%。

原來只敢試5次的，現在可以試50次。你可以理解為這個成本降低背后帶來的本質是讓你的創作方式改變。你開始敢做實驗，敢在某個細節上多磨幾輪，因為「反正不貴」。

B、C之后，A來了

回到開頭那件事。

龍蝦能當導演，不是因為龍蝦特別聰明，是因為LibTV從第一天起就同時打開了兩扇門。

一扇是人用的GUI，也就是那塊畫布，人在上面操作、排分鏡、生成視頻。另一扇是Agent用的Skill接口，OpenClaw、Coze、Claude Code這類AI Agent，通過這個接口理解任務、調用模型、自動完成創作。兩扇門，Day 1同時開著，沒有先后順序。

這背后有一個判斷，我覺得是對的。

過去二十年，軟件產品的成長路徑幾乎都是同一條：先做好用的界面把用戶圈進來，做大了再開放API給開發者。GUI是正門，API是后門，有先后順序。Figma這樣做，Notion這樣做，Salesforce也這樣做。API從來都是「長大以后再說的事」。

但Agent的出現打破了這個順序。

這要從AI能力的一個變化說起。過去幾年，Agent經歷了幾次躍遷：最開始只會對話；然后學會調用工具，開始能搜索、寫代碼、發消息；現在到了第三階段，能夠理解復雜任務，自主編排工作流，在項目級別的上下文里持續迭代。

這第三次躍遷是關鍵的。它讓Agent從「工具的使用者」變成了「工作的執行者」。當軟件的用戶不再只是人類，API從第一天起就和GUI同等重要。

Sam Altman在2024年底說過，2025年會是「Agent真正開始接管工作的一年」。a16z在研究報告里寫，AI Agent正在成為軟件消費的第三條主要路徑，和人類用戶、企業系統并列。到了2026年，看來這一預期終于要成真了。

B2C、B2B大家都熟悉了。B2A（to Agent）正在成為一個真實的商業邏輯。ABC，算是補齊了。

兩扇門，對應兩種工作方式

如果你是認真做內容的創作者，想精細控制每個鏡頭、每個色調、每個節奏點，GUI那扇門是給你的。無限畫布，所有工具，你來導，AI來執行。

如果你有重復性的內容生產需求，比如品牌方每周要的幾十條素材、系列欄目的每期視頻，Agent那扇門是給你的。裝一個Skill，給一句話，批量出來，不需要人盯著。

顯然，這也不是OpenClaw專屬的能力。我用Claude Code也測試過，甚至還更穩：

用LibTV Skill幫我做一個類似《辛普森》風格的，諷刺人類在過度利用ai后，什么都不會，甚至吃飯、走路都要詢問ai自己該怎么做的諷刺性視頻。

工作方式和OpenClaw一樣：自己寫分鏡劇本，調用LibTV生成角色參考圖，逐個場景出關鍵幀，最后拼成完整視頻。本質上，只要是能調用Skill的Agent，Claude Code、AutoClaw、KimiClaw，或者Cursor、Trae這類AI編程工具，都可以接LibTV這扇門。是哪個Agent不重要，重要的是那扇門開著。

60秒，包含了6個不同的場景的畫面，這個20分鐘左右生成的動畫短片的人物一致性和風格統一性還真挺讓我驚訝的。

當然了，我覺得視頻創作和寫文章、做產品都類似：AI能為你提供超乎想象的大量輔助，但是好作品還是需要人的品味和判斷。

創意決策，審美篩選，那個「不對，再來一條」的直覺，這些暫時沒有東西能替代。但把創意執行出來這件事，可以越來越多地交出去。導演還是導演，只是他的劇組里，現在多了一只會拍戲的龍蝦。

最好的狀態大概是這樣的：你負責審美，它負責執行。你往前走，龍蝦跟上來，一起把東西做出來。

目前LibTV還在內測，不是完整體，真正的大功能還沒全放出來。但那扇門已經開著了，先裝上Skill的人，會比別人早一段時間把龍蝦練出來。

另外有個消息順手說一下：現在訂閱的用戶，會贈送最多150條可靈O3＋150條可靈3.0，共300條最高等級視頻免費用。抽卡這件事，先把這300條花完再說。

感興趣可以去他們的官網或者Github倉庫看看

LibTV官網：https://www.liblib.tv/ GitHub：https://github.com/libtv-labs/libtv-skills

哦對，我大概是玩上癮了，我還做了兩個分別是新聞風格和《Rick & Morty》風格的宣傳我的《OpenClaw橙皮書》的廣告視頻。我感覺Building in public這件事，又有不同的可能性了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.