網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

一款產(chǎn)品，同時(shí)為人類和 Agent 設(shè)計(jì)，LibTV 是怎么做的？

2026-03-19 20:18:35　來(lái)源: FounderPark

北京舉報(bào)

分享至

試試讓你的 Agent 做一支產(chǎn)品宣傳片。

給它一段參考視頻，加一句話：「能復(fù)刻這個(gè)視頻，給我的產(chǎn)品做一個(gè)宣傳片嗎？」然后你去忙別的了。十幾分鐘后，Agent 交回一支完整的 TVC——它自己寫了劇本，自己拆了分鏡，自己選了模型生成每一個(gè)鏡頭，自己剪輯，自己配樂(lè)。你沒(méi)有碰過(guò)任何一個(gè)按鈕。

已經(jīng)有產(chǎn)品做出來(lái)了。

3 月 18 日，LiblibAI 旗下 AI 視頻創(chuàng)作平臺(tái) LibTV 正式上線。

它可能是目前市面上第一個(gè)，從產(chǎn)品設(shè)計(jì)的第一天起，就同時(shí)為人類創(chuàng)作者和 Agent 設(shè)計(jì)的視頻創(chuàng)作工具——一款產(chǎn)品，兩扇門。

LibTV：https://www.liblib.tv/

??關(guān)注 Founder Park，最及時(shí)最干貨的創(chuàng)業(yè)分享

超 22000 人的「AI 產(chǎn)品市集」社群！不錯(cuò)過(guò)每一款有價(jià)值的 AI 應(yīng)用。

邀請(qǐng)從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者，飛書掃碼加群：

進(jìn)群后，你有機(jī)會(huì)得到：

最新、最值得關(guān)注的 AI 新品資訊；
不定期贈(zèng)送熱門新品的邀請(qǐng)碼、會(huì)員碼；
最精準(zhǔn)的 AI 產(chǎn)品曝光渠道

01給 Agent 設(shè)計(jì)產(chǎn)品，已經(jīng)不是選擇題了

過(guò)去一年，AI 產(chǎn)品領(lǐng)域有一件事越來(lái)越明確：你的用戶里正在多出一類新物種——Agent。

不是所有產(chǎn)品都意識(shí)到了。但已經(jīng)意識(shí)到的人開始動(dòng)了。Figma、Canva、Spotify 接入了 OpenAI 的 Apps SDK，讓 Agent 可以直接在 ChatGPT 里調(diào)用它們的能力。大量 SaaS 工具在接 Skill 接口，讓 Agent 能讀寫數(shù)據(jù)、觸發(fā)流程。Obsidian、Google Workspace 都提供了 Cli 版本，我最喜歡的筆記類產(chǎn)品 flomo 發(fā)布了 MCP 工具供各類 agent 使用。a16z 的 Stephanie Zhang 在 Big Ideas 2026 播客里說(shuō)得很直接：「對(duì)人類消費(fèi)者而言重要的東西，對(duì)智能體消費(fèi)而言未必重要。」軟件的優(yōu)化目標(biāo)正在從「讓人看得懂」變成「讓 Agent 用得了」。

但看看視頻創(chuàng)作這個(gè)領(lǐng)域，情況還很早期。

能自動(dòng)出片的 Agent 工具已經(jīng)有了——給一句 prompt，劇本到成片全自動(dòng)交付。有些也開始支持逐鏡頭調(diào)整和風(fēng)格參數(shù)。專業(yè)創(chuàng)作者用的工作流工具也有了——畫布、節(jié)點(diǎn)、連線，控制力很強(qiáng)。但這兩類工具的思路是分開長(zhǎng)的。Agent 類工具的核心邏輯還是自動(dòng)化交付，創(chuàng)作者能介入的環(huán)節(jié)有限，更多時(shí)候是在結(jié)果層面做取舍。專業(yè)工作流那邊，搭建成本高，創(chuàng)作中的小修改經(jīng)常要導(dǎo)出到別的軟件處理，給 Agent 用的接口大多還是后補(bǔ)的，不是原生設(shè)計(jì)。

兩類工具各有各的長(zhǎng)處，但思路是分開的。一邊圍繞自動(dòng)化交付設(shè)計(jì)，一邊圍繞人的操控感設(shè)計(jì)，兩套邏輯還沒(méi)有在同一個(gè)產(chǎn)品里真正合流。

LibTV 想做這件事。

02一款產(chǎn)品，兩個(gè)入口

LibTV 從第一天起，人類創(chuàng)作者和 Agent 各有各的入口。不是先做 GUI 再補(bǔ) API，兩個(gè)入口在產(chǎn)品架構(gòu)層面就是并行的。

創(chuàng)作者端：工作流畫布更可控

打開 LibTV，看到的不是對(duì)話框也不是時(shí)間線，是一塊可以無(wú)限放大的畫布。文本、圖片、視頻、音頻、腳本五種節(jié)點(diǎn)隨便擺，用連線串成工作流，可以反復(fù)跑。劇本到成片，全在一張畫布上。

已經(jīng)上線 20 多個(gè)專業(yè)創(chuàng)作功能：9/25 宮格分鏡生成、劇情推演四宮格、多機(jī)位鏡頭設(shè)計(jì)、角色三視圖、畫面時(shí)間推演等等。模型集成了可靈 3.0、Wan 2.6 等主流視頻模型，圖片和文本側(cè)也接了多個(gè)模型。

舉個(gè)場(chǎng)景。一個(gè) 3 人創(chuàng)業(yè)團(tuán)隊(duì)要做 45 秒產(chǎn)品宣傳片，沒(méi)錢請(qǐng)外包。過(guò)去怎么做？ChatGPT 寫腳本、 Nano Banana 出圖、可靈生視頻、剪映剪輯、PS 修畫面。5 個(gè)工具來(lái)回切，角色長(zhǎng)相每換一個(gè)工具就變一次。

在 LibTV 里：畫布上用文本模型寫分場(chǎng)景腳本，9 宮格分鏡一次出 9 張構(gòu)圖方案，挑一個(gè)方向。角色三視圖把主角形象鎖死，后面所有鏡頭基于同一個(gè)設(shè)定生成，不會(huì)再變臉。逐鏡頭生成視頻，畫布上直接剪輯配樂(lè)。一個(gè)界面，一個(gè)下午。做完了把這套工作流存成模板，下次換幾個(gè)鏡頭描述重新跑就行。

Agent 端：你來(lái)指揮，Agent 執(zhí)行

Agent 通過(guò) Skill 接口接入 LibTV，直接調(diào)用短漫劇生成、視頻復(fù)刻、音樂(lè) MV 生成這些打包好的創(chuàng)作能力。它能做出什么水平的視頻，取決于能調(diào)用什么水平的模型和工作流。

有個(gè)技術(shù)細(xì)節(jié)值得說(shuō)一下。Agent 每次發(fā)起創(chuàng)作，LibTV 返回的不是一個(gè)「等處理完再來(lái)取」的任務(wù) ID，而是三樣?xùn)|西——sessionId、projectUuid、projectUrl。sessionId 讓 Agent 可以持續(xù)查詢進(jìn)展；projectUuid 讓整個(gè)創(chuàng)作掛在一個(gè)可持續(xù)的項(xiàng)目對(duì)象上；projectUrl 讓人類可以隨時(shí)打開畫布接管。Agent 交付的不是一個(gè)孤立的 mp4 文件，而是一整個(gè)可以繼續(xù)編輯的項(xiàng)目——人類打開畫布就能接著改。

我們實(shí)際試了一下。給 Agent 一句話：「做一個(gè) 2 分鐘的動(dòng)畫短片，講一個(gè)被推薦算法困住的年輕人逐漸覺(jué)醒的故事，賽博朋克風(fēng)格，結(jié)尾有希望感。」

然后什么都不用做。

Agent 自己把這句話拆成了 6 幕劇本，自動(dòng)定好調(diào)色方案——冷藍(lán)紫到暖金色的漸變，對(duì)應(yīng)情緒從壓抑到覺(jué)醒的轉(zhuǎn)變。逐場(chǎng)景生成分鏡，逐鏡頭出視頻，配樂(lè)剪輯一條龍交付，最后給回一條完整的成片鏈接和項(xiàng)目畫布。哪部分不滿意可以隨時(shí)讓它修改，人類只需要等待即可。

這是 LibTV 上線后實(shí)際跑出來(lái)的結(jié)果。產(chǎn)品還在早期階段，體驗(yàn)還在打磨，不是所有功能都到了最終形態(tài)。但核心流程能跑通了：同一套系統(tǒng)，創(chuàng)作者自己做和 Agent 自己做，調(diào)的是同一組能力、同一層模型。

03給 Agent 設(shè)計(jì)軟件，跟給人設(shè)計(jì)到底有什么不一樣？

LibTV 同一個(gè)產(chǎn)品給人和 Agent 同時(shí)用，兩種用法擺在一起，差異很具體。但在拆解差異之前，先說(shuō)一個(gè)底層問(wèn)題：為什么給人用和給 Agent 用，設(shè)計(jì)思路會(huì)完全不同？

真格投資總監(jiān)鐘天杰最近寫了一篇文章，標(biāo)題很激進(jìn)——「我們也許不該再投資 GUI 思維的軟件公司」。他的核心論點(diǎn)是：GUI 本質(zhì)上是人類認(rèn)知缺陷的補(bǔ)丁。人類注意力帶寬極窄，工作記憶極淺，需要持續(xù)的視覺(jué)錨點(diǎn)才能維持任務(wù)狀態(tài)。畫布、節(jié)點(diǎn)、空間布局、即時(shí)反饋——這些東西存在的原因不是它們好，而是人類不用它們就沒(méi)法干活。Agent 沒(méi)有這些限制。它不需要「看到」才能記住，不需要空間布局來(lái)維持上下文，不需要視覺(jué)反饋來(lái)確認(rèn)操作生效了。

理解了這一點(diǎn)，下面三個(gè)差異就不意外了。

能力怎么包裝給 Agent，講究不一樣。

創(chuàng)作者用的是碎片化的工具——拖節(jié)點(diǎn)、調(diào)參數(shù)、選構(gòu)圖、改文案。手上做的事是碎的，腦子在做整合。Agent 不要碎片化工具。它不想「拖一個(gè)節(jié)點(diǎn)連一條線」，它想「根據(jù)這個(gè)劇本生成一套分鏡」。

給 Agent 設(shè)計(jì)入口，第一個(gè)問(wèn)題就是能力打包到哪一層。各種 API 太細(xì)，Agent 得來(lái)回調(diào)幾十次。一鍵出片太粗，不同任務(wù)沒(méi)法差異化。Sequoia（紅杉）分析 Agent 產(chǎn)品設(shè)計(jì)時(shí)有個(gè)說(shuō)法叫「Goldilocks」——最優(yōu)解在中間，「把大量控制流交給 LLM，但保留一組軌道和狀態(tài)感知」。LibTV 的 Skill 就是這個(gè)中間層：每個(gè) Skill 里有完整的決策鏈路，但 Agent 可以在不同 Skill 之間自由組合。

這跟傳統(tǒng)意義上「給產(chǎn)品加個(gè) API」是兩回事。API 是把人類在界面上點(diǎn)擊的流程翻譯成代碼調(diào)用，思路沒(méi)變；Skill 是讓 Agent 用自然語(yǔ)言表達(dá)意圖，由系統(tǒng)側(cè)完成編排和決策——思路變了。

做決定的方式不一樣。

創(chuàng)作者看 9 張分鏡圖，掃一眼就知道哪張對(duì)。說(shuō)不清為什么，但就是知道。Agent 沒(méi)有這種直覺(jué)。它的辦法是靠量：每個(gè)鏡頭生成好幾個(gè)版本，按一致性、構(gòu)圖、風(fēng)格匹配度自動(dòng)篩。用算力換審美。

給 Agent 用的系統(tǒng)得原生支持批量生成和自動(dòng)比選。這也解釋了為什么價(jià)格這么重要——Agent 天然就是要多調(diào)幾倍模型的。

記東西的方式不一樣。

創(chuàng)作者靠空間記憶管項(xiàng)目——角色設(shè)定在畫布左邊，分鏡在中間，成片在右邊，抬眼就知道整體狀態(tài)。Agent 沒(méi)有「空間」。做到哪一步了、角色約束是什么、前面鏡頭用了什么色調(diào)，都要顯式地傳給它。人看一眼就明白的事，Agent 需要系統(tǒng)幫它記住。

這三個(gè)差異是任何想給 Agent 開一扇門的產(chǎn)品都得回答的問(wèn)題。LibTV 給出了一個(gè)早期解法，夠不夠好還得看后續(xù)迭代。但問(wèn)題本身已經(jīng)繞不過(guò)去了。

04給 Ageng 用，Token 不能太貴

視頻創(chuàng)作最大的成本是「抽卡」——大量生成，反復(fù)試。一支好作品后面可能是幾十上百次生成和篩選。

LibTV 定價(jià)有點(diǎn)便宜：

年卡最低 39 折
部分模型疊加優(yōu)惠后相當(dāng)于 2 折多
會(huì)員 SKU 比競(jìng)品低 76%
模型積分比競(jìng)品低 92%

對(duì)創(chuàng)作者來(lái)說(shuō)，試錯(cuò)成本降下來(lái)了，可以靠量跑出好作品。

但對(duì) Agent 生態(tài)來(lái)說(shuō)，便宜這件事可能更要緊。前面說(shuō)了，Agent 天然需要多版本生成和比選，調(diào)用頻次比人手動(dòng)操作高得多。單次調(diào)用太貴的話，Agent 做視頻在經(jīng)濟(jì)上根本不成立。

模型能力決定 Agent 能不能做出好視頻，價(jià)格決定它敢不敢放開了做。這兩件事得同時(shí)解決，Agent 視頻創(chuàng)作才能從 demo 變成可用的生產(chǎn)力。

05給 Agent 做視頻工具，難在哪里？

同時(shí)做兩個(gè)入口、接一堆前沿模型、還把價(jià)格壓到這個(gè)程度，LibTV 之所以能這么做，跟 LiblibAI 過(guò)去三年干的事直接相關(guān)。

模型層，LiblibAI 做了三年多模態(tài)視覺(jué)創(chuàng)作，從圖像生成到風(fēng)格模型訓(xùn)練，一直在干「把模型能力變成創(chuàng)作者用得上的產(chǎn)品」這件事。跟主流模型廠商和算力平臺(tái)的合作是長(zhǎng)期積累下來(lái)的。這解釋了定價(jià)為什么敢這么激進(jìn)——上游的供給效率和成本結(jié)構(gòu)，短時(shí)間內(nèi)很難攢出來(lái)。

用戶層，LiblibAI 平臺(tái)上有超過(guò) 2000 萬(wàn)創(chuàng)作者，社區(qū)里沉淀了十萬(wàn)多款原創(chuàng)風(fēng)格模型。這些創(chuàng)作者用什么模型、調(diào)什么參數(shù)、做什么類型的內(nèi)容、在哪些環(huán)節(jié)卡住——產(chǎn)品團(tuán)隊(duì)對(duì)創(chuàng)作流程的理解是從這里來(lái)的。LibTV 的功能設(shè)計(jì)（9/25 宮格分鏡、角色三視圖、多機(jī)位鏡頭）是從大量真實(shí)創(chuàng)作行為里提煉出來(lái)的。

產(chǎn)品經(jīng)驗(yàn)層，LiblibAI 在 2025 年就在設(shè)計(jì)領(lǐng)域推出過(guò)一個(gè)垂直 Agent 產(chǎn)品「星流」。怎么給 Agent 設(shè)計(jì)入口、Skill 怎么封裝、Agent 跟人的協(xié)作流程怎么跑通——這些問(wèn)題團(tuán)隊(duì)已經(jīng)踩過(guò)一輪坑。LibTV 的雙入口設(shè)計(jì)是在之前實(shí)踐基礎(chǔ)上的迭代。

還有一層?xùn)|西值得單獨(dú)說(shuō)。2000 萬(wàn)創(chuàng)作者沉淀下來(lái)的不只是使用數(shù)據(jù)，還有審美資產(chǎn)。十萬(wàn)款風(fēng)格模型、大量被驗(yàn)證過(guò)的創(chuàng)作工作流——這些東西帶著創(chuàng)作者的審美判斷。在 LibTV 里，創(chuàng)作者可以把畫布上調(diào)好的工作流存成模板，模板里記錄的不只是「用了哪些節(jié)點(diǎn)、連了哪些線」，還有每個(gè)環(huán)節(jié)的參數(shù)偏好：鏡頭時(shí)長(zhǎng)、構(gòu)圖傾向、色調(diào)范圍、節(jié)奏結(jié)構(gòu)。另一個(gè)創(chuàng)作者拿去用，出來(lái)的東西會(huì)帶著前一個(gè)人的審美印記。Agent 拿去執(zhí)行，同樣如此。審美通常鎖在個(gè)人直覺(jué)里，沒(méi)法傳。LibTV 想把它變成可以存下來(lái)、可以在社區(qū)里流通的東西。人出審美，Agent 出產(chǎn)能，社區(qū)做流通——這是它想搭的飛輪。

所以 LibTV 更像是 LiblibAI 三年積累到了一個(gè)節(jié)點(diǎn)之后的自然產(chǎn)物：技術(shù)合作提供模型供給，創(chuàng)作者社區(qū)提供需求洞察和審美沉淀，Agent 產(chǎn)品經(jīng)驗(yàn)定義產(chǎn)品形態(tài)。

06Agent 不是功能，是新用戶

回到行業(yè)角度來(lái)看。

LibTV 在做的事——同時(shí)為人和 Agent 設(shè)計(jì)一款產(chǎn)品，不是一個(gè)特例。它背后是一個(gè)正在加速的行業(yè)變化：越來(lái)越多的產(chǎn)品團(tuán)隊(duì)開始把 Agent 當(dāng)成一類真實(shí)的用戶來(lái)對(duì)待。

Linear 是一個(gè)很具體的例子。這個(gè)項(xiàng)目管理工具過(guò)去一年做了一系列改動(dòng)：issue 可以直接指派給 AI coding agent，跟指派給同事一樣；專門做了一個(gè) Agent Session 面板，顯示 Agent 的工作進(jìn)度和推理過(guò)程；手機(jī)端也能跟蹤 Agent 的任務(wù)狀態(tài)。它給 Agent 設(shè)計(jì)了獨(dú)立的權(quán)限體系、webhook 事件類型、OAuth scope。不是加了個(gè) API 就完事——從分配任務(wù)、跟蹤進(jìn)度、權(quán)限管理這些核心功能層面，Agent 就是團(tuán)隊(duì)成員。

Shopify 走得更遠(yuǎn)。今年初推出的 Universal Commerce Protocol，讓 Agent 可以自主發(fā)現(xiàn)商品、比價(jià)、下單，走完整個(gè)購(gòu)物流程。它還出了一套 Checkout Kit，專門讓 Agent 在對(duì)話流程里完成支付。Shopify 的邏輯很清楚：未來(lái)的買家不只是人，還有替人跑腿的 Agent。產(chǎn)品架構(gòu)得為這類用戶重新設(shè)計(jì)。

Sierra 創(chuàng)始人、OpenAI 董事長(zhǎng) Bret Taylor 在 Sequoia 的播客 Training Data 里給了一個(gè)時(shí)間線：20 年前，企業(yè)的主要數(shù)字界面是網(wǎng)站。10 年前，變成了 App。下一步，是 Agent。Taylor 認(rèn)為這個(gè)變化里最大的機(jī)會(huì)在垂直領(lǐng)域——每個(gè)行業(yè)的工作流不一樣，需要的 Agent 方案也不一樣。通用平臺(tái)做不了這件事，得垂直深入。他管這個(gè)叫「新一代的軟件即服務(wù)」。Sierra 自己的做法很說(shuō)明問(wèn)題：給電信、銀行、保險(xiǎn)這些行業(yè)分別搭定制化的客戶服務(wù) Agent，定價(jià)按 Agent 自主解決問(wèn)題的數(shù)量收費(fèi)，轉(zhuǎn)人工的不收錢。這個(gè)定價(jià)模型本身就在說(shuō)——Agent 就是產(chǎn)品，不是產(chǎn)品的附屬功能。

Jensen Huang 前兩天在 GTC 2026 上把這件事說(shuō)得更緊迫：「今天世界上每家公司都需要一個(gè) Agent 系統(tǒng)戰(zhàn)略。這就是新一代計(jì)算機(jī)。」他直接把 Agent 框架比作 Windows 和 HTML——不是一個(gè)可選的新功能，是下一代基礎(chǔ)設(shè)施。

這些判斷指向同一件事：Agent 作為用戶，不是一個(gè)遙遠(yuǎn)的假設(shè)，已經(jīng)在改變產(chǎn)品的設(shè)計(jì)方式了。Linear 改了任務(wù)分配，Shopify 改了交易流程，Sierra 改了定價(jià)模型。每家公司遲早要回答同一個(gè)問(wèn)題：你的產(chǎn)品準(zhǔn)備怎么接住這類新用戶？

LibTV 是在視頻創(chuàng)作這個(gè)垂直領(lǐng)域給出的一個(gè)早期回答。

轉(zhuǎn)載原創(chuàng)文章請(qǐng)?zhí)砑游⑿牛篺ounderparker

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.