![]()
短視頻平臺把創(chuàng)作門檻壓進手機屏幕,完成了一次“即創(chuàng)即消”的效率革命。
生成式 AI 的到來,則正在把視頻創(chuàng)作從“操作工具”,推向“直接表達想象”。
從“現(xiàn)實切片”走向“虛擬構(gòu)建”,創(chuàng)作范式正在換擋。站在這個轉(zhuǎn)折點上,前字節(jié)跳動智能創(chuàng)作工程與研發(fā)負(fù)責(zé)人黃嚴(yán),給出了自己的答案。
今年10月,他創(chuàng)辦的 ArtArch 發(fā)布了首款產(chǎn)品——Skira。在Skira中,復(fù)雜的剪輯與編排被封裝成“玩法”(Gameplay)。用戶只需輸入簡單指令或素材,就能調(diào)用底層能力,一鍵生成爆款作品。
Skira 的目標(biāo)只有一個:讓 AI 創(chuàng)作真正走向平權(quán),實現(xiàn)“所想即所得”。
2025 年初,ArtArch 已完成種子輪融資,投資方包括錦秋基金、九合創(chuàng)投和 BV 百度風(fēng)投。
從即創(chuàng)即消,到所想即所得
硅基君:Skira的核心定位是什么?
黃嚴(yán):我們想做的是一個AI Native(AI原生)的創(chuàng)作者社區(qū)。
以前的創(chuàng)作叫 NLE(Non-Linear Editing,非線性編輯)。無論是 Photoshop,還是手機時代的剪映、快手,本質(zhì)都是NLE——基于軌道、圖層進行編輯。
NLE 時代有三個角色:需求方(甲方)、設(shè)計師(操作者)、工具。這導(dǎo)致創(chuàng)作門檻很高,你需要先學(xué)工具。短視頻時代把 NLE 搬到了手機上,同時加強了分發(fā)能力,實現(xiàn)了“即創(chuàng)即消”,大大加速了循環(huán)。
但AI Native 時代,由于 AI 拓展了從現(xiàn)實到虛擬的想象力空間,過去的創(chuàng)作更多基于現(xiàn)實,而現(xiàn)在創(chuàng)作空間可以完全基于一個想象的虛擬空間,比如爆改甄嬛。一個服務(wù)于現(xiàn)實,一個服務(wù)于想象力。
而且,現(xiàn)在我們不再需要一個專門學(xué)工具的“設(shè)計師”角色,工具可以直接服務(wù)于“想象力”。我們做的 Image Engine(想象力引擎),就是要讓創(chuàng)作平權(quán),即所想即所得。
硅基君:具體的變革體現(xiàn)在哪里?
黃嚴(yán):以前我們拍片子,原素材必須來自現(xiàn)實(拍攝),后期再去拼接。現(xiàn)在,任何素材都可以由AI 生成或加持。本質(zhì)變了:從“如何操作工具”轉(zhuǎn)變?yōu)椤叭绾尾鸾鈩?chuàng)意”。
為了讓創(chuàng)作更順滑,我們把創(chuàng)作過程變成了一套Workflow(工作流)。
第一步,讓AI先理解創(chuàng)作者的“語境”與“世界觀”。創(chuàng)作者心里其實有畫面、有情緒、有氛圍,但用語言說出來就困難。
AI 要解決的是:讓機器理解“創(chuàng)作者真正想表達的內(nèi)容”,而不是理解字面意思。這是整個系統(tǒng)最重要的一步。這就是他們說的 “所想即所得”。
第二步,用AI 把“想法”轉(zhuǎn)成結(jié)構(gòu)化的創(chuàng)作藍圖。比如拍一個 30 秒短片,傳統(tǒng)流程包含:劇本結(jié)構(gòu)、分鏡、主體角色、背景轉(zhuǎn)場、特效聲音、音樂節(jié)奏、剪輯。
這些原本需要專業(yè)團隊逐步完成的環(huán)節(jié),現(xiàn)在在系統(tǒng)里是“一盤棋”編排的。你可以像編輯思維導(dǎo)圖一樣調(diào)整每個步驟。
硅基君:能不能展開講講用Skira和直接用視頻模型有什么區(qū)別?
黃嚴(yán):區(qū)別在于表現(xiàn)力,而這背后就是“理解語境”能力的差異。大模型生成的視頻往往是“千人一面”的,它理解的是概率上的共識。
但創(chuàng)作往往需要“特異性”。比如,編劇寫劇本:“一個男人回家,快速劃掉手機屏幕。”這一句話就暗示了出軌、緊張、心虛,這是語境。
如果你直接把這句話給大模型,它可能就真生成一個男人劃手機,平鋪直敘。我們的系統(tǒng)里有導(dǎo)演Agent。它會理解這個語境,然后設(shè)計分鏡:
鏡頭A:特寫男人的汗珠。
鏡頭B:手機屏幕的特寫,手指慌亂的動作。
配合心跳聲的音效、昏暗的濾鏡。這就是我們做的:把“語境”翻譯成具有表現(xiàn)力的“視聽語言”,而不僅僅是生成一個畫面,用最大化的表現(xiàn)方式去擊中觀眾。
硅基君:聽起來很厲害,從技術(shù)上是怎么實現(xiàn)的?
黃嚴(yán):我們底層構(gòu)建了一套Image DSL(領(lǐng)域特定語言)。你可以理解為,我們?yōu)橐曨l創(chuàng)作發(fā)明了一套編程語言。
這套語言里包含了生成類、主體類、渲染類、特效類等各種定義。通過這套語言,我們把一個感性的“劇本”,編譯成了一套可執(zhí)行的計算機程序。
在這個架構(gòu)之上,我們有執(zhí)行工作流的Agent 引擎。這里面有不同的 Agent 角色:
編劇Agent: 理解你的意圖,生成世界觀和敘事結(jié)構(gòu)。
導(dǎo)演Agent: 負(fù)責(zé)分鏡設(shè)計、鏡頭調(diào)度。
演員Agent: 負(fù)責(zé)角色的演繹和互動。
最上層是玩法引擎。玩法可以理解為一種特定剪輯方式,比如A/B Transfer(轉(zhuǎn)場特效)或者比較火AI寵物視頻。
我們把這些復(fù)雜的編排封裝成“玩法”(Gameplay),用戶只需要輸入簡單的指令或圖片,就能調(diào)用這套復(fù)雜的底層能力。
硅基君:這里的Agent,具體是如何工作的,比如編劇 Agent?
黃嚴(yán):每個Agent 都有獨特的 ID 和背后的領(lǐng)域知識庫,不僅僅是靠 Prompt 驅(qū)動。在訓(xùn)練過程中,也會通過強化學(xué)習(xí),根據(jù)反饋(這個生成得好不好)來更新自己的策略。
硅基君:如果未來視頻大模型(如Sora)變強了,還需要這套工程架構(gòu)嗎?
黃嚴(yán):這涉及到一個核心判斷:大模型變強,能解決局部復(fù)雜度,但解決不了整體創(chuàng)作的復(fù)雜度。
舉個例子,主體保持(Consistency) 目前大模型做得還不夠好。為了讓一個角色在不同鏡頭里長得一樣,我需要在模型周圍打很多“補丁”,用工程化手段(比如特有的渲染引擎、LoRA等)去約束它。
如果大模型變強了,這部分工作會被簡化。但是,人的審美天花板永遠在提升。就像小時候看《大鬧天宮》覺得很牛,現(xiàn)在覺得太簡單了。當(dāng)模型能力提升,人類會要求更復(fù)雜的敘事、更精細(xì)的控制(比如希區(qū)柯克式變焦、蒙太奇剪輯)。
所以,工程架構(gòu)是連接“人類無限的復(fù)雜想象力”和“模型有限的能力”之間的橋梁。這種沉淀下來的系統(tǒng)設(shè)計能力,才是壁壘。
硅基君:所以,工程也是一種壁壘?
黃嚴(yán):短期來看,工程不是壁壘,工程師只是負(fù)責(zé)實現(xiàn)。工具本身可以很快做出來。
長期來看,隨著時間積累,構(gòu)建起來的這套體系和沉淀會成為壁壘。只有當(dāng)系統(tǒng)跑起來,隨著服務(wù)的人群越來越廣、時間越來越長、場景越來越復(fù)雜,你沉淀下來的那套“如何支持復(fù)雜創(chuàng)作”的經(jīng)驗,才是真正的技術(shù)核心。
剪映之外:一個面向“表達”的 AI 原生創(chuàng)作社區(qū)
硅基君:Skira的用戶是誰?
黃嚴(yán):我們把用戶分為兩層,形成一個對流:
P層(Producers,制作人): 技術(shù)流大神、藝術(shù)家。他們懂鏡頭、懂審美、甚至懂一點技術(shù)。他們利用我們的底層工具(DSL、工作流)去創(chuàng)作“玩法”和“模版”。
C層(Creators,普通創(chuàng)作者): 大眾用戶。他們有表達欲,但不想學(xué)復(fù)雜工具。他們直接使用 P 層創(chuàng)造的“玩法”,上傳自己的照片或素材,快速生成高質(zhì)量內(nèi)容。
我們作為平臺,連接這兩端,讓大家的思想、創(chuàng)意流轉(zhuǎn)起來。
硅基君:怎么實現(xiàn)這種流轉(zhuǎn)?
黃嚴(yán):核心在于平臺如何分配利益,我們通過“收益流轉(zhuǎn)”來解決這個問題。
平臺會給制作人提供收益:越多人使用你開發(fā)的“玩法”,你就能拿到越多的收益。
1. 經(jīng)濟收益:包括平臺的基礎(chǔ)點數(shù)(Credit),以及未來的分傭分成。
2. 聲譽歸屬:這個玩法是屬于該制作人的,他的 Profile(個人主頁)會展示這些成就。
所以,無論是制作人還是C 端用戶,他們都在同一個社群里。制作人通過提供玩法獲得分成和聲譽,大眾通過使用玩法獲得流量和表達。平臺則作為一個放大器,讓熱點和創(chuàng)意在兩者之間高效流轉(zhuǎn)。
硅基君:目前,這個創(chuàng)作者群體夠大嗎?
黃嚴(yán):AI硬核創(chuàng)作者是小眾的,但“泛創(chuàng)作者”(發(fā)抖音、做號的人)體量已經(jīng)很大了。這些泛創(chuàng)作者沒有平臺忠誠度,哪里能幫他們“快、好、追熱點”,他們就去哪里。
硅基君:Skira的付費模式是什么?
黃嚴(yán):C端為算力付費,為高級玩法付費。P 端則為創(chuàng)作工具付費,但目前更多是不僅不付費,我們還會給他們分成,因為他們是生態(tài)的供給方。
硅基君:在Skira上,有哪些內(nèi)容會比較火?
黃嚴(yán):從我觀察來說,目前主要有三類內(nèi)容比較火:
一類是AI萌寵類:擬人化的寵物內(nèi)容;第二類是AI Me(AI自我): 平行世界的變裝、風(fēng)格化,展示“外人眼中的我”;第三輪是虛幻/IP共創(chuàng):基于某種IP或意識形態(tài)的延展(比如基于《甄嬛傳》或《三國》改出的幽默/奇怪劇情)。
硅基君:這些火了的“玩法”,如果大平臺復(fù)刻,我們的護城河在哪?
黃嚴(yán):第一,供給的多樣性,比如“瘋狂動物城”熱點,抖音上可能只有 2-3 種官方玩法,但我們平臺上有海量制作人提供各種不同的風(fēng)格。
第二,交互形式的演進。“玩法”不僅僅是模板,還在進化出新的交互形式。比如,用戶與 AI IP 的互動(@某個角色)、合拍、共創(chuàng)。這些帶有社交屬性的新玩法,大平臺不一定能迅速兼容或覆蓋。
第三,定位的不同。大平臺需要關(guān)注最廣大基數(shù)用戶的基本訴求(如剪輯工具的易用性)。而我們可以作為一個創(chuàng)作社區(qū),專注于創(chuàng)作范式和玩法的獨立演變,把我們作為“生產(chǎn)端”,大平臺作為“分發(fā)/消費端”。我們是連接的橋梁,不完全沖突。
硅基君:市面上很多AI公司也在做“一站式創(chuàng)作平臺”,Skira和他們的差異在哪里?
黃嚴(yán):“一站式”是行業(yè)趨勢,大家都在往自動化方向走。但我們的本質(zhì)區(qū)別在于對“創(chuàng)作”本身的理解深度。
我們不僅僅是做自動化,而是深入到創(chuàng)作者語境、元素拆解、表現(xiàn)力合成。如果只是單純的工程自動化,做出來的東西往往“牛頭不對馬嘴”,缺乏靈魂。
硅基君:作為一個AI產(chǎn)品,您最關(guān)心的指標(biāo)是什么?
黃嚴(yán):是創(chuàng)作量,或者叫Creation DAU(日均創(chuàng)作用戶數(shù))。這是一個基于工具演化出的創(chuàng)作社區(qū),最核心的是大家來這里產(chǎn)生創(chuàng)作行為。如果用戶來了只是看而不創(chuàng)作,那他們應(yīng)該去消費社區(qū)(如抖音/小紅書)。
硅基君:關(guān)于用戶心智(User Mindset),比如提到剪映大家就想到“剪輯”。你們希望占據(jù)什么樣戶心智?
黃嚴(yán):如果用一句話概括,Skira 是一個以“表達”為起點的 AI 原生創(chuàng)作社區(qū)。
當(dāng)用戶腦子里出現(xiàn)一個畫面、一個情緒、一個想法,卻不知道該怎么把它變成內(nèi)容時,他會想到 Skira。Skira核心的Slogan就是“Worlds in your mind”
文/林白
PS:如果你對AI大模型領(lǐng)域有獨特的看法,歡迎掃碼加入我們的大模型交流群。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.