![]()
![]()
告別“抽卡式”生成,如何讓AI學會講故事?
作者|Iris
編輯|栗子
短劇圈的 “抽象整活” 含量還在持續升高,近期風靡短劇圈的“性轉版”二創,將曾經觀眾熟悉的角色轉換性別,進而迸發出了不一樣的火花。
這也讓觀眾常看常新的宮斗劇教科書《甄嬛傳》,再次成為網友的新晉 “電子榨菜”。一部由網友用AI視頻技術二創的性轉版《甄嬛傳》短劇——《男嬛傳》刷爆網絡。
在《男嬛傳》中,全員角色集體性轉——皇帝四郎變身為坐擁后宮富婆四娘,寵冠六宮的華妃化身建模完美的霸道華君,甄嬛成為溫潤有才、心思通透的甄郎,隱忍柔弱的安陵容變成多才多藝的體育生,而皇后則一改之前的深沉謀斷……
果然,之前人類對《甄嬛傳》的開發還不足百分之十。
從質疑胖橘、理解胖橘到成為胖橘,原來被美男包圍的后宮爽劇竟如此令人上頭,《男嬛傳》也讓女性觀眾體會到了胖橘的快樂。性別反轉帶來的人設反差與敘事新鮮感,迅速成為短劇與二創熱門流量密碼。
![]()
圖源:《男嬛傳》
這類高熱度人設與角色范式的快速傳播,印證了當下視頻內容創作的核心需求:角色穩定、風格統一、敘事可復用。
而這正是AI視頻的“參考生”能力所解決的關鍵痛點——通過對人物、場景、服化道的精準參考與一致性生成,讓爆款人設、經典角色、熱門風格能夠快速落地、穩定復現,真正支撐起短劇、漫劇工業化生產的效率與品質。
國產AI視頻公司生數科技是“參考生”的首創者。
早在2024年7月,專注多模態大模型及應用自主研發的生數科技,就推出了中國首個視頻大模型Vidu,并首創“參考生”圖片/視頻概念。
近期,Vidu Q3正式上線了參考生視頻,并圍繞特效、音效、場景進行了全面升級。Vidu Q3依托自然語言即可實現粒子、流體、動力學、運鏡、轉場、光影六大特效的靈活調控,并構建起包含環境、動態、氛圍、擬音、情緒等五大音效在內的全景音效體系,讓聽覺表達具備完整敘事連貫性。同時針對短劇、漫劇、影視劇、廣告四大核心場景完成能力深化,可直接作為商用內容單元融入真實制作流程。
在全球首個參考生視頻榜單SuperClue上,生數科技的Vidu Q3同時登頂多圖參考總榜和單圖參考榜。此前,剛發布的Vidu Q3,就登頂了國際權威 AI 基準測試機構 Artificial Analysis榜單。
![]()
![]()
在一眾AI視頻玩家中,生數科技憑借先發優勢,牢牢站穩行業核心位置——“為劇而生”的Vidu Q3不再只提升單一內容生成能力,而是圍繞一個核心方向發力:讓AI內容,真正擁有支撐劇集呈現的表達能力。
“劇”的表達能力,在于關鍵劇情的起承轉合、音效特效的精確運用和視聽語言的自然調度。模型能力的溢出,讓AI內容能夠進入行業工作流,在降本增效的同時,為不同場景視頻內容帶來更多可能性變量,改變內容生產范式。
經測試,Vidu Q3在漫劇、短劇、廣告等場景中表現穩定出色,能夠在保持高質量內容輸入的同時降本增效。
作為“參考生”首創者,Vidu Q3通過業界領先的“參考生”能力和沉浸式的視聽效果,完成了從生成畫面到講好故事的突破,節奏、情緒、敘事一氣呵成,全面提升視頻片段的“劇張力”。
這也暗合了行業的精品化升級趨勢:在生產端內容極度供大于求的今天,行業亟需的不再是量的堆疊,而是制作更加優良、敘事更加清晰完整、劇情推進與鏡頭節奏更加自然的精品內容。
注:Vidu Q3的“參考生”功能演示
1.為劇而生,劇張力拉滿
前一秒還是寒窗苦讀的窮苦書生,下一秒就穿越為權傾朝野的高官權貴;從食物鏈最底端的贅婿,運籌帷幄完成令人意想不到的完美逆襲……
從贅婿爽文、玄幻修仙到穿越重生題材,市面上不同題材爆款短劇,都有一個共同的取勝之道,憑借緊湊的劇情節奏、意外反轉的戲劇性情節,緊緊抓住用戶的眼球。
換句話說,敘事能力是短劇質量的重要分水嶺,也對AI內容的表達能力提出了更高要求:如何讓AI內容適配戲劇張力極強的行業場景,從而使生成內容更富有張力,更接近成片級表達?
為了解決這一行業痛點,生數科技首創了“參考生”能力,并實現高效快速的升級迭代。
在2025年9月,生數科技就推出了Vidu Q1參考生圖功能,以支持7張參考圖輸入打破國內生成上限,并在一致性、還原度等關鍵指標上正面對標Nano Banana;2025年10月,生數科技完成Vidu Q2的迅速迭代,Vidu Q2的“參考生”,不僅持續保持高一致性,還在生成速度、價格方面進行全面優化。
近期,Vidu Q3跨越式升級“參考生”能力,并將參考范圍擴展至主圖、場景、服化道。
這一“萬物可參考”的能力,賦予普通創作者專業表達能力,讓“參考生”不再只是提升一致性的工具能力,而是升級為一種內容生產范式。
同時,Vidu Q3也將特效、音效拉升至專業級電影質感, 敘事能力與劇情表現力拉滿,完美適配不同場景的多元化表達需求,直接讓Vidu Q3逐步深入漫劇、短劇、影視劇行業的工作流,并承載更強敘事需求,內容的故事性和細節接近院線級效果,在講好故事的同時,讓創作真正實現一鏡到底。
萬物可參考,成片更能打
這項能力的可玩性極強,用戶既可以讓不同時空的人物同臺飆戲,生成搞笑片段,也可以選定特定的背景和服化道,生成以假亂真的電影質感大片。
例如,用戶可以選擇特定的女團服裝和舞臺場景參考,生成一段唱跳C位舞臺片段。
以圖1女生和圖2服裝為參考圖,輸入提示詞:“舞臺燈光亮起,圖1女生穿著圖2中的服裝,手中握著圖2里的吉他站在舞臺中央。她猛地抬頭,音樂瞬間爆發,身體前傾,開始激情演唱”,就可以得到極具感染力和觀賞性的女團舞臺現場,聚光燈下,女生的發絲清晰可見、隨風舞動,臉部表情和彈吉他的動作都自然流暢,讓普通用戶也能實現自己的女團唱跳夢想。
值得一提的是,“參考生”能力支持角色、場景與視覺元素的可復用建模,使得創作不再依賴一次性生成,而是可以像搭建素材庫一樣進行組合與復用。
再看一組典型的參考生案例。現在我們給Vidu Q3三張參考圖,分別是少女、駿馬和森林。它會迅速生成少女騎馬穿梭于森林中的素材。
![]()
![]()
![]()
再加入背景音樂及人物對白的提示詞,即可輸出電影級片段——少女騎著駿馬在林間小徑緩步前行,溫暖且空靈的音樂與森林的寧靜氛圍完美相融。
特效音效全面升級,完美適配應用場景
另外,為了豐富成片的敘事形式、強化視覺沖擊力,Vidu Q3升級了包括粒子、流體、動力學、運鏡、轉場、光影在內的六大特效能力。
通過粒子、光影、鏡頭、轉場及合成等多類型特效的組合應用,能夠更自然地表達情緒變化、劇情推進與鏡頭節奏,使生成內容更接近“成片級表達”。這讓生成內容有了更多細節質感和現場感,有助于烘托劇情變化和環境氛圍,最大化提升觀眾臨場感。
現在我們給Vidu Q3另一組提示詞,來測試其特效能力:“基座上的外星神器釋放出一個環狀能量波。波環迅速擴大,半透明青色,內部有電弧,在地板和墻壁上產生強烈輝光。沖擊波漣漪效果,高對比度泛光。”
這看起來是一個較為簡單的場景,但它同時挑戰了目前視頻生成模型最弱的4項能力:規則集幾何結構的時序穩定(圓環)、多層動態特效同步(環+電弧+輝光)、全局光照/反射的物理聯動,以及高對比發光體不穿模的能力。
一起看看實際完成的效果:
這里尤為值得注意的是,在這個視頻中,電弧是典型的高頻隨機細節,而環狀能量波則是低頻規則運動,電弧+能量環的動態耦合極難同步,但從Vidu Q3生成的視頻來看,它完美地約束了多層動態特效疊加的時序。
另外,音效作為敘事的另一種重要形式,也是Vidu Q3本次重點升級的能力。更加真實的音效,才能為觀眾帶來身臨其境的沉浸式體驗,全身心投入地享受戲劇沖突。Q3 強化了環境音、氛圍音與整體音效平衡能力,能夠支撐對話、情緒變化及場景轉換。這使生成視頻不僅有聲音輸出,更具備空間感與情緒承載能力。
注:Vidu Q3的環境音效演示
例如,風聲、雨聲、城市噪音、森林聲等環境音效可以用于營造空間感和沉浸感。流水潺潺、枝葉簌簌,間或傳來幾聲鳥叫,這樣的森林聲讓人仿佛置身于廣袤無際的原始森林,耳畔大自然的聲音和眼前的畫面融為一體,全身心的沉浸式體驗讓觀眾在不知不覺中進入創作者預設的敘事環境,更有助于敘事的連續性。
除此之外,這次的音效升級還包括衣物摩擦、開門、拿取物品等細節動作音;激光、能量波、未來設備聲音等科幻音效; 腳步聲、打斗聲、物體碰撞、爆炸等動作音效。這也為短劇、漫劇、影視劇及廣告等不同類型場景的內容制作提供更多選擇。
Q3的多維度能力升級,不止停留在抽象場景,而是圍繞短劇、漫劇、影視劇及廣告等核心場景進行優化,能夠滿足不同場景的具體內容需求。視頻模型能力不再是無法商業驗證的空中樓閣,它逐漸進入多元化內容生產場景的工作流,產出可用性與可交付性較強的專業級內容,用電影級的鏡頭語言,講好每一個動人故事。
值得一提的是,這一升級,是從底座模型,到產品全家桶的全面提升。
隨著Q3參考生這一能力升級,Vidu Q3 已完整覆蓋文生、圖生與參考生三大能力,打造了「Q3全家桶」。在模型能力持續完善的同時,Vidu Agent、Vidu Claw 等產品也已全面接入模型的核心能力,并進一步簡化了用戶的操作流程,零基礎創作者也能快速上手,不用鉆研復雜指令、不用搭建繁瑣工作流,就能實現專業級視頻生成,真正做到易用、好用、實用。
2.萬物可參,聲畫同出,釋放AI內容生產力
在持續提升模型和產品能力的同時,生數科技也在積極探索與漫劇、短劇、影視劇、廣告等行業的落地合作,釋放AI在現實場景的內容生產力。
在AI極大釋放內容產能的當下,這些行業也逐漸形成了鮮明共識:當AI工具日趨普及,生產效率的天花板已被普遍推高,單純比拼產出速度與數量的時代已經過去。當前行業的競爭已經從“誰能做”進入“誰能做得更好、更穩、更快”的新階段。
真正的效率革命,應體現在精品內容的規模化輸出能力上,這需要從底層技術邏輯上,解決傳統工作流中的不確定性問題——這正是生數科技持續與行業伙伴共同探索解決的痛點問題。
能夠進入工業生產流程,為內容生產降本增效的,是通過結構化生成取代黑盒式抽卡的高度不確定。這要求模型不僅能理解單次指令,更需建立對角色、場景、風格等核心元素的持續記憶與控制能力,使制作過程從隨機生成轉向可控創作。
生數科技的解法,是讓多模態AI技術真正落地產業側——通過與頭部企業深度共創合作,推出標桿性的行業解決方案,為工業化生產提供堅實技術底座。
例如,在AI漫劇行業,生數科技與萬興科技合作推出“萬興劇廠”,破解漫劇行業難題,實現跨集一致性突破,抽卡精確度翻倍、分鏡可用率達80%。這樣的深度共創,大幅降低制作成本與周期 ,實現AI驅動內容工業化生產 。
院線級生成能力,領跑短劇、漫劇、影視劇場景
這里我們用一組過肩鏡頭看下Vidu Q3在漫劇中的能力:
我們可以看到這是一個典型的“強構圖、強空間關系”鏡頭,視頻中的要素以“近景肩”、“中景人物”、“背景”三者組成,在鏡頭移動的過程中,三者的相對位置、透視、遮擋關系必須全程保持恒定,這對模型空間錨定能力要求極高。
另外,雖然這是一組過肩鏡頭,但視頻中的近景人物并不是全程保持“絕對姿態鎖定”——而是伴隨鏡頭平移,頭部姿態略微上下移動,更加貼近物理世界中的實際情況,值得一提的是,在給到Vidu Q3的提示詞中,并沒有包含這點,但它在生成視頻時卻考慮到了這個因素。
再來看下Vidu Q3在真人短劇生成上的表現。
首先,需要說明的是,在給到Vidu Q3的參考圖片以及提示詞中,都沒有體現庭院場景中的空間透視與元素構圖關系,但它很好地補齊了這一部分。
![]()
注:上面真人短劇的參考圖
其次,雪花這種半透明高頻粒子,是視頻生成模型中最容易閃爍、斷裂、穿幫的元素,而從生成的視頻來看,雪花與人物、地面的交互邏輯完成的非常自然。當雪花落到人物的頭發、肩膀時,既沒有無緣無故地消失,也沒有被人物的走動帶飛。
值得一提的是,在這組鏡頭中可以看到,無論是小姐的豁達,還是丫鬟在提醒時的小心翼翼,其自然情緒、語音和口型的同步,都表現出了極高的水準。
深耕電商、廣告行業場景,一鍵解鎖商業大片質感
在漫劇、真人短劇和影視劇場景之外,憑借在參考生賽道的持續沉淀,生數科技也突破了電商、廣告等對一致性要求極高的行業場景。他們調研發現客戶對商品視頻細節零容忍,因此將“參考生”功能進行了針對性的升級,可實現鏡頭切換下商品、主角細節一致,360°精準展示且效果逼真。
比如在這一組廣告視頻中,一名模特在使用唇釉產品,由于需要展示唇釉質感,我們給到Vidu Q3的提示詞中包含”唇部特寫鏡頭“,可以看到Vidu Q3完美平滑地完成了鏡頭的切換,而當模特念出“This touch is more than just color”的廣告詞時,鏡頭以唇部為中心,同步拉回到全景,在整個過程中,唇部的細節沒有發生任何變化,這足以看出Vidu Q3在廣告場景中的高度一致性。
針對漫劇、短劇、影視劇、廣告等行業用戶,Vidu MaaS提供一站式商用級 AI 視頻服務,支持零門檻快速接入,成本僅為行業平均水平的三分之一。在切鏡銜接、運鏡流暢度方面高度自然,內容生成速度優勢顯著。平臺可根據客戶需求提供提示詞優化、定制化工作流適配與專項技術培訓,即便在業務高峰期也能維持穩定流暢的使用體驗。從創意構思、視頻制作到實際場景落地,用戶均可依托統一的能力底座,實現全流程更完整、更高效的內容生產體驗。
從膠片感光成像到數字智能渲染,從光影實景拍攝到AI 虛擬造像,隨著視頻技術的不斷發展,視頻制作門檻也不斷降低,每一次技術的突破都會帶來內容生產的爆發與生產模式的重構。AI視頻在進入漫劇、短劇、影視劇、廣告行業的工作流,實現降本增效的同時,也在探索一種面向未來的、可規模化的新型內容生產模式。生數科技等AI視頻廠商所提供的,是一套正在成型的新影視工業的基礎設施,它也讓藝術創作更加回歸本質:當技術能夠穩定地理解執行,將創作者從繁瑣的執行中解放,創作的核心價值將重新聚焦于創意本身。
(封面圖來源:生數科技)
關注公眾號「甲子光年」
后臺回復“Vidu”
即可獲得專屬邀請碼
體驗Vidu Q3
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.