早在 2 年多之前,第一次感受到 AI 生圖的震撼時,我用 Midjourney 做了一個篇幅很短的漫畫()。在總結做漫畫的體會時,我是這么寫的:
連貫性很難保證。尤其人臉和動作,想要在連貫畫面里保持一致,非常難... ... 在可控性方面,只能用畫圖再墊圖,再畫圖墊圖的笨辦法確保想要的內容。
這個一直是 AI 生圖的痛點。之前用墊圖也就是參考圖片的方式,生成的人物差異非常大。比如主角的樣子:
![]()
![]()
![]()
甚至這已經是我墊圖十幾次才得到的結果了。只能勉強讓人感知到是同一個人。
而 2 年多過去了,這個世界進化到什么階段了呢?
我近期用的比較多的是 Vidu。第一次注意到是在 4 月份,有新聞稱其在 VBench 模型評測上拿了第一。
![]()
真正試用了一下,的確很是喜歡。作為國產大模型,可以輸入中文,比起 Midjourney 來也方便不少。
前幾天拿到了 Vidu 的朋友送的 Q1 參考生圖的內測資格,這次玩得有點停不下來。跟各位分享一下。這個版本應該在你看到文章的 9.9 就正式發布了。
先感受一下,我用剛剛的這個角色側臉,讓 Vidu Q1 生成一個穿著白色條紋 T 恤向右看的圖:
![]()
忽然穿越到 2 年前的墊圖到瘋的那個情緒里,現在感動得要哭。
整個看起來就真的很準確。
接下來,就是參考生圖更厲害的地方,它可以參考不止一張圖。
比如,可以直接讓男主站在他的船上。
![]()
![]()
船的還原度非常好。對比我之前畫的內容就發現,我之前是沒辦法做這樣拼接的生成的,除非手動操作。
也可以繪制男主跟鯊魚搏斗的場景:
![]()
![]()
我還發現,Vidu 為了讓用戶更好地完成像這樣延續主體的創作,貼心提供了主體庫的功能,像畫漫畫的話,男主就可以存到庫里,隨時調用。
![]()
嘗試了一些有意思的多圖參考。比如讓這兩個最知名的老鼠抱在一塊。
![]()
![]()
參考的圖片數量可以達到 7 張。比如可以讓喬布斯跟他的所有最重要的產品合影。
![]()
![]()
不過比例略有點不太對。看來模型還需要更聰明一些。
既然參考生圖的效果這么好,那就可以用現成的場景,讓我們直接穿越進去。
我今年夏天跟妻子去北極走了一個祝福儀式。本來很像去光之教堂的,可惜多年前就關閉了。
用參考生圖就可以解饞體驗一下。
![]()
![]()
還可以讓我出現在喜歡的電影場景里。比如《瘋狂的麥克斯 4》里:
![]()
![]()
或者去《權力的游戲》里讓小龍女和馬王跟我合張影。看得我還是有點發怵。
![]()
![]()
再比如,也可以去《血源詛咒》里受苦。
![]()
![]()
或者去跟馬斯克錄播客,看他噴云吐霧。
![]()
![]()
那么,Vidu Q1 這樣的參考生圖功能除了好玩,到底有沒有實際用途?首先玩也是實際用途。其次,當然還有別的用途。
由于參考的效果很好,電商場景就可以用來做帶貨展示圖。
比如,讓米老鼠坐在這張椅子上。溫馨提示,黑白的米老鼠才是沒有版權的哦。
![]()
![]()
自然也可以讓人物坐在這張椅子上:
![]()
![]()
坐椅子看起來并不難,喝飲料也是可以的。注意看蜜雪冰城的 logo 幾乎沒怎么變樣,這點對于品牌商家來說太重要了。
![]()
![]()
像這是我之前合伙創業做的茶品牌三五杯,可以讓圖 1 里的女生捧著它展示。展示角度發生了變化,盒子居然沒有什么變形,完美復現。除了文字還是需要簡單 p 一下才能用。
![]()
![]()
也可以讓同一個女生展示我的新書《內容即品牌》。
![]()
![]()
換一個隨機生成的棒球女生,效果也很不錯。
![]()
![]()
某些產品未必需要人,可能需要的是場景化的展示。
比如一個竹凳,就可以放到有竹子的潺潺小溪中展示。
![]()
![]()
當然,也可以非常混搭,既有人物,又有竹凳。背景再放飛一些,放到外太空,也是可以的。
![]()
![]()
電商場景里還有一個至關重要的痛點,就是試衣。說 AI 試衣已經說了很多年了。我也是第一次感知到,AI 試衣真的能幫到我。
比如這兩個就是非常糟心辣眼睛的例子。
一個是中國風西裝。
![]()
![]()
一個是英倫紳士風。
![]()
![]()
嘗試了一下,衣服的適配度跟顏值還是息息相關的。顏值高的,穿什么都好看一些。顏值像我這樣的,需要謹慎篩選、仔細斟酌。
像同一件衣服,用剛剛的女生形象,生成的效果就很棒。
![]()
![]()
既然可以試一件衣服,那是不是也能試好幾件衣服?
當然也是可以的。選了一件非常暴力美學的襯衫、半拿鐵的帽子以及相當寬松的褲子。
![]()
![]()
我還挺喜歡這套的,于是也讓其他幾位朋友試了試。
![]()
![]()
以上就是我試用的階段性體驗。
電商和廣告是我相對熟悉的,第一時間能想到應用場景的領域。
而生圖乃至生視頻的一致性、對參考圖的精準控制問題解決后,將會影響幾乎所有跟圖像有關的行業。
比如,漫畫轉制動畫方面,原本的分鏡內容就像是關鍵幀,可以快速生成很多角度和動作的補幀,能自然地把劇情連貫起來。就不需要擔心動畫畫師偷懶,把人物給畫毀掉(比如某小學生偵探動畫)。
再比如,影視行業里的概念設計,基于已有的人物和場景,就能不斷生成大量的風格統一的概念圖,作為參考。并且由 AI 產生的各種可能性,也是一種低成本的頭腦風暴,大大提升效率。
再比如,品牌的 VI 系統,也可以由基礎的元素,快速實現平面設計,包括廣告圖、海報、帖子配圖、包裝圖等等。
能聯想到的還有很多。各位工作中有接觸設計工作的朋友,尤其是上次接觸 AI 生圖還是一兩年前的,真心推薦體驗一下。
在眾多有參考生圖的 AI 工具里,我個人還是傾向各位嘗試下 Vidu Q1。
有這么幾點原因:
1 參考圖片數量足夠多,達到 7 張。很多元素都可以參加進去。而多數競品還是只支持 1-3 張參考圖片。
2 主體一致性夠強,不會出現太多細節走樣。就像前面說的,在廣告營銷領域,是能夠成為生產力的。拿來即用,很重要。
3 可控性好。輸入的提示詞對圖片生成的效果會產生非常具體的影響。而且就像前面說的,中文輸入的門檻更低。圖片是提示詞的必選元素,因此圖片中內容的關系是指定的、可控的。
最后,用這樣一張圖作為結尾吧。我要去冥想一會兒了。
![]()
![]()
點擊原文也可以直接跳轉到 Vidu 官網申請使用。
*本文中沒提到名字的人物形象,均為 AI 生成
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.