埃隆·馬斯克親自轉(zhuǎn)發(fā)了一條展示Grok「刺繡風(fēng)格」圖像生成能力的推文,這一動(dòng)作被業(yè)內(nèi)視為xAI向Midjourney、DALL-E等頭部玩家發(fā)起的直接挑戰(zhàn)。當(dāng)AI圖像生成進(jìn)入「一句話出圖」的極簡時(shí)代,曾經(jīng)炙手可熱的提示詞工程師崗位,或許正在經(jīng)歷價(jià)值崩塌。
「刺繡風(fēng)」背后的技術(shù)暗戰(zhàn)
![]()
馬斯克轉(zhuǎn)發(fā)的這條推文由用戶@doganural_發(fā)布,展示了Grok Imagine功能生成的刺繡風(fēng)格圖像。推文中僅標(biāo)注「Embroidery style 」,配合一張花朵圖案——沒有復(fù)雜的參數(shù)設(shè)置,沒有冗長的風(fēng)格描述詞,只有一個(gè)簡單的風(fēng)格標(biāo)簽。
這種極簡交互模式與Midjourney形成鮮明對比。后者用戶至今仍需掌握「--ar 16:9」「--s 750」「--style raw」等數(shù)十種參數(shù)指令,并在Discord頻道中反復(fù)調(diào)試提示詞。xAI的產(chǎn)品邏輯似乎正在押注一個(gè)判斷:普通用戶不想學(xué)習(xí)一門「提示詞編程語言」,他們只想說話。
Grok Imagine目前集成于X平臺(tái)(原Twitter),訂閱X Premium+(月費(fèi)16美元)即可使用。這一捆綁策略讓xAI獲得了其他競品難以復(fù)制的分發(fā)優(yōu)勢——4億月活用戶無需跳轉(zhuǎn)應(yīng)用,刷推時(shí)即可直接調(diào)用。相比之下,Midjourney的封閉社區(qū)模式、DALL-E的ChatGPT入口限制,都在用戶觸達(dá)效率上落了下風(fēng)。
「風(fēng)格即按鈕」瓦解提示詞經(jīng)濟(jì)
刺繡風(fēng)格的展示并非孤立案例。近半年來,Grok Imagine陸續(xù)上線了「動(dòng)漫」「賽博朋克」「油畫」「像素藝術(shù)」等數(shù)十種預(yù)設(shè)風(fēng)格,每種風(fēng)格均可通過自然語言直接調(diào)用。這種「風(fēng)格即按鈕」的產(chǎn)品設(shè)計(jì),正在系統(tǒng)性地消解提示詞工程的專業(yè)壁壘。
2023年,提示詞工程師(Prompt Engineer)曾被《時(shí)代》雜志列為「25個(gè)最佳新興職業(yè)」之一,年薪報(bào)價(jià)高達(dá)33.5萬美元。其核心技能在于:將抽象創(chuàng)意轉(zhuǎn)化為模型可理解的結(jié)構(gòu)化指令,通過精確的詞匯選擇、權(quán)重分配和參數(shù)調(diào)優(yōu),控制輸出質(zhì)量。然而當(dāng)AI模型本身具備更強(qiáng)的語義理解能力,當(dāng)「刺繡風(fēng)格」可以被直接識(shí)別而非拆解為「thread texture + cross-stitch pattern + fabric background」的組合詞,這套技能體系的護(hù)城河正在快速干涸。
更深層的變化發(fā)生在模型訓(xùn)練端。據(jù)xAI技術(shù)博客披露,Grok-2模型采用了「多模態(tài)原生」架構(gòu),圖像生成并非外掛模塊,而是與文本理解共享同一表征空間。這意味著風(fēng)格遷移不再依賴后期插件或LoRA微調(diào),而是內(nèi)化為模型的基礎(chǔ)能力。一位接近xAI的開發(fā)者向媒體透露:「他們內(nèi)部測試時(shí),甚至嘗試過用emoji組合來控制風(fēng)格,模型依然能準(zhǔn)確響應(yīng)。」
馬斯克的「反提示詞」產(chǎn)品哲學(xué)
馬斯克對Grok的產(chǎn)品干預(yù)具有鮮明的個(gè)人印記。2023年11月,他曾公開批評OpenAI的GPT-4「過于政治正確」,并承諾Grok將「最大程度追求真相」。這一理念延伸至圖像生成領(lǐng)域,表現(xiàn)為對「用戶表達(dá)自由度」的極端強(qiáng)調(diào)——包括放寬對公眾人物圖像生成的限制,以及簡化交互流程。
「Try Grok Imagine for different art styles」這條轉(zhuǎn)發(fā)語本身即是產(chǎn)品宣言:「try」暗示低門檻探索,「different」強(qiáng)調(diào)多樣性,整句話沒有一個(gè)技術(shù)術(shù)語。這與Midjourney創(chuàng)始人David Holz的理念形成有趣對照。Holz長期將提示詞視為「一種新型文學(xué)形式」,甚至舉辦過提示詞寫作比賽;而馬斯克團(tuán)隊(duì)顯然認(rèn)為,技術(shù)應(yīng)當(dāng)隱形,風(fēng)格應(yīng)當(dāng)觸手可及。
這種分歧背后是對用戶群體的不同判斷。Midjourney的核心用戶是設(shè)計(jì)師、藝術(shù)家和AI發(fā)燒友,他們愿意為精細(xì)控制付出學(xué)習(xí)成本;Grok的目標(biāo)用戶則是X平臺(tái)的泛娛樂人群,他們需要的是即時(shí)滿足和社交貨幣。刺繡風(fēng)格的花朵圖像之所以被選中展示,正因其兼具視覺辨識(shí)度與傳播友好性——適合作為推文配圖,適合被轉(zhuǎn)發(fā),適合病毒式擴(kuò)散。
圖像生成進(jìn)入「后提示詞」時(shí)代
行業(yè)數(shù)據(jù)印證了這場遷移的規(guī)模。據(jù)SimilarWeb統(tǒng)計(jì),2024年第二季度,Midjourney網(wǎng)站流量同比下降23%,而X平臺(tái)的圖像生成調(diào)用量同期增長340%。并非Midjourney的技術(shù)落后,而是交互范式的代際切換正在發(fā)生。當(dāng)基礎(chǔ)模型能力趨于同質(zhì)化,產(chǎn)品形態(tài)的差異將決定用戶去留。
對創(chuàng)作者經(jīng)濟(jì)的影響更為深遠(yuǎn)。提示詞交易市場的泡沫正在破裂——PromptBase、Lexica等平臺(tái)的交易量較峰值下跌超過60%。與此同時(shí),「風(fēng)格策展」正在成為新賽道:篩選、組合、命名風(fēng)格的能力,取代編寫提示詞的能力,成為新的稀缺資源。Grok的「刺繡風(fēng)」本質(zhì)上是一種策展行為,將分散的美學(xué)特征打包為可消費(fèi)的產(chǎn)品單元。
然而極簡交互也意味著控制權(quán)的讓渡。專業(yè)用戶開始抱怨Grok的「黑箱」特性:無法精確控制構(gòu)圖、無法鎖定種子值、無法分層編輯。這種取舍映射了xAI的戰(zhàn)略優(yōu)先級(jí)——覆蓋90%的輕度用戶,而非討好10%的深度用戶。當(dāng)馬斯克在轉(zhuǎn)發(fā)中寫下「Try」而非「Master」,產(chǎn)品定位已不言自明。
圖像生成技術(shù)的民主化進(jìn)程,正在以犧牲可控性為代價(jià)加速推進(jìn)。提示詞工程不會(huì)完全消失,但將從大眾技能退化為小眾專長,如同HTML知識(shí)在可視化建站工具普及后的命運(yùn)。而Grok的「刺繡風(fēng)」們,不過是這場退潮中最醒目的路標(biāo)——它們標(biāo)記著一個(gè)時(shí)代的終結(jié),以及另一個(gè)時(shí)代的開始:在這個(gè)新時(shí)代里,說話的方式比說話的內(nèi)容更重要,而產(chǎn)品設(shè)計(jì)的智慧,正在取代工程技術(shù)的壁壘,成為競爭的核心戰(zhàn)場。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.