網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

豆包模型上新，字節(jié)繼續(xù)卷性價(jià)比

2025-06-14 12:40:58　來(lái)源: 直面派

北京舉報(bào)

分享至

這兩天，字節(jié)又出手了，一口氣放出一堆大貨。

豆包大模型1.6、豆包·視頻生成模型 Seedance 1.0 pro、豆包·語(yǔ)音播客模型，豆包·實(shí)時(shí)語(yǔ)音模型...全家桶式上新，看著熱鬧。

如果你只是掃一眼上述產(chǎn)品，可能覺(jué)得就是大廠又來(lái)了一波例行升級(jí)，沒(méi)什么特別的。現(xiàn)在AI圈更新節(jié)奏這么快，新模型、版本號(hào)、榜單名次一大堆，確實(shí)不太容易提起興趣。

但稍微往下看一看，會(huì)發(fā)現(xiàn)這次字節(jié)的做法不太一樣。它并沒(méi)有靠一兩個(gè)參數(shù)或者演示視頻來(lái)?yè)岋L(fēng)頭，而是開始把模型能力做成一整套“能直接跑起來(lái)”的應(yīng)用，從文字、圖像、視頻，到語(yǔ)音、操作系統(tǒng)，全都串在了一起，而且不少是直接掛進(jìn)了豆包APP、火山方舟這些已經(jīng)在用的產(chǎn)品里。

我們就從兩個(gè)核心產(chǎn)品說(shuō)起。

Seedance 1.0 Pro 實(shí)測(cè)表現(xiàn)：

穩(wěn)定、成型，但仍有邊界

如果只看熱度，這幾個(gè)產(chǎn)品中Seedance應(yīng)該是被關(guān)注度最高的了。

它剛上線就登上了第三方榜單Artificial Analysis的文生視頻和圖生視頻兩項(xiàng)第一，超過(guò)了可靈2.0和谷歌的Veo 3。榜單怎么評(píng)的我們可以再討論，但至少說(shuō)明在業(yè)內(nèi)標(biāo)準(zhǔn)下，Seedance的生成效果已經(jīng)達(dá)到了主流模型中的較好水平。

我們來(lái)看下這個(gè)模型的基本情況。

Seedance 1.0 Pro支持文字和圖片輸入，能生成10秒左右的1080p視頻，支持2-3個(gè)鏡頭切換。它的主要特點(diǎn)，是強(qiáng)調(diào)鏡頭之間的連貫性和內(nèi)容的穩(wěn)定性。

這點(diǎn)在之前的視頻生成模型里，確實(shí)是個(gè)短板。很多模型雖然能出圖像，但內(nèi)容連不起來(lái)，主角突然消失或者背景抖動(dòng)都很常見。

Seedance解決這個(gè)問(wèn)題的方式，是把每個(gè)鏡頭的內(nèi)容用文字描述得更細(xì)，官方叫「精準(zhǔn)描述模型」。它先生成一段描述，然后再根據(jù)這個(gè)描述訓(xùn)練視頻。這種方式能讓模型更好地知道該生成什么內(nèi)容，也更容易控制住動(dòng)作和細(xì)節(jié)。

Seedance能生成的視頻風(fēng)格也比較多樣，可以支持航拍、第一人稱、動(dòng)畫、水墨等多種風(fēng)格。這點(diǎn)其實(shí)各家模型都有類似能力，只是Seedance在這方面的完成度和一致性更高一些。

生成速度方面，5秒的1080p視頻只需大約40秒，這個(gè)速度屬于目前行業(yè)中等偏上的水平。

來(lái)看一下我們實(shí)測(cè)的成果（每個(gè)維度我們都測(cè)試了多個(gè)case，篇幅限制只展示其中的一個(gè)）：

鏡頭語(yǔ)言

prompt：夜晚的加油站，一個(gè)男人戴上頭盔騎上摩托車，發(fā)動(dòng)，駛出油站，鏡頭跟拍他的背影穿過(guò)街道，途中掠過(guò)霓虹招牌和迎面駛來(lái)的車輛。

這段主要是測(cè)試Seedance的快速運(yùn)動(dòng)+連續(xù)鏡頭能力，看它有沒(méi)有剪輯感，能不能Hold住快節(jié)奏。

結(jié)果還是可以的。騎上摩托車時(shí)是一個(gè)典型的近景靜態(tài)鏡頭，畫面很干凈。發(fā)動(dòng)的瞬間光影有了變化，鏡頭在車啟動(dòng)后跟著往前推進(jìn)。

Seedance 在鏡頭語(yǔ)言這塊，能理解基本拍法；節(jié)奏上有控制，不會(huì)一頓快切、也不會(huì)死板地不動(dòng)；鏡頭轉(zhuǎn)場(chǎng)不是很生硬堆疊，但是它對(duì)復(fù)雜軌跡、非線性鏡頭的理解還不夠穩(wěn)定。

物理運(yùn)動(dòng)

prompt：雨中，一個(gè)穿風(fēng)衣的男子奔跑穿過(guò)狹窄的街道，踩過(guò)水坑，雨水四濺，鏡頭從后側(cè)跟拍。

看動(dòng)作+環(huán)境干擾下的運(yùn)動(dòng)穩(wěn)定性。結(jié)果比較穩(wěn)。奔跑時(shí)人物姿勢(shì)正常，地面確實(shí)有積水反光，踩到水坑的時(shí)候，地面有明顯的水花濺起，鏡頭也給了點(diǎn)前搖的動(dòng)態(tài)。雨水本身是做出來(lái)了，但稍微有些貼圖感，也就是說(shuō)是視覺(jué)效果，但沒(méi)有明顯的深度和飄動(dòng)軌跡。

但整個(gè)奔跑過(guò)程中人物沒(méi)崩，衣服也不是貼在身上的那種塑料感，而是有輕微飄動(dòng)，這就已經(jīng)說(shuō)明Seedance在動(dòng)態(tài)建模上的一致性控制能力比較強(qiáng)了。

人物表演

prompt：拳擊手被擊倒，努力掙扎著站起來(lái)，臉上滿是汗水和倔強(qiáng)。

Seedance 1.0 Pro在情緒這一塊沒(méi)有做到極致，但比起過(guò)去同類模型，它已經(jīng)邁出了一大步。表情控制能力還在進(jìn)化中，細(xì)節(jié)依然有局限，比如嘴角和眼角的肌肉反應(yīng)不夠細(xì)膩，面部變化也不總是連續(xù)的。但它確實(shí)可以表現(xiàn)出“笑、憂慮、驚恐、緊張、堅(jiān)定”這些基礎(chǔ)情緒，而且不是固定臉譜，而是能隨著上下文變化表現(xiàn)方式。

這次模型發(fā)布之后，Seedance已經(jīng)接入了即夢(mèng)（視頻3.0 Pro）和豆包APP（底部的「照片動(dòng)起來(lái)」），用戶可以直接使用，也可以通過(guò)火山引擎API接入自己的業(yè)務(wù)。在價(jià)格上也比較低，每千tokens只需1分5，相當(dāng)于每條5秒視頻大概3.67元。在大批量視頻需求下，這個(gè)成本屬于比較可控的范圍。

不過(guò)，Seedance目前仍然有一些限制。比如生成時(shí)長(zhǎng)基本控制在10秒以內(nèi)，鏡頭切換雖然支持了2-3個(gè)，但還沒(méi)看到更復(fù)雜腳本的能力。生成也不是很穩(wěn)定，想要得到滿意的視頻，無(wú)法擺脫多roll的命運(yùn)。。

豆包1.6:

在多模態(tài)和操作上邁了一步

再來(lái)看豆包1.6，這是這次發(fā)布中更偏向通用模型的更新。它主要更新了三個(gè)版本：主力版（doubao-seed-1.6）、深度思考版（doubao-seed-1.6-thinking）和極速版（doubao-seed-1.6-flash）。豆包1.6整體能力進(jìn)入第一梯隊(duì)，在多項(xiàng)權(quán)威評(píng)測(cè)中得分提升明顯，尤其是數(shù)學(xué)和推理相關(guān)任務(wù)。

具體來(lái)看，這一代模型加強(qiáng)了邊想邊搜和DeepResearch能力。現(xiàn)在你可以從火山引擎的AI體驗(yàn)中心試用。

用戶可以直接請(qǐng)求它完成某些復(fù)雜任務(wù)，模型可以拆分任務(wù)、搜索資料、提煉內(nèi)容，最后生成報(bào)告。這類功能我們?cè)贕PT-4和Claude里也能看到，不過(guò)豆包的方式更適合國(guó)內(nèi)用戶，點(diǎn)開即用，不需要熟悉復(fù)雜操作流程。

豆包1.6最強(qiáng)的還是多模態(tài)的實(shí)用能力。不是說(shuō)能識(shí)圖、能看視頻就算多模態(tài)，而是把這些能力落到具體場(chǎng)景里。

這類任務(wù)不只依賴語(yǔ)言生成，而是能把圖像、動(dòng)作、提示詞之間的信息整合起來(lái)，而豆包1.6確實(shí)在這個(gè)方向上做了一些實(shí)用嘗試。

另一個(gè)值得一提的點(diǎn)是操作能力。AgentKit現(xiàn)在支持圖形界面操作，可以打開網(wǎng)頁(yè)、填寫表單、瀏覽圖片、下單預(yù)定。

比如輸入“打開豆瓣電影，找今天在北京正在上映的電影，選擇一部評(píng)分最高的，打開購(gòu)票頁(yè)面并截圖停留。”它會(huì)依次打開網(wǎng)站、查找電影、篩選條件，最后再確認(rèn)下單。這種功能的完成度已經(jīng)不低，適合做一些流程重復(fù)、邏輯明確的輕任務(wù)。

價(jià)格方面，豆包1.6也重新定了策略。現(xiàn)在所有任務(wù)都采用統(tǒng)一定價(jià)模型，不管是文字生成還是圖像分析，價(jià)格按輸入長(zhǎng)度劃分，最常見的0-32K區(qū)間是輸入0.8元/百萬(wàn)tokens，輸出8元/百萬(wàn)tokens。和豆包1.5比起來(lái)，綜合成本降低了大約63%。簡(jiǎn)單說(shuō)，價(jià)格更接近豆包1.0，但能力是它的多倍。

OpenAI 卷能力，字節(jié)在卷什么？

這次更新背后，其實(shí)是字節(jié)模型策略的一種延續(xù)。它并沒(méi)有在單一模型參數(shù)上卷得特別兇，而是強(qiáng)調(diào)組合能力和產(chǎn)品落地。

在To C端，豆包已經(jīng)在做APP化，用“聊天+工具”的形態(tài)把模型包裝起來(lái)；而在To B端，它依托火山引擎提供一整套AI服務(wù)，從基礎(chǔ)模型API到完整解決方案。字節(jié)大模型的更新節(jié)奏不是盲目提速，而是配合業(yè)務(wù)工具一起同步走，比如最近更新的PromptPilot（提示詞調(diào)優(yōu)工具）、AgentKit（智能體開發(fā)平臺(tái)）、多模態(tài)工作臺(tái)、甚至是視頻生成場(chǎng)景的Seedance，都和模型不是割裂的，而是集成式設(shè)計(jì)。

這和OpenAI、百度的路線相比，是有差異的。OpenAI繼續(xù)把重點(diǎn)放在通用性極強(qiáng)的超級(jí)模型上，比如GPT-4o就把語(yǔ)音、圖像、文字合成成一個(gè)統(tǒng)一的輸入輸出邏輯，目標(biāo)是成為人類界面；百度雖然也做了很多產(chǎn)業(yè)鏈整合，但仍保留較多平臺(tái)化概念，部分場(chǎng)景需要開發(fā)者二次拼裝。

字節(jié)已經(jīng)不是在卷模不模型的事情了，而是在卷能不能用起來(lái)的事情。

在這點(diǎn)上，它有點(diǎn)類似微軟Copilot那一套邏輯，但又有自己的中國(guó)式打法。微軟的優(yōu)勢(shì)是Office生態(tài)綁定企業(yè)，而字節(jié)的打法是基于內(nèi)容+工具的雙生態(tài)：一邊用內(nèi)容業(yè)務(wù)抖音等檢驗(yàn)?zāi)Ｐ蜕赡芰Γ硪贿呌没鹕揭孑敵龇?wù)，把能力變成服務(wù)，最終變成一個(gè)系統(tǒng)級(jí)產(chǎn)品。

而且，從內(nèi)部資源分配來(lái)看，字節(jié)的策略也很清晰：模型團(tuán)隊(duì)不單打獨(dú)斗，很多模塊直接協(xié)同產(chǎn)品線出需求，比如語(yǔ)音播客、視頻生成、搜索推薦，這樣模型迭代就不是閉門造車，而是從一開始就和實(shí)際場(chǎng)景掛鉤。

大廠AI模型開始加速奔跑

聊到這里，其實(shí)繞不開的一個(gè)問(wèn)題就是：現(xiàn)在這些大廠在AI這件事上，到底卷到什么程度了？

從阿里、騰訊到字節(jié)，確實(shí)都在提速，而且每家的方向有點(diǎn)不一樣。

阿里的重心放在模型規(guī)模和通用能力，比如Qwen家族主打大上下文和工具鏈，目標(biāo)是拉齊OpenAI那一套能力，尤其強(qiáng)調(diào)開源這一點(diǎn)

騰訊更多強(qiáng)調(diào)業(yè)務(wù)融合，Agent部署做得早，重點(diǎn)是To B場(chǎng)景，比如政務(wù)、企業(yè)服務(wù)等，推出了元器這種產(chǎn)品

而字節(jié)這邊，很明顯是以內(nèi)容和多模態(tài)作為核心陣地，從豆包模型、Seedance視頻、再到語(yǔ)音播客，都是圍繞內(nèi)容生成和產(chǎn)品應(yīng)用來(lái)做的。

它們走的路線不太一樣，但節(jié)奏都快。你會(huì)發(fā)現(xiàn)，這一年里，模型迭代不再是每半年一次，而是每?jī)扇齻€(gè)月就來(lái)一波。有的是版本更新，有的是新產(chǎn)品掛鉤。但共同點(diǎn)就是，大家都已經(jīng)不是在比有沒(méi)有，而是在比用得起、用得上、用得快。

而且有個(gè)趨勢(shì)也挺明確的：AI已經(jīng)不是實(shí)驗(yàn)室里跑分的東西了。你發(fā)布一個(gè)模型，別人不再只關(guān)心你的推理速度和BLEU分，而是問(wèn)一句——能不能掛到網(wǎng)頁(yè)上？能不能在手機(jī)里跑？?jī)r(jià)格怎么樣？是不是能直接接到現(xiàn)有系統(tǒng)里？

從這個(gè)角度看，字節(jié)這波模型更新雖然沒(méi)有太多行業(yè)第一的技術(shù)噱頭，但確實(shí)做得比較扎實(shí)。不管是Seedance的視頻質(zhì)量，還是豆包1.6的多模態(tài)能力，起碼給到了一些可以拿去用的東西。對(duì)于開發(fā)者也好，中小企業(yè)也好，現(xiàn)在更在意的是這些東西能不能用、成本怎么樣、部署復(fù)雜不復(fù)雜，而不是你參數(shù)多大。

所以到頭來(lái)，大廠在AI這場(chǎng)競(jìng)爭(zhēng)里，其實(shí)比的不是誰(shuí)先造出最強(qiáng)的大模型，而是誰(shuí)先把模型做成產(chǎn)品，誰(shuí)先讓用戶真正用起來(lái)，誰(shuí)能在不增加使用門檻的前提下，撐住規(guī)模和成本。

現(xiàn)在這個(gè)階段，大家都還在跑，但已經(jīng)能看出幾個(gè)不同方向的勢(shì)能了。接下來(lái)要看的，也許不是誰(shuí)先出GPT-5級(jí)別的模型，而是誰(shuí)能真正把AI塞進(jìn)每一個(gè)具體應(yīng)用場(chǎng)景里，讓它像水電網(wǎng)那樣成為基礎(chǔ)設(shè)施。誰(shuí)做得越快、越穩(wěn)，就越可能在這場(chǎng)AI基礎(chǔ)設(shè)施競(jìng)賽里，走得更遠(yuǎn)。

歡迎在評(píng)論區(qū)留言~
如需開白請(qǐng)加小編微信：dongfangmark

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.