對話火山引擎總裁譚待：豆包是字節(jié)最大的Agent，火山擁有最真實(shí)的Agent落地經(jīng)驗

2025-12-18 22:35:26　來源: 四木相對論

北京舉報

分享至

字節(jié)公布了自己在AI領(lǐng)域的最新進(jìn)展。

在今天舉辦的火山引擎FORCE原動力大會上，最新旗艦?zāi)Ｐ投拱竽Ｐ?.8，和音視頻創(chuàng)作模型Seedance 1.5 pro如期亮相。

這一次，字節(jié)沒有選擇單純堆砌參數(shù)或炫耀跑分，而是把技能點(diǎn)加在了實(shí)用性上。

火山引擎總裁譚待介紹，新推出的豆包大模型1.8，強(qiáng)化工具調(diào)用、屏幕操控和視覺理解，致力于成為更懂真實(shí)場景的 Agent 基座。而Seedance 1.5 pro的亮點(diǎn)在于音畫同步的突破和影視級的敘事張力。

*豆包大模型1.8部分測評結(jié)果

*Seedance 1.5 pro實(shí)測效果

在模型實(shí)用之外，字節(jié)還想幫企業(yè)更實(shí)用地解決AI落地問題。

同樣在今天，火山引擎重點(diǎn)發(fā)布了一系列幫助企業(yè)用好 Agent 的支持服務(wù)。

在Agent開發(fā)層面，火山升級了企業(yè)級AI Agent平臺 AgentKit。

這一平臺，覆蓋了Agent從開發(fā)、部署到管控的全生命周期，目標(biāo)是解決企業(yè)在Agent落地中面臨的身份權(quán)限管理、模型確定性及系統(tǒng)集成等核心挑戰(zhàn)。

在Agent運(yùn)營層面，火山還推出了HiAgent智能體工作站，通過構(gòu)建統(tǒng)一的企業(yè)AI任務(wù)調(diào)度中心、提供一系列開箱即用的通用智能體，以及支持個性化定制智能體應(yīng)用，幫助企業(yè)實(shí)現(xiàn)Agent的規(guī)模化管理與應(yīng)用。

“模型本身當(dāng)然還是要繼續(xù)變強(qiáng)。但另一方面，其實(shí)現(xiàn)在模型已經(jīng)很強(qiáng)了，真正的問題在于有多少企業(yè)，能夠把這種強(qiáng)大的能力用好。”在發(fā)布會后的媒體訪談環(huán)節(jié)，譚待解釋推出AgentKit的原因。

而且，他還認(rèn)為火山在Agent的企業(yè)級服務(wù)上有無可比擬的優(yōu)勢。

“AI時代的系統(tǒng)架構(gòu)需要圍繞Agent來設(shè)計。這些系統(tǒng)變化只有真正做過大規(guī)模實(shí)踐的人，才能體會得非常深。豆包背后的功能和工具很復(fù)雜，本質(zhì)上，它就是我們最大的Agent。”譚待認(rèn)為，火山通過支持豆包這個最大的Agent，積累了真實(shí)踩坑經(jīng)驗。

“所以當(dāng)企業(yè)來問Agent該怎么做的時候，他們第一個會想到火山。因為我們是真的做過，而不是只講概念。”譚待說。

以下是譚待和媒體的交流實(shí)錄：

Q：今年年底，能看到海內(nèi)外頭部模型都在密集更新多模態(tài)大模型的進(jìn)展，你覺得為什么會產(chǎn)生這個趨勢？

譚待：這代表著AI應(yīng)用開始進(jìn)入到更深的領(lǐng)域。最早的時候大家聊天用文字就可以了，但現(xiàn)在讓模型幫忙處理事情，第一，用戶的輸入可能就會帶有視覺信息，比如車?yán)铩⒕€下攝像頭、餐飲場景的信息。而且模型處理事情要調(diào)用工具，工具返回的結(jié)果很多也是視覺化的。所以模型需要有視覺理解，才能理解這些動作的結(jié)構(gòu)。

如果模型能理解視覺的話，它就可以更像人一樣來做這些事情，不一定需要每一個工具都一定要做一個MCP的server，或者用某一種API 。

我們?nèi)ツ?2月份已經(jīng)在講多模態(tài)了。因為我們很早就意識到，這才是模型真正做完復(fù)雜AI解決方案的前提。

特別是在企業(yè)場景里，需求會更加復(fù)雜。就像今天演示的案例，你讓它去分析一份報告，生成結(jié)果，中間可能要經(jīng)歷幾十輪這樣的處理過程。

現(xiàn)在大家都在強(qiáng)調(diào)多模態(tài)，恰恰說明，用戶提的問題已經(jīng)變得更深了。

Q：這個需求是一直在的，但多模態(tài)方向的效果還不足夠好。

譚待：得耐心。和去年比起來，現(xiàn)在其實(shí)已經(jīng)解決了非常多的問題。模型的發(fā)展一直是這樣：它會在一段時間內(nèi)進(jìn)步，解鎖一個領(lǐng)域，這個領(lǐng)域會迅速爆發(fā)，然后又暴露出新的問題。

這就像人一樣，小學(xué)、初中、高中，每一次考試都越來越難，但能力也在成長。這是一個同樣的過程。所以我覺得模型的進(jìn)化速度是非常快的。

Q：今天你密集提到了一些Agent面臨的挑戰(zhàn)。可以再展開嗎？

譚待：豆包對外表現(xiàn)出來是對話，但它有很多很復(fù)雜的功能，也是Agent。舉個例子，就算只是搜索功能，都有不同領(lǐng)域的搜索、垂直搜索、開放式問題、閉環(huán)的問題等等，它們背后都是完全不同的實(shí)現(xiàn)。所以在我們內(nèi)部的實(shí)現(xiàn)豆包這個Agent的過程中，也會發(fā)現(xiàn)在不同的地方要解決的問題是不一樣的。

比如說做出一個視頻模型，模型本身的能力已經(jīng)很好了，接下來怎么把它放到一個真實(shí)系統(tǒng)里？有一部分問題，我們可以通過火山內(nèi)部的一些機(jī)制來解決，比如MaaS這樣的能力，但還有一些問題是繞不過去的。因為Agent最終是要跑在真實(shí)系統(tǒng)上的，所以它對系統(tǒng)的鑒權(quán)、對運(yùn)行時（Runtime）的穩(wěn)定性、對彈性、對數(shù)據(jù)安全，都會提出非常高的要求。

對企業(yè)來說，Agent的價值其實(shí)是非常直接的。一個企業(yè)可能每做一個這樣的Agent，就能省下幾千行代碼，也可能節(jié)省幾周的開發(fā)時間。我們提供的這些底層服務(wù)能力，大家再去做Agent應(yīng)用這件事情，整體就會順很多。

所以回到剛才問的問題，我覺得有兩點(diǎn)。第一，模型本身當(dāng)然還是要繼續(xù)變強(qiáng)。但第二點(diǎn)，其實(shí)現(xiàn)在模型已經(jīng)很強(qiáng)了，真正的問題在于有多少企業(yè)，能夠把這種“強(qiáng)”用好。

而要把模型用好，其實(shí)需要一整套新的東西，也就是一套為Agent的開發(fā)和運(yùn)行而設(shè)計的架構(gòu)。我們一般把它稱為AI云原生架構(gòu)。這個概念我們其實(shí)很早就開始講了，只是到今天，我們把它拆得更細(xì)了，變成了一整套可以落地的AgentKit、工具和流程。

相信通過這種方式，等大家下次再來大會的時候，會看到非常多的Agent，已經(jīng)是真正在生產(chǎn)環(huán)境里跑起來的樣子。

Q：有觀點(diǎn)認(rèn)為，Agent時代和App時代會產(chǎn)生沖突。你怎么看Agent與App的關(guān)系？

譚待：我覺得現(xiàn)在談沖突還太早了。從用戶角度來看，用戶的需求才是核心。用戶是通過和機(jī)器人說一句話，還是點(diǎn)App，還是打電話，本質(zhì)上都是在滿足同一個需求。

如果AI讓這件事變得更方便、成本更低，需求本身就會被放大。因為以前人們可能覺得太麻煩就不做了。現(xiàn)在變得很容易，就會多做幾次。所以需求變大了，形態(tài)并不是關(guān)鍵。未來可能Web、App、Agent都會并存。

Q：你提到豆包大模型已實(shí)現(xiàn)超過10倍的數(shù)據(jù)增長，臨近年底，你怎么評價今年豆包大模型的整體成績，以及如何看待明年大模型賽道的整體競爭？

譚待：今年整體成績還可以，在國內(nèi)肯定處在比較領(lǐng)先的位置，但放到全球看，OpenAI等海外廠商都已發(fā)布新一代模型，所以我們還要繼續(xù)努力。字節(jié)在全球市場相較于國內(nèi)還有更多提升空間，我們會持續(xù)投入，把模型做得更好。

不過我覺得模型之間的競爭不是最重要的，最重要的是把整個市場做大。如果明年整個市場能再漲10倍，大家面對的就是增量市場而非存量競爭，就不是零和博弈了。

回頭看火山引擎，我們在國內(nèi)是最早講模型、講Token、講模型成本、講通過技術(shù)手段大幅降價的。當(dāng)時我們把價格降到很低還能保持毛利，很多人一開始不信，覺得我們在虧錢，現(xiàn)在大家都在降價，也就慢慢接受這個事實(shí)了。越來越多廠商加入是好事，大家一起把市場做大，才有可能真正推動各行業(yè)的AI落地。

Q：今年7月有報告提到，企業(yè)使用AI工具后，不同產(chǎn)業(yè)生產(chǎn)力提升差距大，結(jié)構(gòu)性變化明顯，傳統(tǒng)行業(yè)相對落后，而且企業(yè)只有看到回報才會繼續(xù)投入。想請問你在客戶擴(kuò)展和銷售過程中，有沒有觀察到類似的差距？它會不會影響到市場拓展？

譚待：這是個挺好的問題，這取決于怎么看這件事。有些行業(yè)起量非常快，但天花板不高，有些行業(yè)起量很慢，但天花板非常高。

比如最早模型起量最快的是陪伴型聊天，但這個場景天花板不高，因為一個人一天能聊天的時間有限。而起量慢、天花板高的比如深度研究，可能一個董事長一天只需要用一次，比如問“豆包，你告訴我，現(xiàn)在什么行業(yè)更好？”，這個問題一天問一次就夠了，但為了回答好它，背后的Agent可能要跑幾個小時甚至一整天，要做大量的搜索、數(shù)據(jù)清洗、分析、提出假設(shè)、擴(kuò)展推理，甚至處理視頻內(nèi)容。

這種需求產(chǎn)生的算力和資源消耗非常大，是價值很高但推進(jìn)很慢的方向。

Q：怎么形容現(xiàn)在豆包等字節(jié)系應(yīng)用和火山引擎MaaS業(yè)務(wù)之間的關(guān)系？當(dāng)下外部應(yīng)用層面競爭愈發(fā)激烈，這種變化會不會對它們之間的關(guān)系帶來新影響？

譚待：豆包等字節(jié)內(nèi)部產(chǎn)品也在使用火山，火山的技術(shù)底座是內(nèi)外一體的。

這有很大好處。方舟上包括強(qiáng)化學(xué)習(xí)在內(nèi)的幾乎所有能力，都經(jīng)過內(nèi)部大規(guī)模、高頻次的真實(shí)用戶使用，我們的產(chǎn)品能保持領(lǐng)先，很重要的原因就是我們自己先用、先實(shí)踐。

至于外部競爭我覺得還好，我們的外部客戶之間本身就存在競爭關(guān)系，比如幾十家短劇公司之間既有競爭也有合作。火山會保持中立角色，不管是內(nèi)部還是外部客戶，都會按ToB服務(wù)的最高標(biāo)準(zhǔn)做好隔離、安全和合規(guī)。

Q：今天提到會對豆包API做更多擴(kuò)展，請問這一方向的整體思路是什么？

譚待：這是個很自然的過程。大家覺得豆包APP很多功能好用，而這些功能背后不是簡單的API調(diào)用，本質(zhì)是一整套帶業(yè)務(wù)邏輯且不斷迭代的Agent系統(tǒng)。

很多企業(yè)客戶在用豆包時，都希望能直接使用這些好用的功能，他們覺得即便知道有模型API，自己用模型再搭建一套系統(tǒng)也很難。

有些場景有必要用模型API定制，有些場景可以直接復(fù)用成熟能力，這兩種方式屬于不同維度，并非互相替代，而是面向不同需求的形態(tài)。不過基本原則還是通過技術(shù)和產(chǎn)品的持續(xù)創(chuàng)新以及成本的不斷優(yōu)化，把產(chǎn)品真正做好。

Q：之前有觀點(diǎn)提到未來MaaS平臺帶來的收入可能會和傳統(tǒng)云業(yè)務(wù)處在一個量級，你怎么看？如何處理好存量業(yè)務(wù)，一步一步過渡到增量業(yè)務(wù)？

譚待：我整體是比較認(rèn)同這個趨勢的。因為這本質(zhì)上是一個業(yè)務(wù)轉(zhuǎn)型的問題。存量業(yè)務(wù)現(xiàn)在還是比較大的，但如果從芯片出貨量來看，其實(shí)兩年前GPU的出貨量就已經(jīng)發(fā)生了很大的變化。以前GPU更多是用來訓(xùn)練，現(xiàn)在越來越多是用來推理。我們很早就意識到了，也一直在強(qiáng)調(diào)這件事情的重要性。

如何過渡首先是一個戰(zhàn)略問題。因為所有策略，最終都是服務(wù)于戰(zhàn)略目標(biāo)的。

戰(zhàn)略本質(zhì)上就是取舍，以及時間維度上的選擇。你是看短期，還是看長期？我們一直比較強(qiáng)調(diào)從長期去倒推。比如先想清楚三年后你希望自己處在什么位置，再倒推就會知道今年、明年什么事情是最重要的。如果一家公司的戰(zhàn)略是正確的，但它明年做的事情卻和這個戰(zhàn)略不一致，那問題就會很大。

所以我們一直鼓勵大家先把“大圖景”看清楚。只要大方向清楚了，會發(fā)現(xiàn)可以有很多策略去支撐這個方向，可以組建專門的團(tuán)隊，也可以調(diào)整激勵機(jī)制。

還有一點(diǎn)我覺得非常重要，就是在技術(shù)變革期，一定要讓技術(shù)能力強(qiáng)的人來負(fù)責(zé)業(yè)務(wù)。如果是在一個相對平穩(wěn)的階段，可以讓銷售能力更強(qiáng)的人來主導(dǎo)。但如果是在像現(xiàn)在這樣快速變化的技術(shù)周期里，技術(shù)能力就非常關(guān)鍵。

Q：現(xiàn)在很多云公司的核心收入還是計算資源、存儲等傳統(tǒng)云業(yè)務(wù)。但今天提到的多模態(tài)、Agent、數(shù)據(jù)庫等產(chǎn)品，增長速度都非常快。你覺得接下來哪些類型的產(chǎn)品會率先到達(dá)一個新規(guī)模？

譚待：還是要回到技術(shù)變化的內(nèi)核。過去幾次大的技術(shù)浪潮。第一次是PC，然后是互聯(lián)網(wǎng)，那個時代的核心是網(wǎng)站。圍繞網(wǎng)站，誕生了數(shù)據(jù)庫、搜索等一系列基礎(chǔ)設(shè)施。后來進(jìn)入移動時代，核心變成了App。App的使用頻率相比網(wǎng)站提升了一個數(shù)量級，很多技術(shù)也隨之重構(gòu)。而現(xiàn)在進(jìn)入AI時代，最大的變化是——主體發(fā)生了變化。App和Web仍然存在，但背后的邏輯會越來越多圍繞Agent來構(gòu)建。

系統(tǒng)架構(gòu)，需要圍繞Agent來設(shè)計。要考慮Agent需要什么樣的數(shù)據(jù)、什么樣的運(yùn)行環(huán)境、什么樣的工具調(diào)用能力。這也會帶來數(shù)據(jù)庫形態(tài)的變化，因為Agent是按需生成內(nèi)容的，和傳統(tǒng)應(yīng)用是完全不同的模式。

所以，Sandbox、單體體驗、實(shí)時數(shù)據(jù)等需求都會變得更加重要。這本質(zhì)上是開發(fā)范式的變化。而這些變化，只有真正做過大規(guī)模實(shí)踐的人，才能體會得非常深。這也是為什么我們一直強(qiáng)調(diào)，要用實(shí)踐來反哺產(chǎn)品。

豆包本身就是一個非常大規(guī)模的實(shí)踐。我們在真實(shí)環(huán)境中跑過這些Agent，踩過坑，也積累了經(jīng)驗。所以當(dāng)企業(yè)來問“Agent該怎么做”的時候，他們第一個會想到我們。因為我們是真的做過，而不是只講概念。

Q：有觀點(diǎn)認(rèn)為，短期內(nèi)大家會通過價格戰(zhàn)快速放大收入規(guī)模，但競爭也會非常激烈。你怎么看？

譚待：我一直覺得，競爭本身不是關(guān)鍵問題。假設(shè)明年整個市場還能增長10倍，那增長3倍還是5倍，其實(shí)差別沒有那么大。更重要的是，有更多的人參與進(jìn)來，會讓整個事情做得更快。更多的人、更多的想法，會加速AI落地，市場的天花板本身就非常高。

其他云廠加大投入是一件好事，大家一起把市場做大。

Q：今天發(fā)布了豆包1.8，谷歌那邊也在差不多的時間發(fā)布了Gemini 3 Flash。目前業(yè)界普遍認(rèn)為，Gemini 3在全球范圍內(nèi)屬于非常領(lǐng)先的一代模型。如何看待模型之間的差距？

譚待：這個問題我們肯定要正視。

如果你問我，那肯定是要努力追趕的。但追趕這件事也可以從不同維度去看。可以看“距離”，也可以看“速度”，還可以看“加速度”。如果只看距離，那確實(shí)是有差距的。如果看速度，在某些階段，我們未必比對方慢。但我更關(guān)心的是加速度。

在這一段時間里，我們的加速度是在提升的。所以從這個角度來看，我對最終能夠不斷接近有信心。

實(shí)際上大家也能看到，在一些具體能力上，大家是交替領(lǐng)先的。比如說今天發(fā)布的Seedance 1.5 pro的語音和畫面同步，之前是Veo 3較早做出來的，后來也有Sora2。但要把音畫同步真正做好，其實(shí)并不容易。經(jīng)常會出現(xiàn)嘴型對不上，或者突然吞音的情況。

在整個音畫同步上，我們認(rèn)為現(xiàn)在Seedance 1.5 pro的效果最好。尤其是對中文、對方言的支持，音畫同步，這是一個非常難的點(diǎn)。再比如Seedream 4.5，我個人感覺整體效果上處在比較領(lǐng)先的位置。

當(dāng)然，整體Google在一些方面還是領(lǐng)先的，我們在追趕。但更重要的，還是看長期。

Q：以前大家更多會覺得火山是字節(jié)技術(shù)能力的外溢。2022、2023年左右會感覺這種外溢在商業(yè)價值上的體現(xiàn)還不是特別明顯。但在這一輪AI浪潮里，火山明顯獲得了更多客戶的認(rèn)可。這種變化背后的原因是什么？

譚待：你剛才提到的幾個點(diǎn)，其實(shí)可以回到“距離、速度、加速度”這個框架來看。你現(xiàn)在看到的，都是已經(jīng)顯性的結(jié)果。但在內(nèi)部，很多積累其實(shí)是很早就開始了。

首先，現(xiàn)在能做得比較好的廠商，基本都有一個共同點(diǎn)。那就是，它們本身就有非常大的業(yè)務(wù)規(guī)模作為支撐。因為大模型這件事情，技術(shù)投入是非常大的。沒有一個能夠產(chǎn)生萬億級現(xiàn)金流的業(yè)務(wù)，是很難長期在這個方向上持續(xù)投入的。

第二點(diǎn)，就是外溢的路徑問題。最早外溢出去的，其實(shí)是工具類能力。因為工具最容易標(biāo)準(zhǔn)化，也最容易對外復(fù)制。最早大家想要的，就是“抖音同款”。這個其實(shí)不是2023年才開始的，而是更早，大概在2020年左右。

再往后是規(guī)模優(yōu)勢。抖音的服務(wù)器規(guī)模，在國內(nèi)是最大的。這些基礎(chǔ)設(shè)施能力，被逐步抽象出來，形成了現(xiàn)在的云服務(wù)。

在2021年底，我們正式推出了云服務(wù)。而在AI這條線上，我們其實(shí)一直非常堅持。從最早做推薦算法開始，推薦本身就是AI的一種形式。包括內(nèi)容創(chuàng)作、內(nèi)容分發(fā)，背后其實(shí)都是AI能力。

到了2023年，大模型開始真正成熟，大家才看到應(yīng)用層面的爆發(fā)。但AI從來都不是一步就能做成的事情，要先解決訓(xùn)練問題，再解決推理問題，最后才是應(yīng)用問題。所以在2023年，幾乎所有AI創(chuàng)業(yè)公司，都是在火山上訓(xùn)練模型。等訓(xùn)練結(jié)束之后才真正進(jìn)入應(yīng)用階段，也正是在這個階段，火山引擎的價值才被更多客戶真實(shí)感知到。

這幾年能被客戶認(rèn)可的最核心原因，還是遇到了一個真正的技術(shù)風(fēng)口。如果沒有風(fēng)口，做的更多是20%到30%的效率提升。但一旦遇到風(fēng)口，一兩年內(nèi)就可能發(fā)生非常大的變化。但從本質(zhì)上講，技術(shù)積累本身并沒有變。

Q：豆包大模型日均處理token量超過 50 萬億，想請問豆包token的消耗比例是怎樣分布的？個人和企業(yè)的比例又是怎樣的？

譚待：早期階段，整體上還是偏C端一些。比如互聯(lián)網(wǎng)、零售，包括手機(jī)、汽車，這些行業(yè)增長都比較快。但我們也看到，在企業(yè)側(cè)有些客戶已經(jīng)在內(nèi)部部署了上百個Agent。這些Agent每天的token消耗也能達(dá)到幾十億量級。現(xiàn)在看到的“1萬億token俱樂部”，已經(jīng)不止一百家。

簡單算一下會發(fā)現(xiàn)很多企業(yè)客戶在AI上的消耗，已經(jīng)超過了它們在傳統(tǒng)云上的消耗。

至于個人和企業(yè)的比例，我覺得還是符合所謂的“二八規(guī)律”。大概可以理解為，個人用戶數(shù)量多，企業(yè)用戶數(shù)量少，但企業(yè)的單體消耗更大。如果用一個非常粗略的比例來講，云時代大概是8.5比1.5，現(xiàn)在可能是7.5比2.5，我覺得可能未來個人占比還會再高一點(diǎn)。

Q：那在行業(yè)側(cè)，你們接下來會重點(diǎn)投入哪些行業(yè)？

譚待：我們是這樣做的。首先，客戶的層級不同，需求也會不一樣。有些客戶，通過開發(fā)者社區(qū)，或者生態(tài)伙伴，就可以很好地服務(wù)。有些客戶我們會通過直銷團(tuán)隊來服務(wù)。還有一些行業(yè)，因為客戶高度集中，需求也比較類似，我們會按行業(yè)來做解決方案。比如汽車行業(yè)，就是一個非常典型的例子。

Q：按Token收費(fèi)，你之前說覺得還是一種比較原始的模式。現(xiàn)在怎么看這種模式？以及你們是否在探索新的商業(yè)形態(tài)？

譚待：是的，按token收費(fèi)確實(shí)是比較原始的。但“原始”并不代表不好。它對應(yīng)的是一個比較底層的抽象層級。API就像原材料，你用多少，就付多少錢。當(dāng)然，不同模型版本，因為能產(chǎn)生的價值不同，定價也會不一樣。但對企業(yè)來說，它最終關(guān)心的，不是token，而是問題能不能被解決。所以再往上走，一定是Agent。

Agent可以是以API的形式提供，也可以是一個完整的產(chǎn)品形態(tài)。

比如客服Agent，客戶直接把它當(dāng)客服用就行。或者Coding，讓Trae和工程師一起寫代碼。

當(dāng)抽象層級變高之后，商業(yè)邏輯也會發(fā)生變化，就不再只是在IT預(yù)算里去看這件事，而是看全球客服市場有多大，開發(fā)者市場還有多少缺口。這些都是新的市場空間，也是為什么很多機(jī)構(gòu)會講“十萬億美元級”的市場。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.