字節(jié)公布了自己在AI領(lǐng)域的最新進(jìn)展。
在今天舉辦的火山引擎FORCE原動力大會上,最新旗艦?zāi)P投拱竽P?.8,和音視頻創(chuàng)作模型Seedance 1.5 pro如期亮相。
![]()
![]()
這一次,字節(jié)沒有選擇單純堆砌參數(shù)或炫耀跑分,而是把技能點(diǎn)加在了實(shí)用性上。
火山引擎總裁譚待介紹,新推出的豆包大模型1.8,強(qiáng)化工具調(diào)用、屏幕操控和視覺理解,致力于成為更懂真實(shí)場景的 Agent 基座。而Seedance 1.5 pro的亮點(diǎn)在于音畫同步的突破和影視級的敘事張力。
![]()
![]()
*豆包大模型1.8部分測評結(jié)果
*Seedance 1.5 pro實(shí)測效果
在模型實(shí)用之外,字節(jié)還想幫企業(yè)更實(shí)用地解決AI落地問題。
同樣在今天,火山引擎重點(diǎn)發(fā)布了一系列幫助企業(yè)用好 Agent 的支持服務(wù)。
在Agent開發(fā)層面,火山升級了企業(yè)級AI Agent平臺 AgentKit。
這一平臺,覆蓋了Agent從開發(fā)、部署到管控的全生命周期,目標(biāo)是解決企業(yè)在Agent落地中面臨的身份權(quán)限管理、模型確定性及系統(tǒng)集成等核心挑戰(zhàn)。
![]()
在Agent運(yùn)營層面,火山還推出了HiAgent智能體工作站,通過構(gòu)建統(tǒng)一的企業(yè)AI任務(wù)調(diào)度中心、提供一系列開箱即用的通用智能體,以及支持個性化定制智能體應(yīng)用,幫助企業(yè)實(shí)現(xiàn)Agent的規(guī)模化管理與應(yīng)用。
![]()
“模型本身當(dāng)然還是要繼續(xù)變強(qiáng)。但另一方面,其實(shí)現(xiàn)在模型已經(jīng)很強(qiáng)了,真正的問題在于有多少企業(yè),能夠把這種強(qiáng)大的能力用好。”在發(fā)布會后的媒體訪談環(huán)節(jié),譚待解釋推出AgentKit的原因。
而且,他還認(rèn)為火山在Agent的企業(yè)級服務(wù)上有無可比擬的優(yōu)勢。
“AI時代的系統(tǒng)架構(gòu)需要圍繞Agent來設(shè)計。這些系統(tǒng)變化只有真正做過大規(guī)模實(shí)踐的人,才能體會得非常深。豆包背后的功能和工具很復(fù)雜,本質(zhì)上,它就是我們最大的Agent。”譚待認(rèn)為,火山通過支持豆包這個最大的Agent,積累了真實(shí)踩坑經(jīng)驗。
“所以當(dāng)企業(yè)來問Agent該怎么做的時候,他們第一個會想到火山。因為我們是真的做過,而不是只講概念。”譚待說。
以下是譚待和媒體的交流實(shí)錄:
Q:今年年底,能看到海內(nèi)外頭部模型都在密集更新多模態(tài)大模型的進(jìn)展,你覺得為什么會產(chǎn)生這個趨勢?
譚待:這代表著AI應(yīng)用開始進(jìn)入到更深的領(lǐng)域。最早的時候大家聊天用文字就可以了,但現(xiàn)在讓模型幫忙處理事情,第一,用戶的輸入可能就會帶有視覺信息,比如車?yán)铩⒕€下攝像頭、餐飲場景的信息。而且模型處理事情要調(diào)用工具,工具返回的結(jié)果很多也是視覺化的。所以模型需要有視覺理解,才能理解這些動作的結(jié)構(gòu)。
如果模型能理解視覺的話,它就可以更像人一樣來做這些事情,不一定需要每一個工具都一定要做一個MCP的server,或者用某一種API 。
我們?nèi)ツ?2月份已經(jīng)在講多模態(tài)了。因為我們很早就意識到,這才是模型真正做完復(fù)雜AI解決方案的前提。
特別是在企業(yè)場景里,需求會更加復(fù)雜。就像今天演示的案例,你讓它去分析一份報告,生成結(jié)果,中間可能要經(jīng)歷幾十輪這樣的處理過程。
現(xiàn)在大家都在強(qiáng)調(diào)多模態(tài),恰恰說明,用戶提的問題已經(jīng)變得更深了。
Q:這個需求是一直在的,但多模態(tài)方向的效果還不足夠好。
譚待:得耐心。和去年比起來,現(xiàn)在其實(shí)已經(jīng)解決了非常多的問題。模型的發(fā)展一直是這樣:它會在一段時間內(nèi)進(jìn)步,解鎖一個領(lǐng)域,這個領(lǐng)域會迅速爆發(fā),然后又暴露出新的問題。
這就像人一樣,小學(xué)、初中、高中,每一次考試都越來越難,但能力也在成長。這是一個同樣的過程。所以我覺得模型的進(jìn)化速度是非常快的。
Q:今天你密集提到了一些Agent面臨的挑戰(zhàn)。可以再展開嗎?
譚待:豆包對外表現(xiàn)出來是對話,但它有很多很復(fù)雜的功能,也是Agent。舉個例子,就算只是搜索功能,都有不同領(lǐng)域的搜索、垂直搜索、開放式問題、閉環(huán)的問題等等,它們背后都是完全不同的實(shí)現(xiàn)。所以在我們內(nèi)部的實(shí)現(xiàn)豆包這個Agent的過程中,也會發(fā)現(xiàn)在不同的地方要解決的問題是不一樣的。
比如說做出一個視頻模型,模型本身的能力已經(jīng)很好了,接下來怎么把它放到一個真實(shí)系統(tǒng)里?有一部分問題,我們可以通過火山內(nèi)部的一些機(jī)制來解決,比如MaaS這樣的能力,但還有一些問題是繞不過去的。因為Agent最終是要跑在真實(shí)系統(tǒng)上的,所以它對系統(tǒng)的鑒權(quán)、對運(yùn)行時(Runtime)的穩(wěn)定性、對彈性、對數(shù)據(jù)安全,都會提出非常高的要求。
對企業(yè)來說,Agent的價值其實(shí)是非常直接的。一個企業(yè)可能每做一個這樣的Agent,就能省下幾千行代碼,也可能節(jié)省幾周的開發(fā)時間。我們提供的這些底層服務(wù)能力,大家再去做Agent應(yīng)用這件事情,整體就會順很多。
所以回到剛才問的問題,我覺得有兩點(diǎn)。第一,模型本身當(dāng)然還是要繼續(xù)變強(qiáng)。但第二點(diǎn),其實(shí)現(xiàn)在模型已經(jīng)很強(qiáng)了,真正的問題在于有多少企業(yè),能夠把這種“強(qiáng)”用好。
而要把模型用好,其實(shí)需要一整套新的東西,也就是一套為Agent的開發(fā)和運(yùn)行而設(shè)計的架構(gòu)。我們一般把它稱為AI云原生架構(gòu)。這個概念我們其實(shí)很早就開始講了,只是到今天,我們把它拆得更細(xì)了,變成了一整套可以落地的AgentKit、工具和流程。
相信通過這種方式,等大家下次再來大會的時候,會看到非常多的Agent,已經(jīng)是真正在生產(chǎn)環(huán)境里跑起來的樣子。
Q:有觀點(diǎn)認(rèn)為,Agent時代和App時代會產(chǎn)生沖突。你怎么看Agent與App的關(guān)系?
譚待:我覺得現(xiàn)在談沖突還太早了。從用戶角度來看,用戶的需求才是核心。用戶是通過和機(jī)器人說一句話,還是點(diǎn)App,還是打電話,本質(zhì)上都是在滿足同一個需求。
如果AI讓這件事變得更方便、成本更低,需求本身就會被放大。因為以前人們可能覺得太麻煩就不做了。現(xiàn)在變得很容易,就會多做幾次。所以需求變大了,形態(tài)并不是關(guān)鍵。未來可能Web、App、Agent都會并存。
Q:你提到豆包大模型已實(shí)現(xiàn)超過10倍的數(shù)據(jù)增長,臨近年底,你怎么評價今年豆包大模型的整體成績,以及如何看待明年大模型賽道的整體競爭?
譚待:今年整體成績還可以,在國內(nèi)肯定處在比較領(lǐng)先的位置,但放到全球看,OpenAI等海外廠商都已發(fā)布新一代模型,所以我們還要繼續(xù)努力。字節(jié)在全球市場相較于國內(nèi)還有更多提升空間,我們會持續(xù)投入,把模型做得更好。
不過我覺得模型之間的競爭不是最重要的,最重要的是把整個市場做大。如果明年整個市場能再漲10倍,大家面對的就是增量市場而非存量競爭,就不是零和博弈了。
回頭看火山引擎,我們在國內(nèi)是最早講模型、講Token、講模型成本、講通過技術(shù)手段大幅降價的。當(dāng)時我們把價格降到很低還能保持毛利,很多人一開始不信,覺得我們在虧錢,現(xiàn)在大家都在降價,也就慢慢接受這個事實(shí)了。越來越多廠商加入是好事,大家一起把市場做大,才有可能真正推動各行業(yè)的AI落地。
Q:今年7月有報告提到,企業(yè)使用AI工具后,不同產(chǎn)業(yè)生產(chǎn)力提升差距大,結(jié)構(gòu)性變化明顯,傳統(tǒng)行業(yè)相對落后,而且企業(yè)只有看到回報才會繼續(xù)投入。想請問你在客戶擴(kuò)展和銷售過程中,有沒有觀察到類似的差距?它會不會影響到市場拓展?
譚待:這是個挺好的問題,這取決于怎么看這件事。有些行業(yè)起量非常快,但天花板不高,有些行業(yè)起量很慢,但天花板非常高。
比如最早模型起量最快的是陪伴型聊天,但這個場景天花板不高,因為一個人一天能聊天的時間有限。而起量慢、天花板高的比如深度研究,可能一個董事長一天只需要用一次,比如問“豆包,你告訴我,現(xiàn)在什么行業(yè)更好?”,這個問題一天問一次就夠了,但為了回答好它,背后的Agent可能要跑幾個小時甚至一整天,要做大量的搜索、數(shù)據(jù)清洗、分析、提出假設(shè)、擴(kuò)展推理,甚至處理視頻內(nèi)容。
這種需求產(chǎn)生的算力和資源消耗非常大,是價值很高但推進(jìn)很慢的方向。
Q:怎么形容現(xiàn)在豆包等字節(jié)系應(yīng)用和火山引擎MaaS業(yè)務(wù)之間的關(guān)系?當(dāng)下外部應(yīng)用層面競爭愈發(fā)激烈,這種變化會不會對它們之間的關(guān)系帶來新影響?
譚待:豆包等字節(jié)內(nèi)部產(chǎn)品也在使用火山,火山的技術(shù)底座是內(nèi)外一體的。
這有很大好處。方舟上包括強(qiáng)化學(xué)習(xí)在內(nèi)的幾乎所有能力,都經(jīng)過內(nèi)部大規(guī)模、高頻次的真實(shí)用戶使用,我們的產(chǎn)品能保持領(lǐng)先,很重要的原因就是我們自己先用、先實(shí)踐。
至于外部競爭我覺得還好,我們的外部客戶之間本身就存在競爭關(guān)系,比如幾十家短劇公司之間既有競爭也有合作。火山會保持中立角色,不管是內(nèi)部還是外部客戶,都會按ToB服務(wù)的最高標(biāo)準(zhǔn)做好隔離、安全和合規(guī)。
Q:今天提到會對豆包API做更多擴(kuò)展,請問這一方向的整體思路是什么?
譚待:這是個很自然的過程。大家覺得豆包APP很多功能好用,而這些功能背后不是簡單的API調(diào)用,本質(zhì)是一整套帶業(yè)務(wù)邏輯且不斷迭代的Agent系統(tǒng)。
很多企業(yè)客戶在用豆包時,都希望能直接使用這些好用的功能,他們覺得即便知道有模型API,自己用模型再搭建一套系統(tǒng)也很難。
有些場景有必要用模型API定制,有些場景可以直接復(fù)用成熟能力,這兩種方式屬于不同維度,并非互相替代,而是面向不同需求的形態(tài)。不過基本原則還是通過技術(shù)和產(chǎn)品的持續(xù)創(chuàng)新以及成本的不斷優(yōu)化,把產(chǎn)品真正做好。
Q:之前有觀點(diǎn)提到未來MaaS平臺帶來的收入可能會和傳統(tǒng)云業(yè)務(wù)處在一個量級,你怎么看?如何處理好存量業(yè)務(wù),一步一步過渡到增量業(yè)務(wù)?
譚待:我整體是比較認(rèn)同這個趨勢的。因為這本質(zhì)上是一個業(yè)務(wù)轉(zhuǎn)型的問題。存量業(yè)務(wù)現(xiàn)在還是比較大的,但如果從芯片出貨量來看,其實(shí)兩年前GPU的出貨量就已經(jīng)發(fā)生了很大的變化。以前GPU更多是用來訓(xùn)練,現(xiàn)在越來越多是用來推理。我們很早就意識到了,也一直在強(qiáng)調(diào)這件事情的重要性。
如何過渡首先是一個戰(zhàn)略問題。因為所有策略,最終都是服務(wù)于戰(zhàn)略目標(biāo)的。
戰(zhàn)略本質(zhì)上就是取舍,以及時間維度上的選擇。你是看短期,還是看長期?我們一直比較強(qiáng)調(diào)從長期去倒推。比如先想清楚三年后你希望自己處在什么位置,再倒推就會知道今年、明年什么事情是最重要的。如果一家公司的戰(zhàn)略是正確的,但它明年做的事情卻和這個戰(zhàn)略不一致,那問題就會很大。
所以我們一直鼓勵大家先把“大圖景”看清楚。只要大方向清楚了,會發(fā)現(xiàn)可以有很多策略去支撐這個方向,可以組建專門的團(tuán)隊,也可以調(diào)整激勵機(jī)制。
還有一點(diǎn)我覺得非常重要,就是在技術(shù)變革期,一定要讓技術(shù)能力強(qiáng)的人來負(fù)責(zé)業(yè)務(wù)。如果是在一個相對平穩(wěn)的階段,可以讓銷售能力更強(qiáng)的人來主導(dǎo)。但如果是在像現(xiàn)在這樣快速變化的技術(shù)周期里,技術(shù)能力就非常關(guān)鍵。
Q:現(xiàn)在很多云公司的核心收入還是計算資源、存儲等傳統(tǒng)云業(yè)務(wù)。但今天提到的多模態(tài)、Agent、數(shù)據(jù)庫等產(chǎn)品,增長速度都非常快。你覺得接下來哪些類型的產(chǎn)品會率先到達(dá)一個新規(guī)模?
譚待:還是要回到技術(shù)變化的內(nèi)核。過去幾次大的技術(shù)浪潮。第一次是PC,然后是互聯(lián)網(wǎng),那個時代的核心是網(wǎng)站。圍繞網(wǎng)站,誕生了數(shù)據(jù)庫、搜索等一系列基礎(chǔ)設(shè)施。后來進(jìn)入移動時代,核心變成了App。App的使用頻率相比網(wǎng)站提升了一個數(shù)量級,很多技術(shù)也隨之重構(gòu)。而現(xiàn)在進(jìn)入AI時代,最大的變化是——主體發(fā)生了變化。App和Web仍然存在,但背后的邏輯會越來越多圍繞Agent來構(gòu)建。
系統(tǒng)架構(gòu),需要圍繞Agent來設(shè)計。要考慮Agent需要什么樣的數(shù)據(jù)、什么樣的運(yùn)行環(huán)境、什么樣的工具調(diào)用能力。這也會帶來數(shù)據(jù)庫形態(tài)的變化,因為Agent是按需生成內(nèi)容的,和傳統(tǒng)應(yīng)用是完全不同的模式。
所以,Sandbox、單體體驗、實(shí)時數(shù)據(jù)等需求都會變得更加重要。這本質(zhì)上是開發(fā)范式的變化。而這些變化,只有真正做過大規(guī)模實(shí)踐的人,才能體會得非常深。這也是為什么我們一直強(qiáng)調(diào),要用實(shí)踐來反哺產(chǎn)品。
豆包本身就是一個非常大規(guī)模的實(shí)踐。我們在真實(shí)環(huán)境中跑過這些Agent,踩過坑,也積累了經(jīng)驗。所以當(dāng)企業(yè)來問“Agent該怎么做”的時候,他們第一個會想到我們。因為我們是真的做過,而不是只講概念。
Q:有觀點(diǎn)認(rèn)為,短期內(nèi)大家會通過價格戰(zhàn)快速放大收入規(guī)模,但競爭也會非常激烈。你怎么看?
譚待:我一直覺得,競爭本身不是關(guān)鍵問題。假設(shè)明年整個市場還能增長10倍,那增長3倍還是5倍,其實(shí)差別沒有那么大。更重要的是,有更多的人參與進(jìn)來,會讓整個事情做得更快。更多的人、更多的想法,會加速AI落地,市場的天花板本身就非常高。
其他云廠加大投入是一件好事,大家一起把市場做大。
Q:今天發(fā)布了豆包1.8,谷歌那邊也在差不多的時間發(fā)布了Gemini 3 Flash。目前業(yè)界普遍認(rèn)為,Gemini 3在全球范圍內(nèi)屬于非常領(lǐng)先的一代模型。如何看待模型之間的差距?
譚待:這個問題我們肯定要正視。
如果你問我,那肯定是要努力追趕的。但追趕這件事也可以從不同維度去看。可以看“距離”,也可以看“速度”,還可以看“加速度”。如果只看距離,那確實(shí)是有差距的。如果看速度,在某些階段,我們未必比對方慢。但我更關(guān)心的是加速度。
在這一段時間里,我們的加速度是在提升的。所以從這個角度來看,我對最終能夠不斷接近有信心。
實(shí)際上大家也能看到,在一些具體能力上,大家是交替領(lǐng)先的。比如說今天發(fā)布的Seedance 1.5 pro的語音和畫面同步,之前是Veo 3較早做出來的,后來也有Sora2。但要把音畫同步真正做好,其實(shí)并不容易。經(jīng)常會出現(xiàn)嘴型對不上,或者突然吞音的情況。
在整個音畫同步上,我們認(rèn)為現(xiàn)在Seedance 1.5 pro的效果最好。尤其是對中文、對方言的支持,音畫同步,這是一個非常難的點(diǎn)。再比如Seedream 4.5,我個人感覺整體效果上處在比較領(lǐng)先的位置。
當(dāng)然,整體Google在一些方面還是領(lǐng)先的,我們在追趕。但更重要的,還是看長期。
Q:以前大家更多會覺得火山是字節(jié)技術(shù)能力的外溢。2022、2023年左右會感覺這種外溢在商業(yè)價值上的體現(xiàn)還不是特別明顯。但在這一輪AI浪潮里,火山明顯獲得了更多客戶的認(rèn)可。這種變化背后的原因是什么?
譚待:你剛才提到的幾個點(diǎn),其實(shí)可以回到“距離、速度、加速度”這個框架來看。你現(xiàn)在看到的,都是已經(jīng)顯性的結(jié)果。但在內(nèi)部,很多積累其實(shí)是很早就開始了。
首先,現(xiàn)在能做得比較好的廠商,基本都有一個共同點(diǎn)。那就是,它們本身就有非常大的業(yè)務(wù)規(guī)模作為支撐。因為大模型這件事情,技術(shù)投入是非常大的。沒有一個能夠產(chǎn)生萬億級現(xiàn)金流的業(yè)務(wù),是很難長期在這個方向上持續(xù)投入的。
第二點(diǎn),就是外溢的路徑問題。最早外溢出去的,其實(shí)是工具類能力。因為工具最容易標(biāo)準(zhǔn)化,也最容易對外復(fù)制。最早大家想要的,就是“抖音同款”。這個其實(shí)不是2023年才開始的,而是更早,大概在2020年左右。
再往后是規(guī)模優(yōu)勢。抖音的服務(wù)器規(guī)模,在國內(nèi)是最大的。這些基礎(chǔ)設(shè)施能力,被逐步抽象出來,形成了現(xiàn)在的云服務(wù)。
在2021年底,我們正式推出了云服務(wù)。而在AI這條線上,我們其實(shí)一直非常堅持。從最早做推薦算法開始,推薦本身就是AI的一種形式。包括內(nèi)容創(chuàng)作、內(nèi)容分發(fā),背后其實(shí)都是AI能力。
到了2023年,大模型開始真正成熟,大家才看到應(yīng)用層面的爆發(fā)。但AI從來都不是一步就能做成的事情,要先解決訓(xùn)練問題,再解決推理問題,最后才是應(yīng)用問題。所以在2023年,幾乎所有AI創(chuàng)業(yè)公司,都是在火山上訓(xùn)練模型。等訓(xùn)練結(jié)束之后才真正進(jìn)入應(yīng)用階段,也正是在這個階段,火山引擎的價值才被更多客戶真實(shí)感知到。
這幾年能被客戶認(rèn)可的最核心原因,還是遇到了一個真正的技術(shù)風(fēng)口。如果沒有風(fēng)口,做的更多是20%到30%的效率提升。但一旦遇到風(fēng)口,一兩年內(nèi)就可能發(fā)生非常大的變化。但從本質(zhì)上講,技術(shù)積累本身并沒有變。
Q:豆包大模型日均處理token量超過 50 萬億,想請問豆包token的消耗比例是怎樣分布的?個人和企業(yè)的比例又是怎樣的?
譚待:早期階段,整體上還是偏C端一些。比如互聯(lián)網(wǎng)、零售,包括手機(jī)、汽車,這些行業(yè)增長都比較快。但我們也看到,在企業(yè)側(cè)有些客戶已經(jīng)在內(nèi)部部署了上百個Agent。這些Agent每天的token消耗也能達(dá)到幾十億量級。現(xiàn)在看到的“1萬億token俱樂部”,已經(jīng)不止一百家。
簡單算一下會發(fā)現(xiàn)很多企業(yè)客戶在AI上的消耗,已經(jīng)超過了它們在傳統(tǒng)云上的消耗。
至于個人和企業(yè)的比例,我覺得還是符合所謂的“二八規(guī)律”。大概可以理解為,個人用戶數(shù)量多,企業(yè)用戶數(shù)量少,但企業(yè)的單體消耗更大。如果用一個非常粗略的比例來講,云時代大概是8.5比1.5,現(xiàn)在可能是7.5比2.5,我覺得可能未來個人占比還會再高一點(diǎn)。
Q:那在行業(yè)側(cè),你們接下來會重點(diǎn)投入哪些行業(yè)?
譚待:我們是這樣做的。首先,客戶的層級不同,需求也會不一樣。有些客戶,通過開發(fā)者社區(qū),或者生態(tài)伙伴,就可以很好地服務(wù)。有些客戶我們會通過直銷團(tuán)隊來服務(wù)。還有一些行業(yè),因為客戶高度集中,需求也比較類似,我們會按行業(yè)來做解決方案。比如汽車行業(yè),就是一個非常典型的例子。
Q:按Token收費(fèi),你之前說覺得還是一種比較原始的模式。現(xiàn)在怎么看這種模式?以及你們是否在探索新的商業(yè)形態(tài)?
譚待:是的,按token收費(fèi)確實(shí)是比較原始的。但“原始”并不代表不好。它對應(yīng)的是一個比較底層的抽象層級。API就像原材料,你用多少,就付多少錢。當(dāng)然,不同模型版本,因為能產(chǎn)生的價值不同,定價也會不一樣。但對企業(yè)來說,它最終關(guān)心的,不是token,而是問題能不能被解決。所以再往上走,一定是Agent。
Agent可以是以API的形式提供,也可以是一個完整的產(chǎn)品形態(tài)。
比如客服Agent,客戶直接把它當(dāng)客服用就行。或者Coding,讓Trae和工程師一起寫代碼。
當(dāng)抽象層級變高之后,商業(yè)邏輯也會發(fā)生變化,就不再只是在IT預(yù)算里去看這件事,而是看全球客服市場有多大,開發(fā)者市場還有多少缺口。這些都是新的市場空間,也是為什么很多機(jī)構(gòu)會講“十萬億美元級”的市場。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.