337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

郭達雅補上了字節最后一塊短板

0
分享至

文 | 字母AI

離開DeepSeek的郭達雅,成為大廠爭奪的焦點(詳見《為什么大廠必須搶郭達雅》)。

如今郭達雅的去向塵埃落定,據晚點消息,字節成為這場爭奪戰的勝利者。

郭達雅可是AI圈的大紅人,網上流傳著一種說法,阿里給出了post-train負責人的職位,騰訊和百度也都開出了很高的價碼。

可郭達雅最后偏偏選擇了字節。

要知道,字節在多模態上已經做到全球領先,Seedance 2.0曾問鼎在各類視頻生成排行榜,可郭達雅研究的方向顯然和這塊有點遠。

更讓人好奇的是,就算如此,字節還愿意給郭達雅開出接近億元年包的待遇(對此消息,字節副總裁表示不實)。

答案藏在字節最近半年的一系列動作里。

2026 年初,字節啟動了針對 agent 和 Coding 的組織整合。

梁汝波在全員會上說,2026年的重中之重是AI模型能力要做到行業前列。從Trae獨立拆分SOLO,再到扣子平臺升級到2.5版本。這些動作指向同一個方向:字節在為agent時代做準備。

而郭達雅,恰好是最懂如何讓agent跑起來的人。

01 字節有短板

字節的多模態能力很強,吳永輝、周暢、郁博文、蔣路這些大牛陸續加入Seed團隊,他們給字節帶來了一套完整的多模態研發體系。

但字節在數學推理、代碼智能和agent這三個方向上,始終沒能建立起明顯優勢。

Seed 2.0在AIME、HMMT、IMOAnswerBench這些競賽型題目上很猛,很多分數已經站在了全球的第一梯隊。


但是如果往科學推理和開放知識任務上看,你會發現有很多問題。

Seed 2.0在GPQA Diamond上落后于GPT-5.2和Gemini 3 Pro,在SuperGPQA上也低于Gemini 3 Pro和Claude Opus 4.5。

更明顯的是SimpleQA Verified和FactScore這類事實準確性指標,Seed 2.0和Google、OpenAI、Anthropic這些企業的高端模型還有不小距離。

這說明它的競賽解題能力已經很強,但知識穩健性、科學問題里的長鏈條判斷、以及“知道自己不知道什么”的能力,還差點火候。

再看AI編程。

Seed 2.0在Codeforces和LiveCodeBench v6上表現很強,說明算法題和在線編程能力不差。但在SWE-Bench Verified上,它低于Claude Opus 4.5和GPT-5.2。Claude Opus 4.5最高得分80.9%,GPT-5.2 得分80.0%,而Seed 2.0 Pro在這個基準的第三方實測成績僅為76.5%,甚至還沒有入榜單前10。

在Terminal Bench 2.0上,它也落后于GPT-5.2和Claude Opus 4.5。

在Multi-SWE-Bench、SWE-Bench Pro、SWE-Evo、Aider Polyglot這些更接近真實軟件工程和長期維護的指標上,Seed 2.0的排名都不高。

這些真實環境的測試很重要。尤其是對于Trae這種AI+IDE的產品來說,能在這些測試里跑出高分,代表你的產品能在復雜項目里不犯錯,并且還具備回滾、驗證、解釋的能力。

最后就是agent。

其實字節不是沒有Agent能力,甚至是說Seed 2.0的搜索、使用工具、視覺agent,它都跑出了不錯的成績。

它在BrowseComp、BrowseComp-zh、DeepSearchQA上表現突出,說明Seed 2.0的搜索、瀏覽和整理信息能力已經非??梢粤恕?/p>

但是,但一旦換成MCP-Mark、VitaBench、SWE-Evo、SWE-Bench Pro這類考驗模型長期執行、多工具組合、真實終端操作、復雜軟件工程能力的基準,Seed 2.0的表現就不太行了。

這其實也正是agent最難做的地方,你得連續地去理解目標、拆解任務、調用工具、寫代碼、驗證結果、在失敗后修正路線。

可問題就是,它不容易發掘。如果說是多模態上的問題,把狗畫成了貓,一眼你就能看出來。agent不一樣,它是藏在那些又繁瑣又無聊的步驟里的。

就拿SWE-Bench Verified來說。這個測試是把真實GitHub項目里的issue交給模型,讓它讀倉庫、定位相關文件、修改代碼,再用項目原有測試判斷補丁能不能通過。

這里沒有哪一步是炫技,全是工程里的臟活累活。

模型如果一開始理解錯issue,后面改得越多越偏。如果找對了文件卻漏了一個邊界條件,測試照樣過不了。如果只修當前報錯,又引入新的回歸,最后也算失敗。

agent的難點就在這里,中間你只要錯一步,整個任務就會塌。

那數學和代碼能力為啥也很重要呢?

因為它們是agent的骨架。

數學推理提供的是長鏈路上的自洽能力,代碼能力提供的是把想法變成可執行動作的能力。

所以郭達雅的加入,補的是底層能力。

字節已有眼睛,有入口,有場景,有算力和工程組織。它欠缺的,是一個能把代碼智能、數學推理、強化學習后訓練和Agent執行連成一條線的人。

02 郭達雅最擅長的,不只是寫代碼

郭達雅容易被外界用“代碼大模型專家”來概括,這個說法沒錯,但有點窄。

他的研究總結就是一句話:讓模型理解代碼也有語法,有數據流,有調用關系,有上下文,還有可以被執行和驗證的結果。

郭達雅在DeepSeek的兩年多時間里,參與了從Coder、Math等專項模型,到V2、V3、R1的完整研發鏈條,而且都是核心作者。這個履歷的含金量不在于項目數量,而在于他參與的是一條完整的技術演進路線。


2024年1月,郭達雅作為第一作者推出DeepSeek-Coder系列,覆蓋1.3B到33B參數的開源代碼模型。這個系列在多項基準測試中登頂當時開源代碼模型SOTA,不僅能理解復雜代碼邏輯,還能高效生成高質量代碼。

但DeepSeek-Coder的價值不止于此。它為DeepSeek在代碼領域站穩腳跟奠定了基礎,更重要的是,它驗證了一套從數據構建、模型訓練到能力評估的完整方法論。

一個月后,郭達雅主導了DeepSeek-Math的研發。這個項目以DeepSeek-Coder-Base-v1.5 7B為基礎,針對數學能力進行繼續訓練,額外使用了120B數學相關token。

但真正關鍵的是DeepSeek-Math論文中提出的GRPO算法,讓模型對同一問題生成多個答案并相互比較學習,大幅降低了訓練成本。

GRPO后來被應用到DeepSeek-R1的訓練中,成為R1推理能力飛躍的核心技術,因此讓DeepSeek-R1的訓練成本低至僅29.4萬美元。

從DeepSeek-Coder到DeepSeek-Math,再到R1,郭達雅做的是一套可以遷移、可以復用的技術體系。這個模型可以用,拿出來優化優化,到下一個模型效果更好。

代碼能力可以遷移到數學推理,數學推理的訓練方法可以遷移到通用推理。這種技術遷移能力,正是字節目前最需要的。

郭達雅加入字節后,擔任的是Seed agent的方向負責人之一。這其實也是郭達雅從博士期間就開始研究的方向。他在DeepSeek 期間積累的經驗,可以直接應用到字節的agent研發中。

字節在2026年初啟動了針對agent和Coding的組織整合。

但它又不是那種單純的團隊合并,字節是準備去建立一套新的研發體系。郭達雅的加入,為這個體系提供了技術基礎。

他可以把在DeepSeek積累的代碼預訓練、數學推理、強化學習這些技術,系統性地應用到字節的agent研發中。

郭達雅的技術路線與字節的業務需求高度匹配。字節的下一代模型重點就是agent能力的優化。

郭達雅從博士時期的CodeBERT開始,到DeepSeek-Coder,再到參與V2、V3、R1的研發,這條技術路線完整覆蓋了從代碼理解到推理能力的全鏈路。這正是字節需要的。

更重要的是,他帶來的不只是技術,還有一套完整的方法論。

GRPO這個方法的核心思想是讓模型自己學會判斷答案的好壞,而不是依賴人工標注。到了后來的DeepSeek-R1里,不需要人工標注的推理軌跡,僅通過純強化學習也能有效激發大模型的推理能力,并自然涌現出自反思、驗證、動態策略調整等行為模式。

這套方法論對字節的價值在于,它可以降低對高質量標注數據的依賴,可以讓模型在訓練過程中自己發現規律。

前面我已經說過了,agent是在跑的時候任何一個環節都不能出錯,處理的任務往往是開放式的,很難通過人工標注來覆蓋所有情況。

如果能讓模型自己學會判斷任務完成的好壞,自己學會調整策略,那agent的能力上限就會大幅提升。

郭達雅離開DeepSeek的一個原因是他很看好agent方向,不過當時在DeepSeek內部agent的優先級不高。這才導致他最終選擇了字節。

字節則非??粗豠gent方向,愿意投入資源,給了郭達雅足夠的施展空間。

03 未來可能出現的產品,不會只是一款更聰明的豆包

郭達雅加入字節后,最直接的影響會體現在豆包的代碼能力上。

字節現在已經有了Trae這個AI原生IDE,也有豆包Code模型,但這些產品的底層能力還不夠強。

參考DeepSeek-Coder的性能提升方法,字節很可能會推出一個專門針對代碼優化的豆包Coder模型。這個模型不會是簡單的參數堆疊,而會在代碼理解和生成的深度上做文章。

郭達雅在CodeBERT和GraphCodeBERT中提出的雙模態預訓練和數據流結構建模,可以直接應用到豆包Coder的訓練中。

火山方舟推出了Coding Plan訂閱套餐,支持豆包、DeepSeek和Kimi等多個模型,采用Anthropic原生協議,配置簡單。

不過目前來看,火山方舟更多的是在做模型接入和工程優化,走的是多模型聚合+工程化優化的路子,還沒有形成自己的技術壁壘。

火山的套餐里有一個Auto模式,就是說你發起一個編程任務后,它會根據任務類型、響應速度、模型效果、成本等因素,自動路由到更合適的模型。

這個能力本身有用,但還偏工程優化。它知道哪個模型適合當前任務,卻不一定能把這個判斷沉淀成模型能力。

郭達雅加入后,它能把Auto模式產生的大量真實開發任務,反過來變成Doubao-Seed-Code的訓練燃料。

比如某類前端重構任務DeepSeek更穩,某類測試修復Kimi更好,某類終端任務豆包失敗率高。

平臺如果能記錄任務類型、模型選擇、補丁是否通過測試、用戶是否采納、失敗原因在哪里,就能形成一個很稀缺的代碼Agent數據閉環。

郭達雅擅長的可驗證任務,正好可以把這些反饋變成后訓練系統。

這樣一來,火山方舟的壁壘就變了。

它把外部模型接進來,然后在真實開發場景里持續觀察模型、比較模型、訓練模型。

別人的多模型聚合,停在分發層;字節的多模型聚合,有機會長出一個自我進化的代碼模型。

還有一點,由于火山目前的Coding Plan的定義是面向個人開發者的輕量AI編程訂閱服務。所以郭達雅完全有機會帶領字節開發出一個企業版的Coding Plan。

但是企業和個人對AI編程的需求差距大很多。

企業要的是舊系統維護、代碼遷移、測試補齊、安全修復和內部工具開發?;鹕椒街劭梢酝瞥鲆粋€類似“代碼庫醫生”的agent產品。

agent接入企業代碼倉庫后,自動掃描依賴、識別壞味道、補單測、修漏洞、做版本升級,最后生成可審查的PR。

針對大型代碼庫的長期理解、測試反饋的迭代利用、企業權限與數據安全的合規處理,正是郭達雅的技術強項,他完全可以打造出一款能長期維護項目的工程化agent。

同時,字節在視頻生成上的優勢,也可以和代碼能力結合。

一個可能的方向是視頻內容的程序化生成,就像世界模型一樣。用戶描述想要的視頻效果,AI生成一段可以控制Seedance的代碼。

這段代碼可以精確控制鏡頭運動、場景切換、音畫同步等參數。這種程序化的方式,可以讓視頻生成更加可控,也更容易迭代優化。

數學推理能力的提升,會讓豆包在需要精確計算和邏輯推理的場景中表現更好。

字節還可以推出一個專門針對科研和工程場景的豆包版本,就像OpenAI的Prism一樣,支持復雜的數學建模、數據分析、算法設計等任務。

這個版本可以集成形式化證明能力,確保推理過程的嚴格性。這對于金融、醫療、工業等對可靠性要求高的行業非常重要。

郭達雅的加入,不是簡單的人才引進,他體現出來的是字節在AI戰略上的調整。字節在多模態上已經做到了全球領先,現在需要在代碼智能和agent上建立同樣的優勢。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
機關事業單位“緊日子”來臨,2026年起,這些費用一律不再報銷

機關事業單位“緊日子”來臨,2026年起,這些費用一律不再報銷

復轉這些年
2026-04-19 19:13:36
現場開炮!波蘭議員當眾嘲諷以色列:看好了,你們國旗長這樣才對

現場開炮!波蘭議員當眾嘲諷以色列:看好了,你們國旗長這樣才對

諦聽骨語本尊
2026-04-15 18:13:09
美媒:預計美伊將共同宣布延長?;穑粽勁许樌?,特朗普將同伊朗總統會談,兩人還可能簽署“伊斯蘭堡宣言”;伊朗:已為戰火重燃做好準備

美媒:預計美伊將共同宣布延長停火,若談判順利,特朗普將同伊朗總統會談,兩人還可能簽署“伊斯蘭堡宣言”;伊朗:已為戰火重燃做好準備

魯中晨報
2026-04-20 09:44:03
日本突襲28萬億市場易主,中國被踢出局,高市早苗亮出三張底牌

日本突襲28萬億市場易主,中國被踢出局,高市早苗亮出三張底牌

樂界品鑒官
2026-04-20 10:28:46
善惡有報!許家印剛認罪1天,子女近況曝光,大兒子的安排全白費

善惡有報!許家印剛認罪1天,子女近況曝光,大兒子的安排全白費

來科點譜
2026-04-20 07:14:44
“小辣椒”奧斯卡走光全網群嘲!被批“為賣貨不擇手段”

“小辣椒”奧斯卡走光全網群嘲!被批“為賣貨不擇手段”

TVB的四小花
2026-04-19 17:35:22
你來一艘,我直接去一個編隊!中國海軍133艦隊直插日本咽喉水道

你來一艘,我直接去一個編隊!中國海軍133艦隊直插日本咽喉水道

聞識
2026-04-20 09:10:20
又被球迷挑釁喊梅西!41歲C羅暴怒 比劃3的手勢:你們都給我閉嘴

又被球迷挑釁喊梅西!41歲C羅暴怒 比劃3的手勢:你們都給我閉嘴

風過鄉
2026-04-20 09:35:18
太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

橙星文娛
2026-04-17 13:19:56
超模般存在!文班35+5馬刺開門紅:楊瀚森登場52.8秒!

超模般存在!文班35+5馬刺開門紅:楊瀚森登場52.8秒!

運籌帷幄的籃球
2026-04-20 10:45:47
蘇林坐火車回到河內,河內火車站鋪了紅毯,迎接人員站一排

蘇林坐火車回到河內,河內火車站鋪了紅毯,迎接人員站一排

星星會墜落
2026-04-19 17:08:00
就在剛才!特朗普深夜攤牌:不再做好好先生,不聽話就炸平電廠

就在剛才!特朗普深夜攤牌:不再做好好先生,不聽話就炸平電廠

悅心知足
2026-04-20 10:14:26
周定洋跑死也白跑!嚴鼎皓無效運動,古斯塔沃“跑路榜”第一

周定洋跑死也白跑!嚴鼎皓無效運動,古斯塔沃“跑路榜”第一

刀鋒體育
2026-04-20 08:54:42
深大一口氣停招26個專業,這些“坑”你還在踩嗎?

深大一口氣停招26個專業,這些“坑”你還在踩嗎?

牛鍋巴小釩
2026-04-17 13:18:03
韋東奕終于升了!七年講師熬出頭,評審會開到院長臉通紅

韋東奕終于升了!七年講師熬出頭,評審會開到院長臉通紅

娛小余
2026-04-03 22:52:32
進去就沒命!四川黃泉路有去無回,政府封禁400年,至今無解!

進去就沒命!四川黃泉路有去無回,政府封禁400年,至今無解!

網絡易不易
2026-04-19 14:59:01
32分大勝,綠凱還創紀錄!塔圖姆25+11喬治創紀錄,布朗賽后攤牌

32分大勝,綠凱還創紀錄!塔圖姆25+11喬治創紀錄,布朗賽后攤牌

魚崖大話籃球
2026-04-20 06:19:59
眼角塌陷,滿臉疲態,都51歲中老年了還談戀愛?鐘漢良放過觀眾吧

眼角塌陷,滿臉疲態,都51歲中老年了還談戀愛?鐘漢良放過觀眾吧

得得電影
2026-04-19 11:42:40
基輔發生大規模槍擊事件,數十名平民死傷,兇手疑似與俄羅斯有關

基輔發生大規模槍擊事件,數十名平民死傷,兇手疑似與俄羅斯有關

鷹眼Defence
2026-04-19 12:11:43
朝鮮男人煙不離手,金正恩抽什么牌子的香煙?一包煙的價格是多少

朝鮮男人煙不離手,金正恩抽什么牌子的香煙?一包煙的價格是多少

番外行
2026-04-16 08:25:40
2026-04-20 12:16:50
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
132480文章數 862107關注度
往期回顧 全部

科技要聞

藍色起源一級火箭完美回收 客戶衛星未入軌

頭條要聞

男子收到陌生賬號轉賬8萬余元 3天后奢侈品牌商家找來

頭條要聞

男子收到陌生賬號轉賬8萬余元 3天后奢侈品牌商家找來

體育要聞

七大獎項候選官宣!文班或全票DPOY

娛樂要聞

鹿晗生日上熱搜,被關曉彤撕下體面

財經要聞

月之暗面IPO迷局

汽車要聞

外觀非常驚艷 全新一代寶馬6系有望回歸

態度原創

數碼
親子
本地
家居
公開課

數碼要聞

小米米家中央空調人感風風管機雙出風預售:超一級能效,8999元

親子要聞

普通家庭養娃補鈣,90% 家長都補錯了!

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

家居要聞

自然慢調 慢享時光

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版