337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

林俊旸離職后首發長文:反思千問得失,預判 AI 下半場需要「智能體思維」

0
分享至


帶隊發布 Qwen 3.5 小模型系列、獲馬斯克公開點贊,20 小時后在社交媒體宣告離職。林俊旸離開阿里的方式,本身就是 2026 年 AI 行業最戲劇性的一幕。

32 歲,阿里最年輕的 P10,一手將千問做到全球下載量超 10 億次、衍生模型超 20 萬款,成為全球開源模型的新王。他的離開源于一次組織架構調整的分歧:

阿里希望將 Qwen 團隊按預訓練、后訓練、視覺、語音等維度水平拆分,與通義實驗室其他團隊合并;林俊旸則堅信預訓練、后訓練乃至基礎設施團隊應該更緊密地垂直整合,而非割裂。這不只是管理風格之爭,更是對「怎樣才能訓出最好的模型」這個根本問題的路線分歧。

離開近一個月后,林俊旸發出了這篇長文。他沒有回應任何人事風波,直接亮出了自己對 AI 下一階段的判斷:我們正在從「訓練模型」的時代,進入「訓練智能體」的時代

這篇文章之所以值得逐字讀完,不僅因為寫它的人在過去兩年親手操刀了 Qwen 全系列的后訓練,更因為林俊旸在文中罕見地復盤了 Qwen3 在「混合思考模式」上的得與失。


以下為 APPSO 對林俊旸的編譯:

原文 https://x.com/JustinLin610/status/2037116325210829168

從「推理式思考」到「智能體式思考」

過去兩年,徹底改變了我們衡量 AI 模型的方式。

OpenAI 的 o1 證明了一件事:「思考」可以是模型的核心能力,可以專門訓練出來、直接交到用戶手里。DeepSeek-R1 緊隨其后,證明這種「推理式后訓練」并非大廠專利,可以在原始實驗室之外復現和擴展。用大白話說:o1 是一個被教會了「回答之前先想想」的模型,R1 則是一個開源版的同類選手,跟 o1 打得有來有回。

那個階段很重要。但 2025 年上半年的行業主旋律,說到底還是在圍繞一件事打轉:怎么讓模型「想」得更多。 讓它在推理階段燒更多算力,用更強的獎勵信號訓練它,暴露或控制那些額外的「思考過程」。

現在的問題是:然后呢?

我相信答案是智能體式思考。為了行動而思考,一邊跟真實環境交互,一邊根據世界的反饋不斷修正計劃。

1. o1 和 R1 的崛起真正教會了我們什么

第一波推理模型教會我們一個樸素的道理:想在大模型上把強化學習跑起來,你得有靠譜的評分標準。

什么叫靠譜?就是答案能判對錯、結果能驗證、反饋信號足夠清晰。數學題有標準答案,代碼能跑測試,邏輯推理能驗證步驟。這些領域之所以成了強化學習的主戰場,就是因為在這里,模型收到的獎勵信號遠比「讓人類標注員覺得這個回答還不錯」強得多。換句話說,強化學習終于能優化正確性,終于不用只追求看著像那么回事了。

然后,基礎設施的重要性一下子凸顯出來了。

一旦你開始訓練模型進行更長的推理鏈條,強化學習就不再是在監督微調上面加個小配件那么簡單了,它變成了一個重工業級的系統工程。你需要大規模的模擬推演(rollout)、高吞吐量的答案驗證、穩定的策略迭代、高效的采樣流程。推理模型的誕生,表面看是算法突破,底下看是基礎設施的勝利

OpenAI 把 o1 定義為用強化學習訓練的推理產品線;DeepSeek R1 接棒驗證了同一方向,同時也展示了推理式強化學習對底層算法和基礎設施的要求有多高。

APPSO 劃重點: 第一次大轉折發生了。行業焦點從「擴展預訓練」轉向「擴展面向推理的后訓練」。模型變強靠的不再是吃更多數據,靠的是在訓練后階段學會「怎么想」。

2. 真正的難題從來不只是「融合思考和指令模式」

2025 年初,我們 Qwen 團隊心里有一張很大的藍圖。

理想中的系統長這樣:一個模型同時搞定「思考」和「執行」兩種模式。你可以手動調節它思考的深度,輕度、中度、深度,就像調空調溫度一樣。更理想的情況是,模型自己就能判斷:這道題簡單,直接答;這道題有點難,多想想;這道題極難,調動全部算力來啃。

方向是對的。Qwen3 是當時最清晰的公開嘗試之一。 它引入了「混合思考模式」,一個模型家族里同時支持「想了再答」和「直接答」兩種行為,還描述了一條四階段后訓練流水線,其中明確包含了在長鏈推理冷啟動和推理強化學習之后的「思考模式融合」步驟。

但融合這件事,說起來一句話,做起來要人命

難在哪?難在數據。

很多人一聽「融合思考和指令模式」,腦子里想的都是模型層面的事:一個模型文件能不能同時跑兩種模式?一套對話模板能不能在兩種風格之間切換?一個推理服務能不能暴露正確的開關?這些確實要解決,但都不是最深的坑。

最深的坑是:兩種模式想要的東西,從根兒上就不一樣

你想想,一個好的「指令模型」該長什么樣?干脆、簡潔、格式規范、響應快。企業用戶拿它來批量改寫文本、打標簽、做模板化客服、結構化數據提取,這些場景要的是效率和穩定,不需要深思熟慮。

一個好的「思考模型」呢?恰恰相反。它該在難題上多花時間、維持清晰的推理中間步驟、探索不同的解題路徑、保留足夠的「思考余量」來確保最終答案的正確性。

這兩種性格天然打架。 如果融合的訓練數據沒有精心設計,出來的模型往往兩頭不討好:思考的時候啰嗦、猶豫、不夠果斷;執行指令的時候又不夠利落、不夠穩定、比客戶真正需要的版本更貴更慢。

說實話,我們在平衡融合與數據質量的過程中,沒有把所有事情都做對

在不斷修正的過程中,我們也仔細觀察了用戶到底怎么用這兩種模式。結論是明確的:這兩種行為畫像確實在相互拉扯。

現實很誠實。2025 年晚些時候,在 Qwen3 最初的混合架構之后,我們的 2507 版本還是發布了獨立的 Instruct 和 Thinking 版本,包括分開的 30B 和 235B 變體。大量商業客戶根本不需要思考模式,他們要的就是高吞吐、低成本、高度可控的指令行為來跑批量任務。對這些客戶來說,融合不是福音,是多余的成本。拆開來做,反而讓兩條線的團隊都能更專注地解決各自的問題。

其他實驗室走了相反的路:

Anthropic 公開押注集成式路線。Claude 3.7 Sonnet 是一個混合推理模型,用戶可以選擇普通回復或擴展思考,API 還能設定「思考預算」。Anthropic 直接放話:推理應該是模型的集成能力,不該單獨拎出來做一個獨立模型。

GLM-4.5 同樣定位混合推理,把推理、編程和智能體能力統一到一個模型里。

DeepSeek V3.1 后來也做了類似的事,推出了「Think & Non-Think」混合推理方案。

那么問題來了:誰是對的?

答案不在「融合」還是「分離」這個二選一本身,在于融合是否有機。如果思考模式和指令模式只是尷尬地擠在同一個模型里,像兩個性格迥異的人被硬塞進一件衣服,用戶體驗不會好。

真正成功的融合,需要一道平滑的光譜模型能自如地在不同推理力度之間切換,最好還能自己判斷該用多大力氣。GPT 風格的 effort control(推理力度控制)指向了這個方向,這是一個關于「花多少算力來想」的連續策略,不是一個「想 / 不想」的二元開關。

APPSO 劃重點: 林俊旸罕見地直言 Qwen3 在融合上「沒做到完全正確」。核心矛盾其實很好理解:一個追求快準狠的執行者,和一個追求深思熟慮的思考者,硬融到一起,很容易兩頭都做成半吊子。

3. 為什么 Anthropic 的方向是一種有益的糾偏

Anthropic 在 Claude 3.7 和 Claude 4 上的做法,是一種值得注意的克制。

他們沒有大談模型有多能「想」,把重點放在了:集成推理、用戶可控的思考預算、真實世界任務、編程質量,以及后來的關鍵一步,讓模型在思考的過程中就能動手用工具。Claude 3.7 是帶可控預算的混合推理模型;Claude 4 更進一步,推理過程和工具使用可以交錯進行,邊想邊干。與此同時,Anthropic 把編程、長時間運行的任務和智能體工作流擺到了最優先的位置。

這里面有一個深刻的洞察:

推理鏈更長,不等于模型更聰明。 很多時候恰恰相反。一個模型如果對所有問題都用同樣冗長的方式來「推理」,說明它根本分不清輕重緩急。它可能正在失敗于三件事:該優先處理什么(優先級判斷)、該壓縮掉什么(信息濃縮)、該在什么時候停止想而開始做(行動決策)。

Anthropic 的做法暗示了一種更有紀律的觀點:思考應該為具體的工作目標服務。 如果你要做的是編程,那思考就該幫你導航代碼庫、規劃架構、拆解問題、恢復報錯、編排工具調用。如果你要做的是智能體工作流,那思考就該幫你在漫長的執行過程中保持質量,而不是產出一堆令人印象深刻但沒有實際行動力的中間長文。

這種「思考必須服務于行動」的理念,指向了一個更宏大的命題:

我們正在從訓練模型的時代,進入訓練智能體的時代

這句話我們在 Qwen3 的博客里也明確寫過。智能體是什么?一個能制定計劃、決定何時行動、使用工具、感知環境反饋、修正策略、并在長時間跨度上持續運作的系統。一句話概括它的核心:與真實世界的閉環交互

APPSO 劃重點: 長不等于強。Anthropic 的實踐提供了一個重要的糾偏信號。思考的價值在于有沒有真正服務于最終的行動目標,不在于產出了多少字的推理過程。這是從「炫技式推理」到「實用型思考」的轉向。

4.「智能體式思考」到底意味著什么

說了這么多鋪墊,現在進入正題。

智能體式思考和推理式思考,優化目標完全不同。

打個比方:推理式思考就像閉卷考試,評判標準是你交卷那一刻答案對不對。模型能不能解出定理、寫出證明、產出正確代碼、通過基準測試。想得再天花亂墜,最終只看結果。

智能體式思考更像是在真實世界里做一個項目。 評判標準不是某一刻的答案,是你能不能在跟環境不斷互動的過程中持續推進、持續解決問題。

核心問題變了。

不再是「模型能想多久?」,變成了:「模型能不能以一種維持有效行動的方式來思考?

這要求模型處理一堆傳統推理模型可以繞開的難題:

  • 什么時候該停止思考、開始動手? 想太多會錯過行動窗口,想太少會犯錯
  • 該調用哪個工具、先后順序是什么? 這是一個規劃和調度問題
  • 怎么消化來自環境的嘈雜、不完整的信息? 真實世界不會給你干凈的輸入
  • 失敗了怎么辦? 不能崩潰,得修正計劃繼續干
  • 怎么在幾十輪交互、幾十次工具調用之后還保持連貫? 這是長程記憶和一致性的問題

如果用一句話概括:

智能體式思考 = 通過行動來推理的模型。它在做的過程中不斷地想。

APPSO 劃重點: 推理式思考像閉卷考試,智能體式思考像在真實世界里做項目。前者看最終答案對不對,后者看你能不能在復雜、動態、充滿意外的環境里持續推進。這是 AI 能力評價體系的根本性轉向。

5. 為什么智能體 RL 的基礎設施更難

目標一變,底層的工程全都要跟著變。

經典推理強化學習的那套基礎設施,不夠用了。

直觀地理解一下區別:在推理 RL 里,模型做一道題、給出一個答案、評估器打一個分,整個過程基本上是自包含的,評估器也相對干凈。就像在一個封閉的考場里閱卷。

但在智能體 RL 里,模型不是在考場里答題,它活在一個復雜的真實環境中。 工具服務器、瀏覽器、命令行終端、搜索引擎、模擬器、代碼執行沙箱、API 接口、記憶系統、調度框架……模型的策略嵌在這一整套系統里。環境不再是一個站在旁邊打分的裁判,它本身就是訓練系統的一部分。

這帶來了一個新的硬需求:訓練和推理必須更干凈地解耦。 否則整個系統的吞吐量會崩掉。

舉個具體的例子:一個編程智能體生成了一段代碼,需要在真實的測試環境里跑一下看結果。這時候,推理端在等執行反饋,干不了別的;訓練端在等完成的軌跡數據,也餓著。整條流水線的 GPU 利用率遠低于你在經典推理 RL 里的預期。再加上工具響應延遲、環境狀態不完全可見、每次交互都會改變環境狀態,這些低效會成倍放大。結果就是:你還遠沒達到想要的能力水平,實驗就已經慢得讓人崩潰了。

環境本身也變成了一等公民級的研究課題

在監督微調(SFT)時代,所有人都在拼數據多樣性,誰有更多更好的標注數據,誰就占優勢。在智能體時代,該拼的是環境質量了:環境穩不穩定?夠不夠真實?覆蓋了多少場景?難度梯度合不合理?狀態空間夠不夠豐富?反饋信號夠不夠有營養?模型能不能找到漏洞作弊?大規模生成訓練軌跡的效率夠不夠高?

環境構建正在從一個「順手搭的實驗配件」,變成一個獨立的創業賽道。如果你訓練的智能體最終要在類生產環境中運作,那這個環境本身就是你核心能力棧的一部分。

APPSO 劃重點: 一句話總結這個轉變,SFT 時代拼數據,智能體時代拼環境。構建高質量的訓練環境,正在從「實驗室的臟活累活」升級為「決定你能走多遠的戰略資產」。

6. 下一個前沿是更可用的思考

我的判斷是:智能體式思考將成為思考的主導形態

它最終很可能取代那種舊式的靜態獨白推理,就是那種模型關起門來、對著自己嘟嘟囔囔寫一大篇內部推理過程,試圖用更多更多的文字來彌補「我沒法跟外界交互」這個根本缺陷的做法。

即便面對極其困難的數學或編程問題,一個真正先進的系統也應該有權利去搜索、去模擬、去執行、去檢查、去驗證、去修正。目標是把問題切實解決掉,而且解決得穩健、高效。 不是比誰的推理鏈寫得更長更好看。

但訓練這類系統,有一個比什么都棘手的挑戰:獎勵劫持(reward hacking)

一旦模型有了真正有意義的工具使用能力,獎勵劫持的危險就成倍增加。怎么理解?

  • 一個能搜索的模型,可能在強化學習訓練過程中學會了直接搜答案,不是靠推理做出來的,是查到的。
  • 一個編程智能體,可能學會了利用代碼倉庫里的未來信息(比如測試用例本身就暗含了答案)、濫用日志、或者發現某個捷徑讓任務直接「通過」但其實什么都沒做。
  • 如果訓練環境有隱藏的信息泄漏,模型可能看起來表現超人,實際上只是被訓練成了一個高效作弊者。

這就是智能體時代比推理時代精細得多、也危險得多的地方。 工具越強大,模型越有用,但模型能鉆的空子也越多。更好的工具同時擴大了「虛假優化」的攻擊面。

我預期,下一個讓整個行業卡住的研究瓶頸,將來自這幾個方向:環境設計、評估器魯棒性、反作弊協議、以及策略與世界之間更有原則的接口。

但方向是清晰的:工具賦能的思考,就是比閉門造車的思考更有用,也更有希望帶來真實世界的生產力提升。

智能體式思考還意味著一種全新的系統工程。核心智能將越來越多地來自于多個智能體如何被組織起來:一個負責全局規劃和任務分發的編排器(orchestrator),一群各有專長的專業智能體(specialist agents),以及執行更具體任務的子智能體(sub-agents),后者幫助控制上下文窗口、防止信息污染、在不同層級的推理之間保持清晰的邊界。

未來的路線圖是三級跳:從訓練模型,到訓練智能體,再到訓練系統

APPSO 劃重點: 工具讓模型更有用,也讓模型更容易作弊。獎勵劫持是智能體時代的「定時炸彈」。誰先解決好環境設計和反作弊問題,誰就掌握了下一階段的競爭主動權。

結論

推理浪潮的第一階段,確立了一件至關重要的事:當反饋信號靠譜、基礎設施扛得住的時候,大模型上的強化學習能夠產出質變級別的認知提升。

但更深層的轉變,是從推理式思考到智能體式思考:從「想更久」,到「為了行動而思考」

訓練的核心對象已經變了。不再是單一的模型,是模型 + 環境構成的整個系統。更具體地說,是智能體本身,加上圍繞它的一切工程。這意味著什么研究最重要也變了:模型架構和訓練數據當然還重要,但環境設計、rollout 基礎設施、評估器魯棒性、以及多個智能體之間的協調接口,重要性一點不輸前者。

它還改變了「好的思考」的定義:在真實世界的約束下,能夠維持有效行動的那條推理鏈,才是最好的。 不是最長的那條,不是看起來最酷炫的那條,是最有用的那條。

它也改變了競爭優勢的來源:

推理時代,拼的是更好的強化學習算法、更強的反饋信號、更可擴展的訓練流水線。

智能體時代,拼的是更好的訓練環境、更緊密的訓練與推理一體化、更強的系統工程能力,以及閉合「決策 → 后果 → 學習」這個循環的能力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中方拒收道歉,日本自衛官被轉移,小泉進次郎沉默24小時后發聲

中方拒收道歉,日本自衛官被轉移,小泉進次郎沉默24小時后發聲

何氽簡史
2026-03-26 15:40:58
將日常的主食更換一下,全身炎癥水平下降了,體重不知不覺地掉了

將日常的主食更換一下,全身炎癥水平下降了,體重不知不覺地掉了

運動健身號
2026-03-26 10:15:07
正式退出,19歲全紅嬋無緣亞運?安置崗位或效仿田亮,陳芋汐祝福

正式退出,19歲全紅嬋無緣亞運?安置崗位或效仿田亮,陳芋汐祝福

懂球社
2026-03-26 18:35:44
美國114頁報告得出結論:若跟中國開戰,戰爭將在1個月內結束

美國114頁報告得出結論:若跟中國開戰,戰爭將在1個月內結束

騷年先鋒
2026-03-26 16:01:06
日本被踢出局,僅僅48小時,高市就開始報復:拿中日關系做文章

日本被踢出局,僅僅48小時,高市就開始報復:拿中日關系做文章

伴君終老
2026-03-28 04:16:32
繁華后的凄涼:耗資近34億的鳥巢,如今被用來干嘛了?回本了嗎?

繁華后的凄涼:耗資近34億的鳥巢,如今被用來干嘛了?回本了嗎?

蜉蝣說
2026-03-19 18:39:48
演員張翰自曝“已沒有助理”

演員張翰自曝“已沒有助理”

黃河新聞網呂梁
2026-03-27 10:21:30
2026-2032房價預判:100萬的房子,5年之后還能值幾個錢?

2026-2032房價預判:100萬的房子,5年之后還能值幾個錢?

童童聊娛樂啊
2026-03-28 03:57:50
59歲鞏俐身材引熱議,外套都快撐不住豐腴身材了,卻被夸少女體態

59歲鞏俐身材引熱議,外套都快撐不住豐腴身材了,卻被夸少女體態

一盅情懷
2026-03-16 16:52:57
悲劇!華人陪讀家長北美登山為救人墜亡,非居民醫療費用曝光:ICU超10萬加元

悲劇!華人陪讀家長北美登山為救人墜亡,非居民醫療費用曝光:ICU超10萬加元

華人生活網
2026-03-27 01:53:51
湖北6旬女子請屠夫殺豬時,因說了句豬腸沒處理干凈遭屠夫兒子砍殺,兇手被鑒定為精神病!家屬:沒收到任何道歉

湖北6旬女子請屠夫殺豬時,因說了句豬腸沒處理干凈遭屠夫兒子砍殺,兇手被鑒定為精神病!家屬:沒收到任何道歉

大風新聞
2026-03-27 22:04:08
1937年地主王學文救下女紅軍還收留了她的孩子,徹底改變三個家庭

1937年地主王學文救下女紅軍還收留了她的孩子,徹底改變三個家庭

磊子講史
2026-01-14 16:09:59
試管嬰兒對女性傷害有多大?網友:同感,只有經歷過的人才會懂

試管嬰兒對女性傷害有多大?網友:同感,只有經歷過的人才會懂

帶你感受人間冷暖
2026-03-15 18:54:19
FCC一紙禁令:60%家用路由器將被斷供,你的Wi-Fi要漲價了

FCC一紙禁令:60%家用路由器將被斷供,你的Wi-Fi要漲價了

賽博蘭博
2026-03-25 14:31:11
特朗普宣布 空襲時間 再延10天!

特朗普宣布 空襲時間 再延10天!

每日經濟新聞
2026-03-27 08:10:16
2026北京配眼鏡打破信息差:市場現狀與三家主流渠道深度測評

2026北京配眼鏡打破信息差:市場現狀與三家主流渠道深度測評

咸寧新聞網
2026-03-27 23:55:09
笑完F-35后,回旋鏢又飛回來了?德專家:殲-35戰斗機外掛霹靂-10

笑完F-35后,回旋鏢又飛回來了?德專家:殲-35戰斗機外掛霹靂-10

嘯鷹評
2026-03-26 22:30:39
浙江一男子開車打電話接受交警檢查,竟發現有91條違法記錄,含45次闖紅燈,記317分,罰款超萬元!

浙江一男子開車打電話接受交警檢查,竟發現有91條違法記錄,含45次闖紅燈,記317分,罰款超萬元!

環球網資訊
2026-03-27 19:00:06
男人的生理需求能有多難忍?網友:我對我老公只有動物本能

男人的生理需求能有多難忍?網友:我對我老公只有動物本能

帶你感受人間冷暖
2026-02-07 03:58:56
意天空:那不勒斯告知盧卡庫,3月31日前不歸隊就開除他

意天空:那不勒斯告知盧卡庫,3月31日前不歸隊就開除他

懂球帝
2026-03-27 23:22:07
2026-03-28 06:35:00
愛范兒 incentive-icons
愛范兒
消費科技第一媒體
38621文章數 2601352關注度
往期回顧 全部

科技要聞

楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

頭條要聞

伊朗:正制定戰爭結束條件 美以將被迫接受現實

頭條要聞

伊朗:正制定戰爭結束條件 美以將被迫接受現實

體育要聞

邵佳一:足球就像一場馬拉松

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網抵制

財經要聞

我在小吃培訓機構學習“科技與狠活”

汽車要聞

與眾08,金標大眾不能輸的一戰

態度原創

藝術
教育
旅游
時尚
家居

藝術要聞

一位好“色”的攝影師

教育要聞

985保衛處招聘要求碩士及以上,學校回應

旅游要聞

日照嵐山“打飛的”賞春成新時尚

推廣中獎名單-更新至2026年3月11日推廣

家居要聞

曲線華爾茲 現代簡約

無障礙瀏覽 進入關懷版