3月26日晚間,前千問大模型技術(shù)負(fù)責(zé)人林俊旸在社交平臺(tái)發(fā)文,在從阿里離職后,他首度發(fā)布長(zhǎng)文詳談自己對(duì)大模型發(fā)展路線的理解及對(duì)AI下一階段的預(yù)判。
林俊旸表示,過去兩年重塑了行業(yè)對(duì)大模型的評(píng)估方式與核心期待。OpenAI的o1表明,"思考"可以成為一種被訓(xùn)練出來的能力。DeepSeek-R1緊隨其后,證明推理式的后訓(xùn)練可以在原始實(shí)驗(yàn)室之外被復(fù)現(xiàn)、被擴(kuò)展。這一階段至關(guān)重要。但2025年上半年,行業(yè)焦點(diǎn)主要停留在"推理式思考"本身:如何讓模型在推理的時(shí)候多想一會(huì)兒。現(xiàn)在該問下一步了。他的判斷是智能體式思考:為了行動(dòng)而思考,在與環(huán)境交互的過程中,并根據(jù)來自世界的反饋持續(xù)更新計(jì)劃。
![]()
前千問大模型技術(shù)負(fù)責(zé)人林俊旸
他提到,2025年初,千問團(tuán)隊(duì)有一個(gè)很大的野心:做一個(gè)統(tǒng)一的系統(tǒng),讓思考模式和指令模式合二為一,支持可調(diào)節(jié)的推理努力程度(類似于低/中/高推理設(shè)置),甚至能根據(jù)提示詞和上下文自動(dòng)推斷合適的推理量,讓模型自主決定何時(shí)直接回答、何時(shí)稍作思考、何時(shí)為真正困難的問題投入大量計(jì)算。概念上,這是正確的方向。但"合并"說起來容易,做好卻極難。
真正的難點(diǎn)在于數(shù)據(jù)。當(dāng)人們談?wù)摵喜⑺伎寂c指令時(shí),往往首先想到模型側(cè)的兼容性,更深層的問題是,兩種模式的數(shù)據(jù)分布和行為目標(biāo)存在顯著差異。在嘗試平衡模型合并與提升后訓(xùn)練數(shù)據(jù)質(zhì)量和多樣性的過程中,團(tuán)隊(duì)并未把所有事情都做對(duì),結(jié)果往往是在兩個(gè)方向上都表現(xiàn)平庸:"思考"行為變得嘈雜、冗余或不夠果斷,而"指令"行為則變得不夠清晰、不夠可靠,且比商業(yè)用戶實(shí)際想要的成本更高。
分開做在實(shí)踐中仍然有吸引力。2025年下半年,Qwen 的2507版本就發(fā)了獨(dú)立的 Instruct 和 Thinking 版本,30B 和235B 各一套。而他的最終思考是,真正成功的合并需要一個(gè)平滑的推理力度光譜,模型能自己判斷該花多少力氣去想。
“推理鏈更長(zhǎng),不等于模型更聰明。很多時(shí)候,推理鏈越長(zhǎng),反而說明模型在亂花算力。”林俊旸在文中表示,他提到,千問團(tuán)隊(duì)意識(shí)到,行業(yè)正在從訓(xùn)練模型的時(shí)代,走向訓(xùn)練智能體的時(shí)代,它的定義特征是跟真實(shí)世界的閉環(huán)交互。
智能體式思考和推理式思考,意味著不同的優(yōu)化目標(biāo),推理式思考通常以最終答案前的內(nèi)部思辨質(zhì)量來評(píng)判:模型能否解出定理、寫出證明、生成正確代碼或通過基準(zhǔn)測(cè)試。而智能體思維關(guān)注的是:模型能否在與環(huán)境交互的過程中持續(xù)取得進(jìn)展。
這意味著,核心問題從“模型能否思考得足夠久?”轉(zhuǎn)變?yōu)椤澳P湍懿荒苡靡环N撐得起有效行動(dòng)的方式來思考?”模型訓(xùn)練的核心對(duì)象也隨之變了,變成了模型加環(huán)境的整個(gè)系統(tǒng)。
在這之中,模型架構(gòu)和訓(xùn)練數(shù)據(jù)當(dāng)然還重要,但環(huán)境設(shè)計(jì)、rollout 基礎(chǔ)設(shè)施、評(píng)估器的穩(wěn)健程度、多個(gè) Agent 之間怎么協(xié)調(diào),這些都進(jìn)了核心圈。“好的思考”的定義也變了:在真實(shí)約束下最能撐起行動(dòng)的那條軌跡,而非最長(zhǎng)或最顯眼的那條。
林俊旸預(yù)測(cè),智能體式思考會(huì)成為主流。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.