網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

用 10% GPU 跑通萬(wàn)億參數(shù) RL！馬驍騰拆解萬(wàn)億參數(shù)大模型的后訓(xùn)練實(shí)戰(zhàn)

2026-03-10 16:19:30　來(lái)源: CSDN

北京舉報(bào)

分享至

整理 | 夢(mèng)依丹

出品 | CSDN（ID：CSDNnews）

左手是提示詞的工程化約束，右手是 Context Learning 的自我進(jìn)化。

在 OpenAI 新發(fā)布的《Prompt guidance for GPT-5.4》中，反復(fù)提到了 Prompt Contracts（提示詞合約）。要求開(kāi)發(fā)者像編寫(xiě)代碼一樣，嚴(yán)謹(jǐn)?shù)囟x Agent 的輸入邊界、輸出格式與工具調(diào)用邏輯，進(jìn)而換取 AI 行為的確定性。

但在現(xiàn)實(shí)操作中，誰(shuí)又能日復(fù)一日地去維護(hù)那些冗長(zhǎng)、脆弱的“提示詞代碼”？

真正的 Agent，不應(yīng)只靠閱讀 Context Engineering，更應(yīng)該具備 Context Learning 的能力。

為此，在 4 月 17-18 日的 2026 奇點(diǎn)智能技術(shù)大會(huì)上，我們誠(chéng)邀 Macaron AI 首席科學(xué)家、Mind Lab Director 馬驍騰帶來(lái)一場(chǎng)直擊 Agent 進(jìn)化本質(zhì)的深度分享，讓 Agent 從“聽(tīng)指令”進(jìn)化到“漲經(jīng)驗(yàn)”。

馬驍騰是誰(shuí)？

提到馬驍騰，筆者腦海首先閃現(xiàn)的是強(qiáng)化學(xué)習(xí)、Agent、1500+……

作為清華大學(xué)自動(dòng)化系的博士、博士后，馬驍騰在產(chǎn)業(yè)界和學(xué)術(shù)界有著扎實(shí)的底蘊(yùn)。他在強(qiáng)化學(xué)習(xí)相關(guān)領(lǐng)域發(fā)表了 30 余篇頂會(huì)論文，谷歌學(xué)術(shù)引用超過(guò) 1500 次。

現(xiàn)在，他是 Macaron AI 首席科學(xué)家，也是 Mind Lab 的掌舵人。

他帶隊(duì)研發(fā)了面向萬(wàn)億參數(shù)模型的 LoRA-RL 訓(xùn)練底座—— MinT，成功實(shí)現(xiàn)了端到端的萬(wàn)億參數(shù)推理強(qiáng)化學(xué)習(xí)。

以萬(wàn)億參數(shù)模型（如 Kimi K2）為例，該系統(tǒng)所需的 GPU 數(shù)量?jī)H為傳統(tǒng)全參數(shù) RL 的約 10%。這徹底改變了大模型后訓(xùn)練的經(jīng)濟(jì)學(xué)，使 RL 能夠大規(guī)模落地到更多產(chǎn)品和團(tuán)隊(duì)中。（核心解讀：https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus）

從 Context Engineering 到 Context Learning：萬(wàn)億參數(shù)大模型的后訓(xùn)練實(shí)戰(zhàn)

在 2026 奇點(diǎn)智能技術(shù)大會(huì)上，馬驍騰將帶來(lái) 《邁向經(jīng)驗(yàn)智能：從 Context Engineering 到 Context Learning》的深度分享，直擊當(dāng)前 AI Agent 開(kāi)發(fā)與落地的核心痛點(diǎn)。

痛點(diǎn)：Prompt 工程的“邊際效應(yīng)遞減”

當(dāng)前的 Agent 開(kāi)發(fā)，陷入了一個(gè)“堆砌上下文”的怪圈。

為了讓 Agent 應(yīng)對(duì)動(dòng)態(tài)環(huán)境（比如操作一個(gè)不斷更新的 App 界面），工程師們不得不編寫(xiě)越來(lái)越長(zhǎng)、越來(lái)越復(fù)雜的 Prompt。但這帶來(lái)了兩個(gè)無(wú)法回避的問(wèn)題：

擴(kuò)展性受限：人工編排永遠(yuǎn)趕不上環(huán)境的變化速度；
經(jīng)驗(yàn)無(wú)法復(fù)用： Agent 每次任務(wù)都是“從零開(kāi)始”，上一次的成功或失敗經(jīng)驗(yàn)，無(wú)法沉淀為模型的能力。

解法：Context Learning（在交互中學(xué)習(xí)）

馬驍騰提出的 Context Learning，核心在于“經(jīng)驗(yàn)的內(nèi)化”。

通過(guò)強(qiáng)化學(xué)習(xí)，讓模型在真實(shí)的交互數(shù)據(jù)中自主試錯(cuò)、積累經(jīng)驗(yàn)，并將這些經(jīng)驗(yàn)刻進(jìn)模型參數(shù)里。

實(shí)戰(zhàn)干貨：MinT 底座與 Macaron AI 案例

為了證明這條路走得通，馬驍騰將在現(xiàn)場(chǎng)拆解 Mind Lab 的工程實(shí)踐：

MinT 面向萬(wàn)億參數(shù)模型的 LoRA-RL 訓(xùn)練底座：支撐高吞吐、低成本的強(qiáng)化學(xué)習(xí)快速迭代。并以 Macaron AI 模型訓(xùn)練為案例，展示如何利用 Context Learning 教會(huì)模型操作 Dynamic UI，將交互經(jīng)驗(yàn)沉淀為可復(fù)用的模型能力與訓(xùn)練管線。
Macaron AI 模型案例：用 Context Learning 訓(xùn)練 Dynamic UI 交互能力

對(duì)于參會(huì)者而言，這場(chǎng)分享的直接價(jià)值在于：

獲得可落地的 RL Infra 建設(shè)思路：了解如何搭建一個(gè)像 MinT 這樣，能夠支撐大模型低成本、高吞吐強(qiáng)化學(xué)習(xí)迭代的基礎(chǔ)設(shè)施；
將 Context Learning 從理念變?yōu)楣こ态F(xiàn)實(shí)的前提；
理解可靠性與適應(yīng)性的平衡術(shù)：明白在什么場(chǎng)景下仍需依賴 Context Engineering 確保可靠，又在什么場(chǎng)景下可以放手讓模型通過(guò) Context Learning 自主進(jìn)化，從而設(shè)計(jì)出更健壯、更靈活的 Agent 系統(tǒng)。

2026 奇點(diǎn)智能技術(shù)大會(huì)

馬驍騰的 Context Learning，只是 2026 奇點(diǎn)智能技術(shù)大會(huì)眾多硬核議題中的一環(huán)。

面對(duì)“未來(lái)沒(méi)有全棧，只有 Agent 工程師”的行業(yè)劇變，我們需要的不只是幾場(chǎng)演講，而是一份可被驗(yàn)證的、成體系的工程經(jīng)驗(yàn)。

4 月 17-18 日，由 CSDN 與奇點(diǎn)智能研究院聯(lián)合主辦的「2026 奇點(diǎn)智能技術(shù)大會(huì)」將在上海環(huán)球港凱悅酒店隆重召開(kāi)。

頂尖陣容：匯聚 50+ 位站在變革最前沿的技術(shù)領(lǐng)袖，來(lái)自微軟、BAT、京東、快手等一線大廠；
硬核議題：覆蓋 Agent 系統(tǒng)、世界模型、AI 原生研發(fā)、AI Infra 等 12 大前沿專題。

這里沒(méi)有空泛的預(yù)測(cè)，只有扎實(shí)的復(fù)盤(pán)與當(dāng)下的解法與前沿的探索。

與此同時(shí)，2026 奇點(diǎn)智能技術(shù)大會(huì)同步開(kāi)放多種合作形式：

技術(shù)生態(tài)合作伙伴
企業(yè)專場(chǎng)共建
行業(yè)解決方案聯(lián)合展示

我們期待與更多長(zhǎng)期主義者一起，為 AI 時(shí)代留下可被驗(yàn)證、可被復(fù)用的工程經(jīng)驗(yàn)。

「提前預(yù)約 2026 奇點(diǎn)智能技術(shù)大會(huì)全套 PPT 資料」

官方網(wǎng)站：www.ml-summit.org

購(gòu)票熱線：400-821-5876

購(gòu)票咨詢：service@boolan.com

企業(yè)合作：partner@boolan.com

演講申請(qǐng)：hemiao@csdn.net

媒體聯(lián)系：media@boolan.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.