337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

用 10% GPU 跑通萬(wàn)億參數(shù) RL!馬驍騰拆解萬(wàn)億參數(shù)大模型的后訓(xùn)練實(shí)戰(zhàn)

0
分享至


整理 | 夢(mèng)依丹

出品 | CSDN(ID:CSDNnews)

左手是提示詞的工程化約束,右手是 Context Learning 的自我進(jìn)化。

在 OpenAI 新發(fā)布的《Prompt guidance for GPT-5.4》中,反復(fù)提到了 Prompt Contracts(提示詞合約)。要求開(kāi)發(fā)者像編寫(xiě)代碼一樣,嚴(yán)謹(jǐn)?shù)囟x Agent 的輸入邊界、輸出格式與工具調(diào)用邏輯,進(jìn)而換取 AI 行為的確定性。

但在現(xiàn)實(shí)操作中,誰(shuí)又能日復(fù)一日地去維護(hù)那些冗長(zhǎng)、脆弱的“提示詞代碼”?

真正的 Agent,不應(yīng)只靠閱讀 Context Engineering,更應(yīng)該具備 Context Learning 的能力。

為此,在 4 月 17-18 日的 2026 奇點(diǎn)智能技術(shù)大會(huì)上,我們誠(chéng)邀 Macaron AI 首席科學(xué)家、Mind Lab Director 馬驍騰帶來(lái)一場(chǎng)直擊 Agent 進(jìn)化本質(zhì)的深度分享,讓 Agent 從“聽(tīng)指令”進(jìn)化到“漲經(jīng)驗(yàn)”。


馬驍騰是誰(shuí)?

提到馬驍騰,筆者腦海首先閃現(xiàn)的是強(qiáng)化學(xué)習(xí)、Agent、1500+……

作為清華大學(xué)自動(dòng)化系的博士、博士后,馬驍騰在產(chǎn)業(yè)界和學(xué)術(shù)界有著扎實(shí)的底蘊(yùn)。他在強(qiáng)化學(xué)習(xí)相關(guān)領(lǐng)域發(fā)表了 30 余篇頂會(huì)論文,谷歌學(xué)術(shù)引用超過(guò) 1500 次。

現(xiàn)在,他是 Macaron AI 首席科學(xué)家,也是 Mind Lab 的掌舵人。

他帶隊(duì)研發(fā)了面向萬(wàn)億參數(shù)模型的 LoRA-RL 訓(xùn)練底座—— MinT,成功實(shí)現(xiàn)了端到端的萬(wàn)億參數(shù)推理強(qiáng)化學(xué)習(xí)。

以萬(wàn)億參數(shù)模型(如 Kimi K2)為例,該系統(tǒng)所需的 GPU 數(shù)量?jī)H為傳統(tǒng)全參數(shù) RL 的約 10%。這徹底改變了大模型后訓(xùn)練的經(jīng)濟(jì)學(xué),使 RL 能夠大規(guī)模落地到更多產(chǎn)品和團(tuán)隊(duì)中。(核心解讀:https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus)


從 Context Engineering 到 Context Learning:萬(wàn)億參數(shù)大模型的后訓(xùn)練實(shí)戰(zhàn)

在 2026 奇點(diǎn)智能技術(shù)大會(huì)上,馬驍騰將帶來(lái) 《邁向經(jīng)驗(yàn)智能:從 Context Engineering 到 Context Learning》 的深度分享,直擊當(dāng)前 AI Agent 開(kāi)發(fā)與落地的核心痛點(diǎn)。

痛點(diǎn):Prompt 工程的“邊際效應(yīng)遞減”

當(dāng)前的 Agent 開(kāi)發(fā),陷入了一個(gè)“堆砌上下文”的怪圈。

為了讓 Agent 應(yīng)對(duì)動(dòng)態(tài)環(huán)境(比如操作一個(gè)不斷更新的 App 界面),工程師們不得不編寫(xiě)越來(lái)越長(zhǎng)、越來(lái)越復(fù)雜的 Prompt。但這帶來(lái)了兩個(gè)無(wú)法回避的問(wèn)題:

  • 擴(kuò)展性受限: 人工編排永遠(yuǎn)趕不上環(huán)境的變化速度;

  • 經(jīng)驗(yàn)無(wú)法復(fù)用: Agent 每次任務(wù)都是“從零開(kāi)始”,上一次的成功或失敗經(jīng)驗(yàn),無(wú)法沉淀為模型的能力。

解法:Context Learning(在交互中學(xué)習(xí))

馬驍騰提出的 Context Learning,核心在于“經(jīng)驗(yàn)的內(nèi)化”。

通過(guò)強(qiáng)化學(xué)習(xí),讓模型在真實(shí)的交互數(shù)據(jù)中自主試錯(cuò)、積累經(jīng)驗(yàn),并將這些經(jīng)驗(yàn)刻進(jìn)模型參數(shù)里。

實(shí)戰(zhàn)干貨:MinT 底座與 Macaron AI 案例

為了證明這條路走得通,馬驍騰將在現(xiàn)場(chǎng)拆解 Mind Lab 的工程實(shí)踐:

  • MinT 面向萬(wàn)億參數(shù)模型的 LoRA-RL 訓(xùn)練底座:支撐高吞吐、低成本的強(qiáng)化學(xué)習(xí)快速迭代。并以 Macaron AI 模型訓(xùn)練為案例,展示如何利用 Context Learning 教會(huì)模型操作 Dynamic UI,將交互經(jīng)驗(yàn)沉淀為可復(fù)用的模型能力與訓(xùn)練管線。

  • Macaron AI 模型案例:用 Context Learning 訓(xùn)練 Dynamic UI 交互能力

對(duì)于參會(huì)者而言,這場(chǎng)分享的直接價(jià)值在于:

  • 獲得可落地的 RL Infra 建設(shè)思路:了解如何搭建一個(gè)像 MinT 這樣,能夠支撐大模型低成本、高吞吐強(qiáng)化學(xué)習(xí)迭代的基礎(chǔ)設(shè)施;

  • 將 Context Learning 從理念變?yōu)楣こ态F(xiàn)實(shí)的前提;

  • 理解可靠性與適應(yīng)性的平衡術(shù):明白在什么場(chǎng)景下仍需依賴 Context Engineering 確保可靠,又在什么場(chǎng)景下可以放手讓模型通過(guò) Context Learning 自主進(jìn)化,從而設(shè)計(jì)出更健壯、更靈活的 Agent 系統(tǒng)。


2026 奇點(diǎn)智能技術(shù)大會(huì)

馬驍騰的 Context Learning,只是 2026 奇點(diǎn)智能技術(shù)大會(huì)眾多硬核議題中的一環(huán)。

面對(duì)“未來(lái)沒(méi)有全棧,只有 Agent 工程師”的行業(yè)劇變,我們需要的不只是幾場(chǎng)演講,而是一份可被驗(yàn)證的、成體系的工程經(jīng)驗(yàn)。

4 月 17-18 日,由 CSDN 與 奇點(diǎn)智能研究院聯(lián)合主辦的「2026 奇點(diǎn)智能技術(shù)大會(huì)」 將在上海環(huán)球港凱悅酒店隆重召開(kāi)。

  • 頂尖陣容: 匯聚 50+ 位站在變革最前沿的技術(shù)領(lǐng)袖,來(lái)自 微軟、BAT、京東、快手等一線大廠;

  • 硬核議題: 覆蓋 Agent 系統(tǒng)、世界模型、AI 原生研發(fā)、AI Infra 等 12 大前沿專題。

這里沒(méi)有空泛的預(yù)測(cè),只有扎實(shí)的復(fù)盤(pán)與當(dāng)下的解法與前沿的探索。

與此同時(shí),2026 奇點(diǎn)智能技術(shù)大會(huì)同步開(kāi)放多種合作形式:

  • 技術(shù)生態(tài)合作伙伴

  • 企業(yè)專場(chǎng)共建

  • 行業(yè)解決方案聯(lián)合展示

我們期待與更多長(zhǎng)期主義者一起,為 AI 時(shí)代留下可被驗(yàn)證、可被復(fù)用的工程經(jīng)驗(yàn)。


提前預(yù)約 2026 奇點(diǎn)智能技術(shù)大會(huì)全套 PPT 資料

官方網(wǎng)站:www.ml-summit.org

購(gòu)票熱線:400-821-5876

購(gòu)票咨詢:service@boolan.com

企業(yè)合作:partner@boolan.com

演講申請(qǐng):hemiao@csdn.net

媒體聯(lián)系:media@boolan.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“吳京水腫”登熱搜:臉上一按一個(gè)坑驚呆網(wǎng)友

“吳京水腫”登熱搜:臉上一按一個(gè)坑驚呆網(wǎng)友

TVB的四小花
2026-03-27 16:53:30
1-1!槍手鐵衛(wèi)破門(mén)+送點(diǎn) 皇馬隊(duì)長(zhǎng)絕平 FIFA第4慘遭爆冷6連勝終結(jié)

1-1!槍手鐵衛(wèi)破門(mén)+送點(diǎn) 皇馬隊(duì)長(zhǎng)絕平 FIFA第4慘遭爆冷6連勝終結(jié)

狍子歪解體壇
2026-03-28 05:56:31
以色列沒(méi)水沒(méi)藥沒(méi)人管,導(dǎo)彈炸完基地癱瘓,世界集體裝瞎

以色列沒(méi)水沒(méi)藥沒(méi)人管,導(dǎo)彈炸完基地癱瘓,世界集體裝瞎

網(wǎng)絡(luò)易不易
2026-03-26 15:05:07
瘋狂甩賣球員種惡果!CBA一隊(duì)入座率不夠一成,球館上面空空蕩蕩

瘋狂甩賣球員種惡果!CBA一隊(duì)入座率不夠一成,球館上面空空蕩蕩

南海浪花
2026-03-27 09:31:56
打服錫安!5年2.9億美元!隊(duì)史最大合同來(lái)了

打服錫安!5年2.9億美元!隊(duì)史最大合同來(lái)了

籃球教學(xué)論壇
2026-03-27 16:46:21
朝陽(yáng)初三女孩318分,家長(zhǎng)無(wú)奈:老師建議去職高。

朝陽(yáng)初三女孩318分,家長(zhǎng)無(wú)奈:老師建議去職高。

特約前排觀眾
2026-03-28 00:20:03
猝死也會(huì)發(fā)生在健康人身上,請(qǐng)收下醫(yī)生的這10條建議

猝死也會(huì)發(fā)生在健康人身上,請(qǐng)收下醫(yī)生的這10條建議

知識(shí)分子
2026-03-27 12:18:08
我就不信張一山?jīng)]有后悔過(guò)嗎?這么美的前任拱手讓出去了

我就不信張一山?jīng)]有后悔過(guò)嗎?這么美的前任拱手讓出去了

陳意小可愛(ài)
2026-03-27 10:38:38
遠(yuǎn)超東北?河南人口流失,全國(guó)第一 | 地球知識(shí)局

遠(yuǎn)超東北?河南人口流失,全國(guó)第一 | 地球知識(shí)局

地球知識(shí)局
2026-03-27 20:13:27
“這次穿得算保守了”,女老師短裙配蕾絲襪,學(xué)生上課頭都不敢抬

“這次穿得算保守了”,女老師短裙配蕾絲襪,學(xué)生上課頭都不敢抬

妍妍教育日記
2026-03-21 10:05:03
王一博續(xù)約樂(lè)華炸鍋!粉絲大規(guī)模脫粉,這步棋真走對(duì)了?

王一博續(xù)約樂(lè)華炸鍋!粉絲大規(guī)模脫粉,這步棋真走對(duì)了?

鄉(xiāng)野小珥
2026-03-28 07:44:57
黃金能跌到500元/克嗎?

黃金能跌到500元/克嗎?

流蘇晚晴
2026-03-27 18:22:12
伊朗官媒發(fā)布《為眾人復(fù)仇》AI短片:一枚伊朗導(dǎo)彈在哈梅內(nèi)伊等人注視下,精準(zhǔn)炸毀幻化成羊頭惡魔的美國(guó)自由女神像

伊朗官媒發(fā)布《為眾人復(fù)仇》AI短片:一枚伊朗導(dǎo)彈在哈梅內(nèi)伊等人注視下,精準(zhǔn)炸毀幻化成羊頭惡魔的美國(guó)自由女神像

大象新聞
2026-03-26 09:45:03
出獄后的雷政富滄桑感襲面而來(lái),前后對(duì)比引人唏噓

出獄后的雷政富滄桑感襲面而來(lái),前后對(duì)比引人唏噓

霹靂炮
2026-03-14 22:49:47
越打越出驚喜!以色列傳來(lái)好消息,美軍徹底歇菜:8年無(wú)法再開(kāi)戰(zhàn)

越打越出驚喜!以色列傳來(lái)好消息,美軍徹底歇菜:8年無(wú)法再開(kāi)戰(zhàn)

知法而形
2026-03-26 17:28:20
破防!中國(guó)油輪硬闖霍爾木茲海峽,伊朗全程護(hù)航,看完太提氣

破防!中國(guó)油輪硬闖霍爾木茲海峽,伊朗全程護(hù)航,看完太提氣

戧詞奪理
2026-03-25 10:53:15
美股全線大跌,道指暴跌近800點(diǎn)!科技巨頭普跌,微軟較高點(diǎn)跌34%,國(guó)際油價(jià)大漲7%

美股全線大跌,道指暴跌近800點(diǎn)!科技巨頭普跌,微軟較高點(diǎn)跌34%,國(guó)際油價(jià)大漲7%

金融界
2026-03-28 08:23:16
江蘇如皋李昌鈺刑偵科學(xué)博物館正常開(kāi)放,正在布置悼念場(chǎng)地,游客可以前往獻(xiàn)花,李昌鈺生前一直說(shuō):我是中國(guó)江蘇南通如皋人

江蘇如皋李昌鈺刑偵科學(xué)博物館正常開(kāi)放,正在布置悼念場(chǎng)地,游客可以前往獻(xiàn)花,李昌鈺生前一直說(shuō):我是中國(guó)江蘇南通如皋人

極目新聞
2026-03-28 10:04:31
馬英九出席,馬英九基金會(huì)正式向鄭麗文交底,蕭旭岑回應(yīng)亮了

馬英九出席,馬英九基金會(huì)正式向鄭麗文交底,蕭旭岑回應(yīng)亮了

DS北風(fēng)
2026-03-27 19:22:15
全新塞納實(shí)車曝光!2.4T混動(dòng)+超250馬力

全新塞納實(shí)車曝光!2.4T混動(dòng)+超250馬力

沙雕小琳琳
2026-03-26 01:58:11
2026-03-28 10:51:00
CSDN incentive-icons
CSDN
成就一億技術(shù)人
26413文章數(shù) 242250關(guān)注度
往期回顧 全部

科技要聞

遭中國(guó)學(xué)界"拉黑"后,這家AI頂會(huì)低頭道歉

頭條要聞

前大廠員工開(kāi)"網(wǎng)絡(luò)賭場(chǎng)" 三個(gè)月吸金1900萬(wàn)

頭條要聞

前大廠員工開(kāi)"網(wǎng)絡(luò)賭場(chǎng)" 三個(gè)月吸金1900萬(wàn)

體育要聞

“我是全家最差勁的運(yùn)動(dòng)員”

娛樂(lè)要聞

范瑋琪加盟,官宣《浪姐7》遭全網(wǎng)抵制

財(cái)經(jīng)要聞

我在小吃培訓(xùn)機(jī)構(gòu)學(xué)習(xí)“科技與狠活”

汽車要聞

置換補(bǔ)貼價(jià)4.28萬(wàn)起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

本地
時(shí)尚
親子
房產(chǎn)
家居

本地新聞

在濰坊待了三天,沒(méi)遇到一個(gè)“濰坊人”

推廣中獎(jiǎng)名單-更新至2026年3月11日推廣

親子要聞

科學(xué)運(yùn)動(dòng) 助力提升女性生育力

房產(chǎn)要聞

6.8萬(wàn)方!天河員村再征地,金融城西區(qū)開(kāi)發(fā)全面提速

家居要聞

曲線華爾茲 現(xiàn)代簡(jiǎn)約

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版