網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Andrej Karpathy 的 2025 LLM 總結(jié)

2025-12-20 11:40:52　來(lái)源: 歸藏的AI工具箱

北京舉報(bào)

分享至

關(guān)于訓(xùn)練范式的變化、benchmark 的失效、Cursor、Claude Code、VibeCoding、LLMGUI

1. RLVR
RLVR成為繼Pretraining、Supervised Finetuning、RLHF之后的新訓(xùn)練階段。通過(guò)在數(shù)學(xué)/代碼等可驗(yàn)證環(huán)境中訓(xùn)練，LLM自發(fā)習(xí)得推理策略，學(xué)會(huì)分解問(wèn)題和多步求解。與傳統(tǒng)微調(diào)不同，RLVR允許長(zhǎng)時(shí)間優(yōu)化，提供高能力/成本比，吞噬了原本用于預(yù)訓(xùn)練的算力。2025年能力進(jìn)步主要來(lái)自更長(zhǎng)的RL運(yùn)行。

2. Ghosts vs. Animals
LLM的優(yōu)化目標(biāo)與人類(lèi)神經(jīng)網(wǎng)絡(luò)截然不同，造就了鋸齒狀智能，既是天才博學(xué)者又是易受騙的小學(xué)生。RLVR導(dǎo)致LLM在可驗(yàn)證領(lǐng)域能力飆升但整體參差不齊。Benchmark因可驗(yàn)證性易被針對(duì)優(yōu)化，"在測(cè)試集上訓(xùn)練"成新藝術(shù)。

3. Cursor
Cursor揭示LLM應(yīng)用的新形態(tài)：為垂直領(lǐng)域編排多個(gè)LLM調(diào)用，進(jìn)行context engineering，提供專(zhuān)用GUI和自主性滑塊。爭(zhēng)議在于這個(gè)應(yīng)用層有多"厚"。他認(rèn)為L(zhǎng)LM實(shí)驗(yàn)室培養(yǎng)通用人才，而LLM應(yīng)用通過(guò)私有數(shù)據(jù)、傳感器和反饋將其激活為特定領(lǐng)域的專(zhuān)業(yè)團(tuán)隊(duì)。

4. Claude Code
Claude Code是LLM Agent的首個(gè)成功展示，循環(huán)串聯(lián)工具使用和推理。關(guān)鍵是它運(yùn)行在本地電腦而非云端。OpenAI錯(cuò)將agent部署在云容器中，但在能力參差的過(guò)渡期，本地運(yùn)行與開(kāi)發(fā)者協(xié)作更合理。CC以CLI形式呈現(xiàn)，讓AI從網(wǎng)站變成"生活"在電腦上的精靈，這是全新交互范式。

5. Vibe coding將改造軟件并改變職位描述
Vibe coding讓編程不再是專(zhuān)業(yè)人士專(zhuān)屬，普通人也能使用。它還讓專(zhuān)業(yè)人士編寫(xiě)更多原本不會(huì)寫(xiě)的軟件，代碼變得免費(fèi)、臨時(shí)、可丟棄。

6. Nano banana / LLM GUI
Nano banana預(yù)示LLM GUI雛形。正如計(jì)算機(jī)從命令行演進(jìn)到GUI，LLM也應(yīng)從純文本聊天進(jìn)化到視覺(jué)輸出。人們不喜歡讀文本，它緩慢費(fèi)力。Nano banana展示了文本生成、圖像生成和世界知識(shí)融合的聯(lián)合能力。

來(lái)源：x.com/karpathy/status/2002118205729562949

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.