關(guān)于訓(xùn)練范式的變化、benchmark 的失效、Cursor、Claude Code、VibeCoding、LLMGUI
1. RLVR
RLVR成為繼Pretraining、Supervised Finetuning、RLHF之后的新訓(xùn)練階段。通過(guò)在數(shù)學(xué)/代碼等可驗(yàn)證環(huán)境中訓(xùn)練,LLM自發(fā)習(xí)得推理策略,學(xué)會(huì)分解問(wèn)題和多步求解。與傳統(tǒng)微調(diào)不同,RLVR允許長(zhǎng)時(shí)間優(yōu)化,提供高能力/成本比,吞噬了原本用于預(yù)訓(xùn)練的算力。2025年能力進(jìn)步主要來(lái)自更長(zhǎng)的RL運(yùn)行。
2. Ghosts vs. Animals
LLM的優(yōu)化目標(biāo)與人類(lèi)神經(jīng)網(wǎng)絡(luò)截然不同,造就了鋸齒狀智能,既是天才博學(xué)者又是易受騙的小學(xué)生。RLVR導(dǎo)致LLM在可驗(yàn)證領(lǐng)域能力飆升但整體參差不齊。Benchmark因可驗(yàn)證性易被針對(duì)優(yōu)化,"在測(cè)試集上訓(xùn)練"成新藝術(shù)。
3. Cursor
Cursor揭示LLM應(yīng)用的新形態(tài):為垂直領(lǐng)域編排多個(gè)LLM調(diào)用,進(jìn)行context engineering,提供專(zhuān)用GUI和自主性滑塊。爭(zhēng)議在于這個(gè)應(yīng)用層有多"厚"。他認(rèn)為L(zhǎng)LM實(shí)驗(yàn)室培養(yǎng)通用人才,而LLM應(yīng)用通過(guò)私有數(shù)據(jù)、傳感器和反饋將其激活為特定領(lǐng)域的專(zhuān)業(yè)團(tuán)隊(duì)。
4. Claude Code
Claude Code是LLM Agent的首個(gè)成功展示,循環(huán)串聯(lián)工具使用和推理。關(guān)鍵是它運(yùn)行在本地電腦而非云端。OpenAI錯(cuò)將agent部署在云容器中,但在能力參差的過(guò)渡期,本地運(yùn)行與開(kāi)發(fā)者協(xié)作更合理。CC以CLI形式呈現(xiàn),讓AI從網(wǎng)站變成"生活"在電腦上的精靈,這是全新交互范式。
5. Vibe coding將改造軟件并改變職位描述
Vibe coding讓編程不再是專(zhuān)業(yè)人士專(zhuān)屬,普通人也能使用。它還讓專(zhuān)業(yè)人士編寫(xiě)更多原本不會(huì)寫(xiě)的軟件,代碼變得免費(fèi)、臨時(shí)、可丟棄。
6. Nano banana / LLM GUI
Nano banana預(yù)示LLM GUI雛形。正如計(jì)算機(jī)從命令行演進(jìn)到GUI,LLM也應(yīng)從純文本聊天進(jìn)化到視覺(jué)輸出。人們不喜歡讀文本,它緩慢費(fèi)力。Nano banana展示了文本生成、圖像生成和世界知識(shí)融合的聯(lián)合能力。
來(lái)源:x.com/karpathy/status/2002118205729562949
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.