337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

英偉達發力了,新模型在 OpenClaw 成功率排行榜殺進前五,目前免費用

0
分享至

我之前的文章,測試 N 多開源模型,尤其是本地部署系列,評論區永遠有一個高頻問題:能不能接入 OpenClaw(小龍蝦)?

大多數其實都不行,理由也很簡單——模型能力不足是最核心、最致命的短板。Agent 的自動化、工具調用、多步驟任務執行能力,全都建立在大模型的基礎能力之上。模型不行,Agent 就是個花瓶。

打開 PinchBench 排行榜()就知道了,排在前面的清一色是旗艦閉源模型。你用一個小模型跑 Agent,和用筷子喝湯差不多,工具不對。

最近英偉達有個開源模型 Nemotron-3-Super 殺進 PinchBench 前五

直接看排行榜:


**85.6% 的成功率超越了 Claude Opus 4.5(85.4%),只比 GPT-5.4 低了 0.4 個百分點。

最關鍵的一點:前五里面,它是唯一的開源模型。另外四個全是 Anthropic 和 OpenAI 的閉源旗艦,都是拿錢砸出來的。

而且,它這個數據還是被CREATIVE脫了后腿的,它沒有文生圖的能力



  • BasicCalendarCodingFile Ops都是100%

  • Data Analysis到了98%

  • Research90%

  • Comprehension91%

  • Organization89%

  • Creativity只有18%

  • Memory甚至只有0%

  • Context這一項也只有70%

這模型的強項非常像一個“干活型” Agent 大腦:寫腳本、改文件、跑流程、處理任務,確實強;但你要它靠長期上下文記憶、或者靠創意型表達去吃分,它就沒那么驚艷。

換句話說,它更像一個靠譜的工程經理加執行助手,不太像一個文藝青年。

PinchBench 測的是什么?

可能有同學不了解這個榜單。

簡單說,PinchBench 測的是模型驅動 AI Coding Agent 執行真實編碼任務的能力。不是做選擇題,不是寫作文,而是:

  • 文件讀寫操作

  • 代碼修改和重構

  • 工具調用和 API 交互

  • 多步驟復雜任務

  • 出錯后的自我修復

這些恰恰是 OpenClaw 這類 AI Coding Agent 的核心能力。所以 PinchBench 的排名非常實在——它基本決定了模型驅動 Agent 的實際表現。

這也是為什么我之前一直說:與小龍蝦最搭配的大模型,大多都是旗艦模型。

這貨憑什么這么強?

先上硬參數:

指標

數值

總參數量

120B

激活參數量

僅 12B

架構

LatentMoE(Mamba-2 + MoE + Attention 混合)

上下文窗口

1M tokens

最低 GPU 需求

1× B200-80GB 或 1× DGX Spark

推理模式

支持推理開/關(enable_thinking=True/False

量化精度

NVFP4(訓練即量化,不是后量化)

Nemotron 3 Super 120B A12B 不是“窮人版 Opus”,它更像是 NVIDIA 親自下場,給 Agent 賽道遞了一張旗艦級入場券。

架構設計有點東西

Nemotron-3-Super 不是傳統的純 Transformer,而是一個三合一混合體:

Mamba-2(狀態空間模型):擅長處理長序列,線性復雜度。這也是它能支持 1M 上下文的關鍵——傳統 Transformer 的注意力機制在超長序列上會被二次復雜度卡死。

MoE(混合專家):120B 參數里每次只激活 12B。用的是 LatentMoE,先把 token 投射到更小的潛在維度做路由,精度更高、開銷更低。

Attention 層:在關鍵位置保留注意力機制,保證關鍵信息不丟。

三者配合,NVIDIA 管這叫 LatentMoE 架構。又快又準。

還有一個彩蛋:Multi-Token Prediction(MTP)。模型訓練時不只預測下一個 token,而是同時預測后面好幾個 token。推理的時候可以做 speculative decoding,生成速度直接起飛。

NVFP4 量化,幾乎零損失,畢竟就是英偉達獨創的

下面這張圖是官方的基準對比:


Nemotron-3-Super 基準精度對比圖

基準

BF16 原版

FP8

NVFP4

MMLU-Pro

HMMT Feb25(含工具)

GPQA(無工具)

LiveCodeBench v6

IFBench

Arena-Hard-V2

RULER-500 @128k

有意思吧?NVFP4 版本在 HMMT、GPQA、IFBench 上甚至反超了 BF16 原版。這不是傳統的"訓完再量化",而是訓練的時候就在 FP4 精度下跑,模型天然適配低精度推理。

這才是真正的實用主義工程——精度不丟,顯存還省。

訓練方法論:這次是真開源

NVIDIA 這次把"開源"兩個字做到了實處:

  • 預訓練數據:25T+ tokens,全部公開(Nemotron Pre-Training Datasets)

  • 后訓練數據:SFT + RL 數據集,全部公開(Nemotron Post-Training v3)

  • 訓練配方:完整訓練腳本在 GitHub 上

  • 評估工具:NeMo Evaluator SDK,可以復現所有 benchmark 結果

  • RL 環境:NeMo Gym,異步 GRPO 多環境強化學習

訓練三大階段:預訓練 → SFT(合成代碼、工具調用、指令跟隨等) → RL(數學、代碼、科學、工具使用等多環境 GRPO)。

怎么體驗?

方式一:NVIDIA API(最快上手)

直接去build.nvidia.com注冊,免費額度直接用。

在線對話體驗,零門檻。



方式二:OpenRouter 等第三方 API

很多 API 平臺已經上架了。但是要注意:PinchBench 上免費版nemotron-3-super-120b-a12b:free只拿了 75.0%,和付費版 85.6% 差了超過 10 個百分點。省錢和效果之間,得想清楚。

方式三:本地部署(硬核玩家)

支持 vLLM 和 SGLang,單卡 B200-80GB 即可運行:

# vLLM 部署
vllm serve $MODEL_CKPT \
--async-scheduling \
--served-model-name nvidia/nemotron-3-super \
--dtype auto \
--kv-cache-dtype fp8 \
--tensor-parallel-size 1 \
--trust-remote-code \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser-plugin "./super_v3_reasoning_parser.py" \
--reasoning-parser super_v3

推理參數官方建議:temperature=1.0top_p=0.95,所有場景通用。

部署后暴露的是 OpenAI 兼容 API,可以直接接入 OpenCode 等終端 Agent:

{
"model": "local/nvidia-nemotron-3-super",
"provider": {
"local": {
"npm": "@ai-sdk/openai-compatible",
"options": {
"baseURL": "http://localhost:8000/v1",
"apiKey": "EMPTY"
}
}
}
}
HuggingFace 模型頁(含完整部署指南):https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

說完好的,說說現實問題:

GPU 門檻還是高。B200-80GB 不是消費級顯卡,你的 4090 跑不了,或許可以等等Unsloth對極致量化版。DGX Spark 是 NVIDIA 推的桌面方案,但價格也不便宜。對大多數個人開發者來說,API 調用更現實。

Benchmark ≠ 實戰。PinchBench 85.6% 很好看,但實際項目中的復雜度、特定語言框架支持、長時間多輪對話的穩定性,都得實測才知道。

開源 Agent 模型的格局正在變

Qwen 3.5-122B-A10B 也值得關注——同樣是 MoE 架構,122B 總參數 / 10B 激活,和 Nemotron 思路非常接近。兩家不約而同選了 100B+ 總參數、10B 級別激活的 MoE 路線,這不是巧合。

MoE + 混合架構正在成為開源 Agent 模型的主流技術路線。用小激活量撬動大參數量,在效率和能力之間找到一個甜點。

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

魔都姐姐雜談
2026-03-28 04:04:21
葉酸是蘋果的20倍,春天使勁吃,一排毒、二祛濕、三強免疫,好吃

葉酸是蘋果的20倍,春天使勁吃,一排毒、二祛濕、三強免疫,好吃

阿龍美食記
2026-03-30 15:29:15
喪心病狂!邯鄲中學校長性侵15歲女生,拿20萬封口,勢力大也沒用

喪心病狂!邯鄲中學校長性侵15歲女生,拿20萬封口,勢力大也沒用

觀察鑒娛
2026-04-02 10:26:05
老婆被領導排擠,無奈選擇辭職,行業晚宴她領導看到我頓時愣住了

老婆被領導排擠,無奈選擇辭職,行業晚宴她領導看到我頓時愣住了

奶茶麥子
2026-04-02 17:57:05
越扒越勁爆!釋永信在少林寺的奢靡生活,你想都不敢想!

越扒越勁爆!釋永信在少林寺的奢靡生活,你想都不敢想!

混沌錄
2025-09-17 23:25:04
李若彤道歉!全網下架,退款!

李若彤道歉!全網下架,退款!

浙江之聲
2026-04-02 13:27:13
四川瀘州10歲男孩怕爸媽被抓坐牢,分15筆將爺爺奶奶5.2萬余元轉給假警察!

四川瀘州10歲男孩怕爸媽被抓坐牢,分15筆將爺爺奶奶5.2萬余元轉給假警察!

黃河新聞網呂梁
2026-04-02 09:32:49
房價要變天?若不出意外的話,2026年二手房價格將迎來4大轉變

房價要變天?若不出意外的話,2026年二手房價格將迎來4大轉變

林子說事
2026-04-03 05:22:50
曝阿里巴巴AI開發員心源性猝死,倒下時手里還抱著電腦,妻子發聲

曝阿里巴巴AI開發員心源性猝死,倒下時手里還抱著電腦,妻子發聲

180視角
2026-04-03 10:35:39
杜月笙獨自逛碼頭,被地痞收保護費,他淡笑:給你錢你有命花嗎?

杜月笙獨自逛碼頭,被地痞收保護費,他淡笑:給你錢你有命花嗎?

千秋文化
2026-04-02 20:29:53
特朗普電視講話:一廂情愿的自嗨,可笑至極的說辭

特朗普電視講話:一廂情愿的自嗨,可笑至極的說辭

史政先鋒
2026-04-02 22:12:37
日媒:日本政府計劃5月派團訪問俄羅斯,或將討論從俄進口原油

日媒:日本政府計劃5月派團訪問俄羅斯,或將討論從俄進口原油

環球網資訊
2026-04-02 21:11:12
實測阿里Qwen3.6-Plus:8分鐘做了個官網,被北京地鐵繞暈

實測阿里Qwen3.6-Plus:8分鐘做了個官網,被北京地鐵繞暈

智東西
2026-04-02 20:10:07
理性預測:NBA 2026年MVP,100%會從以下三人中產生!

理性預測:NBA 2026年MVP,100%會從以下三人中產生!

林子說事
2026-04-02 19:07:59
1年添4個孩子,4位不同生母,愛德華茲僅認1個!

1年添4個孩子,4位不同生母,愛德華茲僅認1個!

羅氏八卦
2026-04-02 18:00:03
莫雷托:巴斯托尼已同意加盟巴薩,正在談個人合同

莫雷托:巴斯托尼已同意加盟巴薩,正在談個人合同

懂球帝
2026-04-03 06:24:06
WSBK碾壓式奪冠 華為加持 張雪機車有多少是國產的?

WSBK碾壓式奪冠 華為加持 張雪機車有多少是國產的?

CNMO科技
2026-04-01 09:34:10
頭號負資產!奧納納今夏決心回曼聯享受加薪,拉爵恐倒貼才能送走

頭號負資產!奧納納今夏決心回曼聯享受加薪,拉爵恐倒貼才能送走

羅米的曼聯博客
2026-04-02 10:42:01
1萬美軍斬斷大動脈!德黑蘭面臨亡國,伊朗強硬派:要死一起死!

1萬美軍斬斷大動脈!德黑蘭面臨亡國,伊朗強硬派:要死一起死!

古事尋蹤記
2026-04-03 07:16:12
轟94+31+15!四巨頭爆錘黃蜂,哈登有麻煩了,騎士首輪遇到硬骨頭

轟94+31+15!四巨頭爆錘黃蜂,哈登有麻煩了,騎士首輪遇到硬骨頭

巴叔GO聊體育
2026-04-02 15:18:07
2026-04-03 11:11:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3304文章數 11123關注度
往期回顧 全部

科技要聞

SpaceX沖刺2萬億美元估值,馬斯克野心太大

頭條要聞

鄭麗文頂住壓力毅然訪陸 洪秀柱表態發文力挺

頭條要聞

鄭麗文頂住壓力毅然訪陸 洪秀柱表態發文力挺

體育要聞

沖擊世界杯失敗,80歲老帥一氣之下病倒了

娛樂要聞

田亮一家新年全家福!森碟變清純少女

財經要聞

全球石油危機或將蔓延

汽車要聞

大眾嚴選 何懼"定終身"

態度原創

時尚
旅游
家居
親子
數碼

為什么“這個顏色”成為今年頂流?這樣穿好看又治愈

旅游要聞

河南博物院公布清明假期開放時間安排

家居要聞

溫馨多元 愛的具象化

親子要聞

洗頭的舒適區,讓爸爸想出更多帶娃創意

數碼要聞

部分三星Bespoke洗烘一體機出現故障,海外用戶更新后無法洗衣服

無障礙瀏覽 進入關懷版