21GB模型跑贏Claude：開源AI的意外勝利

2026-04-17 02:00:58　來源: 算力游俠

北京舉報

分享至

一個21GB的量化模型，在筆記本電腦上畫出的鵜鶘騎自行車，居然打敗了Anthropic最新旗艦。Simon Willison的"鵜鶘基準(zhǔn)測試"今天出了怪結(jié)果——Qwen3.6-35B-A3B的SVG代碼不僅更干凈，連自行車車架都沒畫歪。

這個玩笑測試，為什么突然值得認(rèn)真看

Willison從去年10月開始用"鵜鶘騎自行車"當(dāng)模型測試。初衷是諷刺：當(dāng)所有人都在比數(shù)學(xué)推理、代碼能力、多模態(tài)理解時，找個荒謬任務(wù)反而能暴露模型的真實(shí)性格。

詭異的是，這個玩笑居然成立了。2024年10月的第一批鵜鶘"完全是垃圾"。之后每次主流模型更新，鵜鶘質(zhì)量確實(shí)在提升——Gemini 3.1 Pro已經(jīng)能畫出"真的能用"的插圖。

直到今天，這條規(guī)律被打破了。

Qwen3.6-35B-A3B是阿里巴巴開源的混合專家模型（Mixture-of-Experts，MoE），總參數(shù)量235B，但每次前向傳播只激活35B。Willison跑的是Unsloth團(tuán)隊量化的4bit版本，文件體積壓到20.9GB，用LM Studio在MacBook Pro M5本地部署。

Claude Opus 4.7則是Anthropic當(dāng)天發(fā)布的閉源旗艦，API定價遠(yuǎn)高于Qwen的開源權(quán)重。

結(jié)果：Opus 4.7的自行車車架結(jié)構(gòu)錯誤，第二輪用thinking_level: max參數(shù)重試，"也沒好多少"。Qwen的火烈鳥獨(dú)輪車測試還額外貢獻(xiàn)了「」的注釋彩蛋。

正方：開源量化模型的工程勝利

這件事首先說明量化技術(shù)（Quantization，將模型權(quán)重從高精度壓縮到低精度）已經(jīng)成熟到不損核心能力的地步。

Unsloth的GGUF格式把235B參數(shù)的MoE模型壓進(jìn)21GB，消費(fèi)級筆記本能流暢運(yùn)行。一年前這是不可想象的——當(dāng)時70B模型量化后還會嚴(yán)重失真。

MoE架構(gòu)的本地部署效率也被驗(yàn)證。35B激活參數(shù)意味著推理成本可控，而總參數(shù)量保證了知識容量。Willison的測試場景恰好擊中MoE的甜點(diǎn)：創(chuàng)意生成任務(wù)對絕對精度要求不高，但需要足夠的知識廣度來組合"鵜鶘"+"自行車"這種罕見概念。

更深層看，這是開源生態(tài)的系統(tǒng)性優(yōu)勢。Qwen權(quán)重開放后，Unsloth可以立即優(yōu)化量化方案，LM Studio可以快速集成，社區(qū)能自發(fā)形成"筆記本本地跑SOTA模型"的完整工具鏈。閉源模型的迭代再快，也繞不過API延遲和成本結(jié)構(gòu)。

反方：一個插圖測試說明不了什么

Willison自己承認(rèn)，"非常懷疑21GB量化版本比Anthropic最新閉源版本更強(qiáng)大或更有用"。

鵜鶘測試的樣本量極小，且SVG生成是特定技能。Opus 4.7可能在長文本推理、復(fù)雜工具調(diào)用、多輪對話一致性等維度全面領(lǐng)先——這些才是企業(yè)付費(fèi)的核心場景。

Anthropic的thinking_level參數(shù)設(shè)計也耐人尋味。max模式意味著模型會投入更多計算資源做內(nèi)部推理，但Willison的測試顯示"沒好多少"。這可能暴露Opus 4.7在視覺-空間理解上的真實(shí)短板，也可能只是該參數(shù)對插圖任務(wù)不適用。

更關(guān)鍵的質(zhì)疑：如果實(shí)驗(yàn)室真的針對流行基準(zhǔn)做訓(xùn)練，為什么偏偏漏掉Willison的鵜鶘？他的"秘密備份測試"火烈鳥獨(dú)輪車，Qwen依然勝出——但這只有兩個數(shù)據(jù)點(diǎn)。

我的判斷：能力評估的范式正在崩潰

這件事的真正價值，不在于證明Qwen>Opus，而在于暴露了我們根本沒有可靠的模型評估體系。

當(dāng)21GB本地模型能在特定任務(wù)擊敗API旗艦，"參數(shù)規(guī)模=能力"的敘事就破產(chǎn)了。MoE架構(gòu)讓總參數(shù)和激活參數(shù)脫鉤，量化技術(shù)讓部署規(guī)模和原始性能脫鉤，開源生態(tài)讓迭代速度和發(fā)布日期脫鉤。

Willison的鵜鶘玩笑之所以有效，恰恰因?yàn)樗鼫y試的是"未經(jīng)優(yōu)化的原始能力"——沒有公開訓(xùn)練數(shù)據(jù)、沒有針對性微調(diào)、沒有提示工程陷阱。這種"野生測試"反而可能比MMLU、HumanEval等標(biāo)準(zhǔn)基準(zhǔn)更真實(shí)，因?yàn)楹笳咭驯贿^度擬合。

對從業(yè)者的直接啟示：評估模型必須回歸具體場景。如果你需要批量生成SVG插圖，本地部署的量化Qwen可能是成本最優(yōu)解；如果你需要處理200頁法律文檔的跨頁引用，Opus的上下文窗口和推理深度可能不可替代。

沒有 universal 的更好，只有 contextual 的更適合。

阿里巴巴Qwen團(tuán)隊的開源策略正在收獲復(fù)利。從Qwen2到Qwen3.6，他們持續(xù)釋放可商用的權(quán)重，允許社區(qū)進(jìn)行二次開發(fā)。這種"基礎(chǔ)設(shè)施化"的定位，與Anthropic的"高端服務(wù)"定位形成差異化競爭。

最終，鵜鶘騎自行車的荒謬畫面，成了AI行業(yè)最誠實(shí)的鏡子：當(dāng)技術(shù)迭代速度超過評估體系進(jìn)化速度，所有排名都是臨時的，所有結(jié)論都是局部的，所有"勝利"都需要加一串限定詞才能成立。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.