網易首頁 > 網易號 > 正文申請入駐

實測阿里Qwen3.6-Plus：8分鐘做了個官網，被北京地鐵繞暈

2026-04-02 20:10:07　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達
編輯心緣

智東西4月2日報道，今天，阿里推出了新一代大語言模型Qwen3.6-Plus，這也是Qwen3.6系列的首個模型。與上一代模型相比，Qwen3.6-Plus重點提升了編程Coding能力、智能體Agent能力和工具調用能力，默認支持100萬上下文窗口。

這一模型還適配了主流Agent框架，也就是各種“龍蝦”和編程工具。官方提到的包括OpenClaw、Qwen Code、ClaudeCode、KiloCode、Cline和OpenCode。

在大模型調用平臺OpenRouter上，免費體驗的Qwen3.6-Plus預覽版調用量排名日榜第二。值得一提的是，前五名的模型中有四個都是國產模型。

在SWE-bench Verified、Terminal-Bench 2、NL2Repo等編程基準測試中，Qwen3.6-Plus取得了超過GLM-5、Kimi K2.5的成績，不過在部分基準測試中的得分仍低于Claude Opus 4.5。

在Claw-Eval、QwenClawBench等真實世界Agent能力評測中，Qwen3.6-Plus的表現同樣超過了多款國產模型，與Claude Opus 4.5同處一個梯隊。

▲Qwen3.6-Plus基準測試對比（圖源：阿里）

不過，需要注意的是，這張基準測試圖的圖表縱軸刻度間隔并不一致，在SWE-bench Verified、MMMU、RealWorldQA、QwenClawBench等測試中，幾個對比模型的實際得分差距并沒有特別明顯。

智東西立刻上手體驗了Qwen3.6-Plus的編程能力，讓它在Claude官方的前端設計Skill指導下，打造了一個AI眼鏡獨立站，歷經三輪對話，耗時8分鐘左右，消耗2.5萬個token（約等于0.15元）。

可以看到在提示詞的要求下它打造的網頁完成度不錯，根據Skill的要求避免了一些老掉牙的AI味設計風格，不過在字體選擇上依然是較為常見的類型。

實測結果：

https://mcp.edgeone.site/share/57IuyACJqUk1GjKHY9I4c

與上一代模型類似，Qwen3.6-Plus也是一個原生多模態模型。Qwen3.6-Plus這次重點提升了多模態推理和指令模式實用性。

官方Demo中用北京地鐵路徑規劃的題目考了考Qwen3.6-Plus，我們同樣試了一下，讓模型規劃出從北京大興機場到北京首都機場的最快路線，它的方案與高德上的最快路徑一致。

將編程能力與多模態能力結合后，Qwen3.6-Plus還解鎖了視覺智能體編程能力，可基于界面截圖、設計稿或自然圖文描述，完成前端頁面生成、代碼補全、交互修改等任務。

目前，Qwen3.6-Plus的API已經開放調用，用戶可在Qwen Chat中體驗到這一模型。這次阿里還為API引入了一項新功能“preserve_thinking”，可保留消息中所有前序輪次的思維內容，該功能推薦用于智能體任務。其API的原價為4元/百萬輸入tokens，12元/百萬輸出tokens，目前有限時5折的優惠。

值得一提的是，阿里在企業級市場的AI應用“悟空”第一時間接入了Qwen3.6-Plus。

Qwen Chat：

https://chat.qwen.ai/

阿里云百煉：

https://bailian.console.aliyun.com/cn-beijing?tab=model#/model-market/detail/qwen3.6-plus 一、可完成長鏈路任務與多輪工具調用，token效率有提升空間

在自然語言能力方面，Qwen3.6-Plus通過融合推理、記憶與執行能力，在編程智能體、通用智能體和工具調用上實現提升。

具體來看，在編程智能體維度其表現較Qwen3.5實現較大幅度的提升，得分略微高于GLM-5和Kimi-K2.5，略低于Claude Opus 4.5。

在通用智能體方面，其得分在部分基準測試中優于Claude Opus 4.5。在通用能力中，其得分和Qwen3.5基本一致。

在實測中，我們的這一案例融合考察了編程與工具調用能力，要求Qwen3.6-Plus統計A股目前股價最高的10家公司，并生成完整統計網頁，帶有每家公司的跳轉鏈接。

在任務執行過程中，Qwen3.6-Plus調用了7輪搜索工具，統計了數十個網站的數據，最終交付了如下的結果，耗時大概7分鐘左右。

▲Qwen3.6-Plus生成的排名

Qwen3.6-Plus選擇了權威的數據來源，右側查看詳情鏈接的跳轉正常，排名正確，數據則取的是近似值。在思維鏈中可以看到它多次在同一個問題上反復思考，搜索多次但獲得的內容差不多，在任務執行速度和token效率上仍有一定提升空間。

▲右側是Qwen3.6-Plus的思維鏈摘要

接下來，我們又要求Qwen3.6-Plus生成一個《潛水員戴夫》的同款游戲，不過，Qwen3.6-Plus先是拒絕了這一要求，稱它無法直接生成可執行的游戲文件，但可以為我生成核心概念美術圖，并提供一套完整的《潛水員戴夫》風格游戲設計藍圖+開發指南+基礎代碼框架，作為開發起點。

再次要求后，Qwen3.6-Plus開始了開發，但是在寫到200多行代碼時出現了問題，于是停止了開發。

之后我們嘗試了通過API調用這一模型，完成同一任務。模型認為，打造《潛水員戴夫》同款獨立游戲的核心在于復刻其“白天探索采集+夜晚模擬經營+輕敘事驅動+循環成長”的節奏，而非照搬題材或代碼。它決定打造一個白天深入動態霧林采集食材與古物，夜晚經營一家能“烹飪記憶”的森林酒館的游戲。

最終Qwen3.6-Plus交付的MVP版本（最小可用版本）如下，不過我們試玩了一下，這一游戲在可玩性上仍然需要持續迭代。

試玩鏈接：

https://mcp.edgeone.site/share/hkGsoqs3OCUQyXtxsYCal

二、實測高難度路徑規劃，被北京地鐵轉暈

在視覺語言能力方面，Qwen3.6-Plus的主要圍繞著多模態推理、指令模式實用性進行改進，其在復雜文檔理解、物理世界視覺理解、視頻推理和視覺編程等任務上的得分有所提升。

為考察其視覺推理能力，我們在之前的地鐵路徑規劃任務上加了點難度，假設某一線路遇到了極端天氣停運了，看看模型還能不能反應過來。

Qwen3.6-Plus通過較長時間的思考后，得出了兩個結論，第一個結論其實是正確的，但是它判斷這條路線有點復雜，于是認為可以在“牡丹園站換乘昌平線”，這樣更直接。Qwen3.6-Plus的最終結論有個bug，昌平線可能至少要等到2029年才能和19號線在牡丹園換乘。

在其他多模態能力方面，阿里官方還展示了多個demo。比如，Qwen3.6-Plus可以對視頻進行分析，并生成圖文并茂的講義。

或是根據界面截圖、產品原型、設計稿或自然圖文描述，完成前端頁面生成、代碼補全、交互修改等任務。

結語：阿里全面押注原生多模態

隨著Qwen3.6-Plus的發布，千問團隊稱，他們近期的工作重心將全面轉向Qwen3.6系列的整體發布。在未來不久，千問還將開源更小規模的模型版本。同時，性能更強的旗艦模型Qwen3.6-Max也將很快亮相。

值得注意的是，自Qwen3.5發布后，千問已經全面將其主力模型Qwen轉向了原生多模態。該團隊稱，他們希望模型逐步演進為一個能夠在真實環境中持續感知、推理和行動的原生多模態智能體。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.