337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

阿里發布了他們最強思考模型,有點東西。。(附實測)

0
分享至

大家好,我是熬夜追新模型的袋鼠帝。

昨天晚上,我正準備關電腦睡覺,阿里突然甩出了一個重磅炸彈:Qwen3-Max-Thinking 正式發布。

我看完,反手就點贊+在看


不過,說什么數字游民,自由職業,其實我的作息完全掌握 AI 手里。

AI一進化,我就得起來干活。。。

吐槽歸吐槽,身體還是很誠實的。

畢竟作為國產模型之光,千問每一次更新都挺讓人期待的。

于是我立馬不困了,爬起來連夜實測,看看這次能想會干,比強更強到底怎么樣。

Max都是旗艦級的閉源模型,所以性能會更強勁

這次Qwen3-Max-Thinking號稱性能媲美 GPT-5.2 和 Gemini 3 Pro,特別是在數學、代碼和長邏輯推理上有了質的飛躍。

最關鍵的是,它的 Agent 能力大幅增強,能像真人一樣邊用工具邊思考,而且幻覺更少。

那豈不是非常適合接入最近爆火的個人AI助手clawdbot中使用?

介紹clawdbot,以及如何安裝使用 袋鼠帝,公眾號:袋鼠帝AI客棧

再給大家聊聊這次更新的核心技術亮點(我覺得非常實用),非常重要:

能看到阿里這次在 Reasoning(推理)路線上走出了一條非常獨特的路徑。

1. 測試時擴展(Test-Time Scaling):從"人海戰術"轉向深度反思

傳統的推理增強往往采用并行采樣(Parallel Sampling)策略,即 Best-of-N,通過生成多條推理路徑再進行投票或打分。

這種方式雖然有效,但計算冗余極高,邊際效應遞減明顯。

Qwen3-Max-Thinking 采用了一種“經驗累積式迭代”策略。

它利用“經驗提取(Experience Extraction)”機制,將上一輪推理中的關鍵洞見(Insight)提煉出來,注入到下一輪的 Context 中。這使得模型能夠在不增加 Token 消耗量級的情況下,通過自我反思修正錯誤,收斂至更優解。

就好比一些模型解難題,就像是讓 100 個普通學生同時做同一道題,然后看誰的答案對(人海戰術,浪費資源且容易大家都做錯)。

Qwen3-Max-Thinking像是一個資深學霸,做題時會先打草稿,發現第一步思路不對,立刻總結教訓,換個思路繼續推導,直到解出答案。

不是一直試錯,是在迭代。

2. 自適應工具調用:原生Agent的肌肉記憶

大多數模型的工具調用依賴于 Prompt Engineering(提示詞工程),即告訴模型你有xxx工具,能干什么,請使用它。

Qwen3-Max-Thinking這次通過大規模的RL(強化學習)后訓練,將工具調用內化為模型的原生能力。

它不再需要顯式的Trigger,而是基于對任務復雜度的感知,自主決策何時掛起推理、調用 Search 獲取實時信息、或調用 Python 解釋器進行精確計算等。

這種邊想邊做的能力,大幅降低了幻覺(Hallucination),也進一步提升了解決真實世界復雜任務的能力。

3. 極致的生態兼容:可絲滑接入Claude Code

這一點對于開發者至關重要:Qwen3-Max-Thinking 不僅兼容 OpenAI 協議,更原生兼容了 Anthropic API 協議。

這意味著它可以絲滑接入 Claude Code。只需修改 API地址 和 API Key。


現在Qwen3-Max-Thinking可以在網頁使用

https://chat.qwen.ai/


也可以通過API使用

接下來,老規矩,咱們直接上實測。

PS:Qwen3-Max-Thinking名字有點長,下文就用Qwen或者Qwen3代替了~

1.網文圈《校花的貼身高手》

由于聯網搜索已經自動整合進深度思考(由Agent自行判斷是否需要聯網),所以只需要打開深度思考即可(看見有讀者在別的公眾號評論區提問,為什么沒有聯網搜索了)

這是一部連載了十多年的網絡小說,無數人從初中到大學畢業,從喬布斯Iphone時代到LLM時代,還在看這本小說,然而此書作者依然還在日更。

書中劇情有一個關鍵節點,就是登上天階島,來問問Qwen是否能正確找到。

prompt:在網絡小說,校花的貼身高手中,主角是在哪一章登上天階島的?


有意思的是,查看思維鏈,可以看見,Qwen3-Max-Thinking會有意識地交叉對比不同的結果,防止被干擾,并且思考后給出章節不同的原因和結論,讓人感覺非常可靠。

我去QQ閱讀APP核實了一下,是正確的


接下來我又嘗試讓Qwen3-Max-Thinking用代碼給我畫個圖,看看能不能在超過2000萬字的小說中找到主角實力晉升的曲線。


Qwen3在思維鏈中意識到,兩千萬字還是太多了,這個任務無法完成,但是基于我的意圖,還是找到了具有代表性的章節和晉升節點,給我畫了出來,完成任務


2.(斬殺線熱梗)邏輯陷阱

斬殺線最近非常火,我給Qwen3造了一個邏輯陷阱,還和豆包進行對比,看看Qwen會不會陷進去

prompt:牢a是大a股買進去之后在坐牢嗎


Qwen3 完全正確,一下子就意識到這是一個人的網名,然后還告訴我這是常見的誤解。仔細看思維鏈,能發現Qwen居然搜索了x和facebook,但是豆包似乎都沒觸發網絡搜索。這下Qwen 3的Agent能力又贏了。


3.和Gemini 3 pro比較電影測評

考驗在海量信息中網絡搜索真相,這點完勝Gemini 3 pro

前兩天“重返寂靜嶺”上映,第一時間就去看了,沒想到是爛片,

只能說被嚇得莫名其妙,劇情很莫名其妙,看不懂,前面兩個女生抱在一起,一個被嚇得在刷小紅書,一個被嚇得在玩微信小游戲,我買的還是最中間的座位,不舍得走,但又一直被嚇,主要是劇情莫名其妙。

馬上試試AI搜索到的結果,是不是能符合我的真實體驗。

先試了Gemini 3:根本沒提到最新上映的重返寂靜嶺。。

而且搜索結果里似乎自相矛盾了,阿凡達同時出現在“值得一看“和“建議避雷”里,讓人有點困惑。


又試了這回的Qwen 3,因為交給Agnet自動判斷是否需要網絡查詢了,所以我們只要打開深度思考就好了。

Qwen3—Max甚合我意!簡直和我內心的意見一模一樣(每一場我都在電影院看過了,AI和我的意見居然一樣)

這些影評都是非常真實的。


我又點開思維鏈,仔細看看Qwen3具體是如何做到這一點的。

可以看見,Qwen 3在內置Agent的調度下,一邊搜索、整理、又搜索,又整理,進行了幾輪的整理,才有了最后的準確答案

并且在思維鏈中可以逐一看見被Qwen3搜索過的每一個影評網站,可以點擊進去瀏覽,能把海量信息匯總并且找到正確的信息,確實不錯。


4.記憶(功能上新,類似ChatGPT和Gemini)

這次千問也終于有了記憶:


點擊頭像,就能在設置里面打開或者關閉記憶。


下面做了一個場景預設測試,假如我是一個高考生,平時就愛和AI介紹自己喜歡的事情。


那么假如已經到了高考報志愿的時候,Qwen就可以根據我以往所有的聊天偏好,對我進行分析,找到最適合我的專業。(以下新開了一個聊天窗口進行測試),

可以看見,不給任何上下文信息,直接向Qwen 3 提問我適合什么專業。

Qwen 3 的回答是正確的。因為這就是我本人的真實經歷,非常認同AI的判斷。


5.視頻總結(支持上傳十分鐘以內的視頻)

大概十秒鐘,總結很順利,比以前快多了,查看思維鏈,可以看見一步步梳理脈絡


6.預測26年春晚,具身智能機器人表演到什么程度

時光匆匆又一年,年味漸濃

2026年春晚,宇樹科技將第三次登上春晚的舞臺。

去年具身智能機器人表演的是《秧BOT》,今年又會進展如何呢?

讓Qwen3預測一下今年的具身智能機器人,在春晚的舞臺上會有什么樣的表演。


到時候看Qwen3預測得準不準,春晚就揭曉!

7.公務員真題圖形推理題

Qwen思路和答案都完勝,gemini 3 pro居然做錯了

純圖形題目對于只有文字輸入的大模型來說是無解的

但是這次Qwen 3 max是可以上傳視頻的,來看看Qwen 3 實力如何。

下面是一道,公務員考試真題:


如何判斷這是一道好的公務員題目,就在于每個人去看了答案,都會覺得很簡單,但是讓你自己在考場做,就是做不出來。

這樣的題目考驗的正是公務員在為人民服務的過程中辦理實事、處置突變事項、臨場判斷的綜合素質,而不是悠哉坐在辦公室里的馬后炮和鍵盤俠。

正強如Gemini 3 pro也做不出來,我一點不意外。

但是讓我很意外的是,Qwen 3 max居然做出來了

以下是Qwen 3 max的解題


讓我們點開思維鏈,看看Qwen 3 max是如何思考的:

可以看見Qwen 3 的結構化思考,完全就是一位真實的公務員考生:

先是分析圖形變化規律、然后再嘗試推導邏輯關系,然后發現了找不到這個規律,于是又返回上一層重新思考圖形規律,最后找到正確思路。


其實最后這一句(注:)實為畫龍點睛之筆,讓我嘖嘖稱奇。

一年幾百萬公務員考生不斷刷題、報班、看課,就是為了找到題型規律,讓自己的腦子在考場上能適應“試題模式”,從而拿高分。

然而,Qwen 3 輕飄飄說出這一句,于無聲處聽驚雷,意味著已經完全把公務員考試的出題邏輯盡在掌握。


以下是Gemini 3 pro思考了接近4分鐘后,不僅被這道題目逼出了母語英文,

還給出了錯誤答案。


特地翻譯出來,看看gemini 3到底怎么錯的。


其實Gemini 3 pro一度接近正確思路,但是不知為何突然開始混亂了,

也許是因為還沒有Qwen 3 pro一樣,能懂得公務員考試的出題套路。

代碼類:會噴火的旋轉六邊形小球

似乎代碼能力并沒有那么好,試了一下GLM4.7能順利跑出來的case,Qwen 3還是有瑕疵。

prompt:用 HTML、CSS 和 JavaScript 實現這樣一個效果:一個小球被困在一個旋轉的六邊形內部。小球受到地球重力的作用,并與六邊形內壁產生摩擦。小球的彈跳需要看起來逼真自然。


優點是,Qwen 3 自動幫我考慮到了可調節參數,能讓我調節旋轉速度、重置位置、暫停旋轉等,下面還有參數顯示。

缺點是,這個明顯還有缺陷,小球會噴火。。

雖然 Qwen3-Max-Thinking 在代碼場景下還有瑕疵,但整體表現還是非常不錯的。

特別是在邏輯推理、信息檢索和中文語境的理解上,它給人的感覺非常扎實。

不知道Qwen在春節還有沒有什么壓箱底的大招,再放出來,我們可以一起期待一下。畢竟阿里的技術還是非常強勁的~

我是袋鼠帝,一個在這個AI時代,持續分享AI實踐干貨,陪你一起進化的數字游民。

點擊關注下方賬號,你將感受到一個朋克的靈魂。

能看到這里的都是鳳毛麟角的存在!

如果覺得不錯,隨手點個贊、在看、轉發三連吧~

如果想第一時間收到推送,也可以給我個星標?

謝謝你耐心看完我的文章~

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
老同學聚會班花陰陽我:同學中就屬你混得差,我:你爸都是我員工

老同學聚會班花陰陽我:同學中就屬你混得差,我:你爸都是我員工

紅豆講堂
2025-04-23 11:05:46
國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

比利
2026-01-23 12:41:53
鄧家佳黑絲

鄧家佳黑絲

情感大頭說說
2026-04-16 07:13:06
出戰15分鐘正負值-22!勇士輸球后揪出最大罪臣,頂薪合同恐懸了

出戰15分鐘正負值-22!勇士輸球后揪出最大罪臣,頂薪合同恐懸了

兵哥籃球故事
2026-04-18 14:53:45
小寶與王某雷,誰探訪花的數量更多?

小寶與王某雷,誰探訪花的數量更多?

挪威森林
2026-01-31 12:15:26
蘇林回國乘坐中國專列:全程中方乘務組,還配了越南語翻譯

蘇林回國乘坐中國專列:全程中方乘務組,還配了越南語翻譯

筆墨V
2026-04-18 17:34:22
【完整版】庫里:希望科爾開心 勇士需重塑基礎而不是天天談奪冠

【完整版】庫里:希望科爾開心 勇士需重塑基礎而不是天天談奪冠

畫夕
2026-04-18 14:16:10
樊振東為什么決絕續約,小胖給出8個字回應,德甲冠軍搶人失敗

樊振東為什么決絕續約,小胖給出8個字回應,德甲冠軍搶人失敗

以茶帶書
2026-03-17 20:52:47
19歲女孩自稱被困柬埔寨要被人“輪奸”勒索父親11萬,警方最新披露:男友同伙4人因非法入境被拘;父親回應女孩曾被送精神病院

19歲女孩自稱被困柬埔寨要被人“輪奸”勒索父親11萬,警方最新披露:男友同伙4人因非法入境被拘;父親回應女孩曾被送精神病院

大象新聞
2026-04-17 21:47:03
苦等10多天遭冷落:中國遲遲不回信,莫迪怒砸500億要取代中國地位

苦等10多天遭冷落:中國遲遲不回信,莫迪怒砸500億要取代中國地位

藍色海邊
2026-04-18 15:43:47
炸了!梅根2000美元演講,哈里中途奪路而逃,內急還是被逼瘋?

炸了!梅根2000美元演講,哈里中途奪路而逃,內急還是被逼瘋?

小寒嫣語
2026-04-18 20:59:31
明日起執行軍事任務,禁止駛入!

明日起執行軍事任務,禁止駛入!

魯中晨報
2026-04-18 21:16:16
八千里路云和月:丁玉嬌不知不覺愛上了孟萬福,藏在這兩個細節里

八千里路云和月:丁玉嬌不知不覺愛上了孟萬福,藏在這兩個細節里

容妃
2026-04-18 16:48:23
為何越來越多女高管染上艾滋病?2位35歲的女高管,公開講述經歷

為何越來越多女高管染上艾滋病?2位35歲的女高管,公開講述經歷

千秋文化
2026-04-16 20:18:37
你見過創業最慘的人是啥樣?網友:我被前任刷了30萬信用卡

你見過創業最慘的人是啥樣?網友:我被前任刷了30萬信用卡

帶你感受人間冷暖
2026-04-07 00:15:06
幾毛錢一包的零食,包裝上寫著“勿忘國恥是每個中國人的出廠設置”,廠家回應:是企業情懷,也是大家共同心聲

幾毛錢一包的零食,包裝上寫著“勿忘國恥是每個中國人的出廠設置”,廠家回應:是企業情懷,也是大家共同心聲

觀威海
2026-04-17 17:52:13
恩愛劇本不演了?奚夢瑤提離婚,何猷君掀桌子私生子傳聞真相大白

恩愛劇本不演了?奚夢瑤提離婚,何猷君掀桌子私生子傳聞真相大白

秋姐居
2026-04-04 22:23:29
陣風可達7級!北京明日迎風雨“組合拳”,揚沙浮塵或來襲!

陣風可達7級!北京明日迎風雨“組合拳”,揚沙浮塵或來襲!

環球網資訊
2026-04-18 17:02:44
國家統計局:3月一線城市房價全面上漲,近兩成城市新房價格回升,一季度開發投資跌幅收窄

國家統計局:3月一線城市房價全面上漲,近兩成城市新房價格回升,一季度開發投資跌幅收窄

華夏時報
2026-04-17 10:31:02
鞏固拓展經濟穩中向好態勢——國家發展改革委介紹“十五五”時期推動經濟社會高質量發展有關情況

鞏固拓展經濟穩中向好態勢——國家發展改革委介紹“十五五”時期推動經濟社會高質量發展有關情況

中國日報網
2026-04-18 08:54:08
2026-04-19 00:19:00
袋鼠帝 incentive-icons
袋鼠帝
持續分享AI實踐干貨,走超級個體崛起之路
71文章數 71關注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛隊向油輪開火 伊朗最高領袖發聲

頭條要聞

伊朗革命衛隊向油輪開火 伊朗最高領袖發聲

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應潘宏彬去世,拒談喪禮細節

財經要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態度原創

旅游
數碼
教育
公開課
軍事航空

旅游要聞

花開如雪 暗香浮動|濟寧戴莊流蘇花迎來最美花期 引市民打卡

數碼要聞

首款雷電5認證四盤位M.2固態硬盤盒,OWC發布Express 4M2 Ultra

教育要聞

教育縱深 | 聚焦春招進行時

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

解放軍護衛艦與外艦纏斗20小時 細節披露

無障礙瀏覽 進入關懷版