網易首頁 > 網易號 > 正文申請入駐

千問除夕夜：一手請客，一手換骨架

2026-02-16 20:22:35　來源: 亂翻書

上海舉報

分享至

兩周前千問宣布30億請客，當時還有人覺得這又是一個大廠撒錢拉新的老故事，熱鬧完就散了。
昨天吳嘉披露的數據證明很多人低估了這件事的烈度：首日1500萬單，是預估的15倍。6天41億次"千問幫我"，1.2億筆訂單，近半來自縣城，DAU也翻了幾倍。因為用戶參與遠超預期，阿里的投入也遠超30億。
就在除夕當天，阿里開源大模型千問Qwen3.5-Plus，實現底層模型架構革新。

一、
過去幾年大模型的主旋律是堆參數、堆數據、堆算力。Transformer自2017年以來，所有人都在同一個框架里做優化：更好的訓練數據、更聰明的RLHF、更長的上下文窗口，核心架構幾乎沒變過。Mamba、RWKV等挑戰者發了幾百篇論文，但行業共識很殘酷：要替代Transformer得在多個規模上（從十億到千億級）連續證明自己，絕大多數創新卡在了第一關。
實驗室里跑得漂亮，一放大就崩。所以過去兩年，真正進入生產環境的架構創新屈指可數。

二、
Qwen3.5這次更新做了四件硬事：
第一，改了注意力機制。以前每層都做全量計算，文本越長越卡。現在75%的層用線性注意力，25%保留標準注意力。該精讀的精讀，該略讀的略讀；
第二，MoE做到極致。397B參數，每次只用17B，不到5%的算力調動全部知識；
第三，提升推理速度。原生多Token預測，32K上下文吞吐量提升8.6倍，256K直接拉滿19倍；
第四，更大規模的預訓練跑穩了。小模型跑通不算數，大規模訓練不崩才是真本事。
結果是API價格降到了每百萬Token 0.8元，同等性能的Gemini 3 Pro是它的18倍。

三、
原生多模態。
行業里號稱多模態的模型一大把，但大部分是拼裝貨：先訓好語言模型，再外掛一個視覺模塊，中間靠適配層勉強對齊。就像給一個盲人戴上翻譯眼鏡，他能知道面前有什么，但看到的和想到的之間總隔著一層翻譯。更麻煩的是，很多模型視覺能力越強，語言能力反而降智。
Qwen3.5的做法是從第一天就讓模型同時學看和學說。文本和圖像在同一個參數空間里融合，沒有中間商。更難得的是，加入視覺數據后訓練速度幾乎沒受影響，和純文本訓練持平。結果是以不到40%的參數量在多項視覺評測中拿到最佳，大模型真正張開了眼睛。

四、
回看阿里這個春節檔：一手是千問App用遠超30億的請客讓幾千萬人學會"有事找AI"，另一手是Qwen3.5用架構革新把效率天花板抬高一個量級——當幾千萬人同時涌進來喊"千問幫我"，你需要一個既跑得快又足夠便宜的模型在后面接著。
Attention或許還是需要的，但All You Need的時代，正在結束。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.