兩周前千問宣布30億請客,當時還有人覺得這又是一個大廠撒錢拉新的老故事,熱鬧完就散了。
昨天吳嘉披露的數據證明很多人低估了這件事的烈度:首日1500萬單,是預估的15倍。6天41億次"千問幫我",1.2億筆訂單,近半來自縣城,DAU也翻了幾倍。因為用戶參與遠超預期,阿里的投入也遠超30億。
就在除夕當天,阿里開源大模型千問Qwen3.5-Plus,實現底層模型架構革新。
一、
過去幾年大模型的主旋律是堆參數、堆數據、堆算力。Transformer自2017年以來,所有人都在同一個框架里做優化:更好的訓練數據、更聰明的RLHF、更長的上下文窗口,核心架構幾乎沒變過。Mamba、RWKV等挑戰者發了幾百篇論文,但行業共識很殘酷:要替代Transformer得在多個規模上(從十億到千億級)連續證明自己,絕大多數創新卡在了第一關。
實驗室里跑得漂亮,一放大就崩。所以過去兩年,真正進入生產環境的架構創新屈指可數。
二、
Qwen3.5這次更新做了四件硬事:
第一,改了注意力機制。以前每層都做全量計算,文本越長越卡。現在75%的層用線性注意力,25%保留標準注意力。該精讀的精讀,該略讀的略讀;
第二,MoE做到極致。397B參數,每次只用17B,不到5%的算力調動全部知識;
第三,提升推理速度。原生多Token預測,32K上下文吞吐量提升8.6倍,256K直接拉滿19倍;
第四,更大規模的預訓練跑穩了。小模型跑通不算數,大規模訓練不崩才是真本事。
結果是API價格降到了每百萬Token 0.8元,同等性能的Gemini 3 Pro是它的18倍。
三、
原生多模態。
行業里號稱多模態的模型一大把,但大部分是拼裝貨:先訓好語言模型,再外掛一個視覺模塊,中間靠適配層勉強對齊。就像給一個盲人戴上翻譯眼鏡,他能知道面前有什么,但看到的和想到的之間總隔著一層翻譯。更麻煩的是,很多模型視覺能力越強,語言能力反而降智。
Qwen3.5的做法是從第一天就讓模型同時學看和學說。文本和圖像在同一個參數空間里融合,沒有中間商。更難得的是,加入視覺數據后訓練速度幾乎沒受影響,和純文本訓練持平。結果是以不到40%的參數量在多項視覺評測中拿到最佳,大模型真正張開了眼睛。
四、
回看阿里這個春節檔:一手是千問App用遠超30億的請客讓幾千萬人學會"有事找AI",另一手是Qwen3.5用架構革新把效率天花板抬高一個量級——當幾千萬人同時涌進來喊"千問幫我",你需要一個既跑得快又足夠便宜的模型在后面接著。
Attention或許還是需要的,但All You Need的時代,正在結束。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.