337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

24小時90次實驗,全程AI寫代碼,他獨自復(fù)現(xiàn)蘋果三年前的論文成果

0
分享至

內(nèi)存墻是計算機體系結(jié)構(gòu)中的一個經(jīng)典瓶頸,簡單來說,就是處理器的運算速度飛快,但內(nèi)存的容量和傳輸速度卻遠遠跟不上需求。

尤其是像 Qwen3.5-397B 這樣擁有 3,970 億參數(shù)的巨型模型,即使經(jīng)過 4 比特壓縮,其體積也高達 209 GB,是頂級消費級筆記本內(nèi)存容量的 4 倍以上。在傳統(tǒng)的推理模式下,這意味著你必須擁有數(shù)張價值不菲的專業(yè)顯卡集群才能勉強運行。

近日,來自美國最大的醫(yī)療保健和藥房連鎖公司之一 CVS Health 的人工智能平臺副總裁丹·伍茲(Dan Woods)完成了一項看似不可能的挑戰(zhàn):他運行了一個名為 Flash-MoE的項目,成功在一臺僅有 48GB 內(nèi)存的 MacBook Pro 上離線運行了擁有 3,970 億參數(shù)的 Qwen3.5-397B,運行速度達到約 5.7 tokens/秒,峰值可到 7.07 tokens/秒。


圖 | 伍茲(來源:社交媒體 X)

對伍茲而言,在本地設(shè)備上運行頂級規(guī)模的大模型,是他多年來的愿望。早在三年前,蘋果就發(fā)布過一篇名為“LLM in a flash: Efficient Large Language Model Inference with Limited Memory”的論文,明確指出通過從閃存流式傳輸權(quán)重,運行超出內(nèi)存容量的大模型完全可行。他一直期待這一天的到來,但即便蘋果的硬件架構(gòu)似乎為這一技術(shù)量身定制,官方卻始終沒有推出對應(yīng)的落地方案。

伍茲深知,編寫底層 Metal 著色器、Objective-C 推理引擎以及復(fù)雜的 I/O 優(yōu)化并不在自己的專業(yè)領(lǐng)域內(nèi)。但隨著 Claude Opus 4.6 的進化和 Claude Code 智能體化工程的成熟,時機終于來了。

他將研究思路和論文交給 Claude Code,并采用安德烈·卡帕西(Andrej Karpathy)“自動研究”模式的變體,讓 Claude 在 24 小時內(nèi)運行了 90 個實驗,以確定最佳推理策略、量化方法和架構(gòu)選擇。從 5,000 行的 Objective-C 推理引擎到 1,100 行的 Metal 著色器,再到 2 比特重分配量化管線及全部測試代碼,沒有一行是由他親手編寫的,全部出自 Claude 之手。

在相關(guān)論文中,伍茲還將 Claude Opus 4.6 列為第一作者。


(來源:GitHub)

在傳統(tǒng)的稠密模型中,每生成一個字,模型中的每一個參數(shù)都必須參與計算。Qwen3.5-397B 是一款極具代表性的超大規(guī)模混合專家模型(MoE)。這類模型并非所有參數(shù)同時工作,而是被拆分成為數(shù)百個“專家”模塊,每個 Token 只激活少數(shù)專家,其余模塊均處于閑置,天生具備極高的權(quán)重稀疏性。Qwen3.5-397B,總參數(shù)量為 3,970 億,但每個 token 僅激活 17B 參數(shù)。

Qwen3.5-397B 擁有 512 個專家,但在處理每個 Token 時,默認(rèn)只會激活 10 個專家。伍茲進一步發(fā)現(xiàn),即使只激活 4 個專家,模型的邏輯推理、數(shù)學(xué)和編程能力依然保持卓越,而一旦激活數(shù)量少于 3 個,模型輸出會直接崩潰。這意味著在任何一個計算瞬間,只有不到 2% 的專家權(quán)重是真正需要的。

因此,伍茲的想法是:如果能把這部分需要的權(quán)重從高速 NVMe 固態(tài)硬盤(SSD)快速傳輸?shù)絻?nèi)存/顯卡,就不用把整個模型塞進內(nèi)存,相當(dāng)于讓固態(tài)硬盤成為模型的“外部內(nèi)存”,流式給模型供能。

蘋果 M3 Max 的統(tǒng)一內(nèi)存架構(gòu)(CPU、GPU、SSD 共享一個地址空間,內(nèi)存帶寬達 400GB/s)和 3 倍于前代的 NVMe 速度,剛好提供了硬件基礎(chǔ),能在模型計算的時間內(nèi),把需要的專家權(quán)重傳過來。


(來源:GitHub)

為了實現(xiàn)這一想法,伍茲做了一些創(chuàng)新改進。

首先是給模型權(quán)重“瘦身”,在原有 4 比特量化的基礎(chǔ)上,對專家權(quán)重做 2 比特二次量化,單個專家大小從 7.08MB 降至 3.93MB,總存儲需求從 209GB 降到 120GB,數(shù)據(jù)傳輸量直接減少 44%,且每層量化誤差僅 0.001-0.003,模型輸出質(zhì)量幾乎沒有損失。

其次,在 MacBook Pro M3 Max 上,NVMe SSD 的順序讀取速度高達 17.5 GB/s。伍茲利用這一特性,開發(fā)了一套基于 C 語言和 Metal 指令集的管線,核心路徑上完全沒有 Python,也沒有使用任何現(xiàn)成的 ML 框架,把計算分成三個命令緩沖區(qū),讓 CPU 準(zhǔn)備下一層的同時,GPU 在算當(dāng)前層,實現(xiàn)重疊執(zhí)行,減少等待。

最令人意外的是緩存策略的反常識優(yōu)化。研究人員最初為提升速度搭建了 9.8GB 的應(yīng)用層緩存,結(jié)果卻發(fā)現(xiàn)速度不升反降。深入研究后發(fā)現(xiàn),蘋果硅芯片的硬件內(nèi)存壓縮器會因這類 GPU 可見緩存瘋狂工作,每秒數(shù)萬次的解壓縮消耗了大量 CPU 資源和內(nèi)存帶寬,反而擠占了數(shù)據(jù)傳輸和計算的資源。最終研究人員果斷刪掉所有應(yīng)用層緩存,讓 macOS 系統(tǒng)的頁緩存完全接管,這一調(diào)整直接讓模型運行速度提升 38%,解壓縮操作幾乎降至零。

一系列優(yōu)化下來,這款 3,970 億參數(shù)的大模型在 48GB 內(nèi)存的筆記本上,僅占用 6.5GB 內(nèi)存就能穩(wěn)定運行,每層計算耗時僅 2.9 毫秒,其中固態(tài)硬盤的數(shù)據(jù)傳輸是最大瓶頸,占比近 50%。經(jīng)測試,模型在 2 比特量化下的輸出質(zhì)量與 4 比特幾乎無差別,能正確完成數(shù)字因式分解、編寫規(guī)范 Python 代碼、用通俗類比解釋科學(xué)概念等任務(wù),完全達到實用標(biāo)準(zhǔn)。

伍茲指出,當(dāng)前系統(tǒng)僅受限于 SSD 帶寬,理論吞吐量底線可達 18.6 tokens/秒,而目前的 5.74 tokens/秒僅利用了硬件的部分潛能,仍有巨大提升空間。隨著蘋果 SSD 帶寬每代約 20% 的穩(wěn)步增長,預(yù)計在未來 2 到 3 代硬件更迭內(nèi),在個人筆記本上以 10 tokens/秒以上速度運行 4,000 億參數(shù)模型將成為常態(tài)。

他還表示,這種方法同樣適用于 DeepSeek-V3 等其他以專家權(quán)重為主導(dǎo)的 MoE 模型。

1https://github.com/danveloper/flash-moe/blob/main/paper/flash_moe.pdf

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
懸疑劇《危險關(guān)系》開播!連看4集后,我想說:孫儷又押對了寶

懸疑劇《危險關(guān)系》開播!連看4集后,我想說:孫儷又押對了寶

小丸子的娛樂圈
2026-04-01 00:01:02
老年人的性需求可能比年輕人更旺盛!

老年人的性需求可能比年輕人更旺盛!

黯泉
2026-03-30 13:58:50
“拆遷潮”又要重啟?自然部定調(diào)!2026年起6類房子或通通拆遷

“拆遷潮”又要重啟?自然部定調(diào)!2026年起6類房子或通通拆遷

巢客HOME
2026-03-30 19:14:13
一點別同情她!被教練性侵27次,卻在奧運賽場上,把隊友撞出賽道

一點別同情她!被教練性侵27次,卻在奧運賽場上,把隊友撞出賽道

來科點譜
2026-02-27 07:42:10
奧地利1-0韓國,薩比策破門,施拉格爾獻助攻,孫興慜失單刀

奧地利1-0韓國,薩比策破門,施拉格爾獻助攻,孫興慜失單刀

懂球帝
2026-04-01 04:45:56
意大利vs波黑:基恩PK哲科,托納利、雷特吉、巴雷拉出戰(zhàn)

意大利vs波黑:基恩PK哲科,托納利、雷特吉、巴雷拉出戰(zhàn)

懂球帝
2026-04-01 01:27:07
48小時被打殘一個裝甲營!以色列以人命為代價,給特朗普上了一課

48小時被打殘一個裝甲營!以色列以人命為代價,給特朗普上了一課

小蔑談事
2026-03-31 19:18:28
大的要來了!伊朗公開最后底牌,美軍迎戰(zhàn)世界第二大軍事集團總攻

大的要來了!伊朗公開最后底牌,美軍迎戰(zhàn)世界第二大軍事集團總攻

興史興談
2026-04-01 01:04:20
這是鞏俐年輕時的劇照,張藝謀導(dǎo)演,特別真實的,很貼近生活。

這是鞏俐年輕時的劇照,張藝謀導(dǎo)演,特別真實的,很貼近生活。

可樂談情感
2026-03-30 00:15:45
路特斯ForMe與寶馬X5L對比,F(xiàn)orMe更具選購價值

路特斯ForMe與寶馬X5L對比,F(xiàn)orMe更具選購價值

凡兮說
2026-03-31 22:09:41
異性發(fā)生親密關(guān)系前 大都會有這三種“生理越界”的信號 有一個準(zhǔn)成

異性發(fā)生親密關(guān)系前 大都會有這三種“生理越界”的信號 有一個準(zhǔn)成

朗威談星座
2026-03-31 20:07:43
對肝特別好的四大食物,輪流著吃,第三種你可能想不到

對肝特別好的四大食物,輪流著吃,第三種你可能想不到

距離距離
2026-03-28 17:23:37
俞敏洪:如果拼了命,英年早逝的話,和不那么拼命,而活到八九十歲,是一件更加合算的事

俞敏洪:如果拼了命,英年早逝的話,和不那么拼命,而活到八九十歲,是一件更加合算的事

南京擇校
2026-03-29 22:42:47
江蘇省南京江北新區(qū)黨工委原委員周金良接受紀(jì)律審查和監(jiān)察調(diào)查

江蘇省南京江北新區(qū)黨工委原委員周金良接受紀(jì)律審查和監(jiān)察調(diào)查

環(huán)球網(wǎng)資訊
2026-03-31 17:07:15
天生一張娃娃臉都已經(jīng)46了,你敢想?

天生一張娃娃臉都已經(jīng)46了,你敢想?

奇思妙想生活家
2026-03-31 11:19:19
4000+1500+4000!吉林化纖火力全開,國產(chǎn)碳纖維徹底爆發(fā)

4000+1500+4000!吉林化纖火力全開,國產(chǎn)碳纖維徹底爆發(fā)

戶外釣魚哥阿旱
2026-03-31 15:55:44
張雪峰二婚妻子付幸:幾個月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

張雪峰二婚妻子付幸:幾個月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

眼光很亮
2026-03-27 16:04:09
奉陪到底,外交部宣布動手,高市軍師遭制裁,日方急求中國派人談

奉陪到底,外交部宣布動手,高市軍師遭制裁,日方急求中國派人談

甜檸聊史
2026-04-01 03:43:02
日本警察廳就自衛(wèi)隊員強闖中國使館事件召開會議,日本警察廳長:該事件“極為特殊且性質(zhì)嚴(yán)重”

日本警察廳就自衛(wèi)隊員強闖中國使館事件召開會議,日本警察廳長:該事件“極為特殊且性質(zhì)嚴(yán)重”

每日經(jīng)濟新聞
2026-03-30 18:03:24
印度媒體渲染“勝利”實為政治鬧劇

印度媒體渲染“勝利”實為政治鬧劇

烽火瞭望者
2026-03-31 06:16:26
2026-04-01 05:03:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16516文章數(shù) 514821關(guān)注度
往期回顧 全部

科技要聞

華為2025年銷售收入8809億,凈利潤680億元

頭條要聞

伊朗總統(tǒng):愿意結(jié)束戰(zhàn)爭 前提是訴求得到滿足

頭條要聞

伊朗總統(tǒng):愿意結(jié)束戰(zhàn)爭 前提是訴求得到滿足

體育要聞

縣城修車工,用20年成為世界冠軍

娛樂要聞

《月鱗綺紀(jì)》空降 鞠婧祎卻被舉報偷稅

財經(jīng)要聞

油價暴漲 我們的生活成本會飆升多少?

汽車要聞

騰勢Z9GT到底GT在哪?

態(tài)度原創(chuàng)

健康
手機
房產(chǎn)
公開課
軍事航空

干細胞抗衰4大誤區(qū),90%的人都中招

手機要聞

vivo X300s線下上手:體驗后,不吐不快!

房產(chǎn)要聞

重磅!海南城市更新擬出新政!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:即使霍爾木茲海峽仍關(guān)閉 也愿意結(jié)束戰(zhàn)爭

無障礙瀏覽 進入關(guān)懷版