337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Mac 用戶本地跑大模型,這可能是目前最能打的方案

0
分享至

關于本地部署和量化,我之前寫過不少:

今天聊一套讓我眼前一亮的東西——來自同一個團隊的三件套:JANG + vMLX + MLX Studio,這可能是目前最能打的方案

它們仨是啥關系?

先別被三個名字搞暈了

如果你玩過 PC 端的 GGUF + llama.cpp + Open WebUI,這三個的關系你一眼就懂:

層次

PC 端類比

Mac 端(這套)

量化格式

GGUF

JANG

推理引擎

llama.cpp

vMLX

桌面應用

Open WebUI

MLX Studio

簡單說:JANG 把大模型壓小,vMLX 把它跑快,MLX Studio 給你一個漂亮的界面。三件套,一條龍。

JANG:MLX 的量化救星

先聊最底層的 JANG,官方管自己叫"The GGUF for MLX"

說白了,就是一種混合精度量化方案

普通量化對所有參數一刀切,但模型里的 Attention 層對精度極其敏感,切太狠直接出 NaN(無效數值),模型就廢了

JANG 的聰明之處在于:對不同層給不同精度

  • Attention 層:保留 5~8 bit(不敢動)

  • MLP 層:壓到 2~4 bit(這里水分多,使勁壓)

  • 平均額外開銷:只多 0.3 bit

效果有多猛?看這組數據——230B 參數的 MiniMax M2.5 為例:

量化方式

大小

MMLU(200 題)

JANG_2L(2bit 混合)82.5 GB74%

MLX 4-bit

119.8 GB

26.5%

MLX 3-bit

93 GB

24.5%

MLX 2-bit

68 GB

25%

MLX 在各種 bit 下都只有 25% 左右——純隨機猜測水平,模型等于報廢了。JANG 的 2bit 混合版不但活得好好的,還拿了 74%,體積反而更小。

這差距也太離譜了


更夸張的是 397B 參數的 Qwen3.5:

  • JANG_1L:112 GB,塞進 128 GB MacBook Pro,MMLU 86.5%

  • MLX 2-bit / 3-bit:NaN,直接寄

  • MLX 4-bit:需要約 280 GB,地球上沒幾臺 Mac 裝得下

397B 模型在筆記本上跑起來了——這句話放兩年前說出來怕是要被當成瘋子。


所有量化好的模型都放在 HuggingFace 的 JANGQ-AI 上,下載即用。想自己量化的話,代碼在 github.com/jjang-ai/jangq,Apache 2.0 開源。

vMLX:100K 上下文快 224 倍

有了好的量化模型,還得有個快引擎

vMLX 就是干這個的

安裝極簡:

pip install vmlx
vmlx serve mlx-community/Qwen3-8B-4bit

啟動后在本地http://0.0.0.0:8000提供 OpenAI + Anthropic 兼容 API,Claude Code、Anthropic SDK 這些客戶端都能直接接


vMLX 最硬核的賣點是它的五層緩存棧——其他 Mac 端引擎最多有一兩層,vMLX 全給你堆滿了:

  1. 前綴緩存:對話中重復的部分只算一次

  2. 分頁 KV 緩存:多個對話同時駐留,切換不驅逐

  3. KV 緩存量化:q4/q8 壓縮,節(jié)省 4~8 倍內存

  4. 持續(xù)批處理:最多 256 個并發(fā)序列

  5. 磁盤緩存:重啟后立即恢復,不用重新算

五層疊加的結果就是,首個 Token 的響應速度碾壓同類:

上下文長度

vMLX

其他引擎

快多少

2.5K

0.05s

0.49s

9.7×

10K

0.08s

6.12s

76×

100K

0.65s

131s

224×

100K 上下文,別的引擎要等兩分多鐘,vMLX 不到一秒。我第一反應是"不可能",但這是實測的 TTFT(Time to First Token),五層緩存疊加確實恐怖。

除了緩存,還有幾個值得一提的特性:

  • 推測解碼:小模型打草稿 + 大模型驗證,提速 20~90%

  • Mamba / SSM 混合架構支持:Nemotron-H 這些奇葩架構只有 vMLX 能跑

  • 20+ 內置 Agent 工具:文件讀寫、代碼搜索、Shell 執(zhí)行、Git 操作、網頁搜索——全部本地運行

最后這點很有意思。vMLX 是目前唯一把 Agentic 工具內置到本地引擎里的方案,不用額外配 MCP 服務器,模型直接就能讀文件、執(zhí)行命令、搜索代碼庫。這個思路比 Ollama、LM Studio 激進得多。


項目地址:github.com/jjang-ai/vmlx,Apache 2.0 開源。

MLX Studio:不碰命令行也能玩

如果你覺得命令行太折騰,MLX Studio就是給你準備的——vMLX 引擎的完整 GUI 應用,永久免費。


MLX Studio 主界面——聊天、Agent 工具、圖像生成一體化

該有的全有了:

對話:流式多輪對話、折疊式思維鏈展示(DeepSeek R1、Qwen3、GLM)、拖拽圖片做視覺分析、語音朗讀回復。

圖像生成:5 個生成模型(Flux Schnell/Dev、Z-Image Turbo、Klein 4B/9B)+ 4 個編輯模型(Qwen Image Edit、Flux Kontext、Flux Fill、Flux Klein Edit),全部本地跑,零 API 費用。

模型管理:內置 HuggingFace 瀏覽器一鍵下載、GGUF → MLX 轉換器(支持 JANG 混合精度)、菜單欄快捷切換模型。

API 集成:同時提供 OpenAI 和 Anthropic 端點,支持 Claude Code 等客戶端直接對接。原生 MCP 支持,可以掛外部工具。


老實說,從功能完整度來看,MLX Studio 比之前我試過的 oMLX 豐富不少,尤其是圖像生成和 Agent 工具這塊,oMLX 是沒有的。不過 oMLX 勝在輕量簡潔,兩者定位不太一樣。

官網:mlx.studio

總結

這三件套解決的核心問題就一個:在 Apple Silicon Mac 上把本地 AI 的體驗拉滿

  • JANG解決"裝不下"——128GB Mac 跑 397B 模型,MLX 標準量化做不到

  • vMLX解決"跑不快"——五層緩存棧,100K 上下文快 224 倍

  • MLX Studio解決"用不了"——圖文生成、語音對話、Agent 編程,一個 App 搞定

三個項目全部 Apache 2.0 開源,全部免費。

有 Mac 跑本地模型需求的朋友,真的值得試試。

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“給你女兒買件好內衣吧!”中學女孩鍛煉視頻,網友都看不下去了

“給你女兒買件好內衣吧!”中學女孩鍛煉視頻,網友都看不下去了

妍妍教育日記
2026-03-30 18:38:24
陳賡援越,胡志明派來3名婦女服務,陳賡笑稱:姑娘,小姐,大嫂

陳賡援越,胡志明派來3名婦女服務,陳賡笑稱:姑娘,小姐,大嫂

健康快樂丁
2025-07-21 12:36:02
張雪峰巨額遺產歸屬曝光?!11歲的她全部繼承,二婚妻子剛登記不久

張雪峰巨額遺產歸屬曝光?!11歲的她全部繼承,二婚妻子剛登記不久

新浪財經
2026-04-01 08:08:34
隨著廣廈慘敗15分,深圳8連勝,CBA最新排名出爐!寧波排第9名

隨著廣廈慘敗15分,深圳8連勝,CBA最新排名出爐!寧波排第9名

薇說體育
2026-04-02 22:40:44
滬指跌逾1% 創(chuàng)業(yè)板指跌超2.6%

滬指跌逾1% 創(chuàng)業(yè)板指跌超2.6%

財聯社
2026-04-02 14:00:06
睡前默念這5個字,百歲高僧開示:這是最簡單的“修心聚能”法

睡前默念這5個字,百歲高僧開示:這是最簡單的“修心聚能”法

溫情郵局
2026-03-31 09:34:25
山東女子造出“天眼導彈”,突破中國導彈50年難關,坐擁26項專利

山東女子造出“天眼導彈”,突破中國導彈50年難關,坐擁26項專利

策略述
2026-03-26 13:44:30
金建希后半輩子有著落了,尹錫悅利用看守所漏洞,狂攬12億韓元

金建希后半輩子有著落了,尹錫悅利用看守所漏洞,狂攬12億韓元

王姐懶人家常菜
2026-04-02 19:41:18
75歲姜昆近況曝光,與46歲單身愛女相依為命,晚年日子太讓人羨慕

75歲姜昆近況曝光,與46歲單身愛女相依為命,晚年日子太讓人羨慕

橙星文娛
2026-04-01 16:32:42
廣西:在不新增隱性債務的前提下,鼓勵依法合規(guī)使用新增政府專項債,優(yōu)先支持高新區(qū)基礎設施建設

廣西:在不新增隱性債務的前提下,鼓勵依法合規(guī)使用新增政府專項債,優(yōu)先支持高新區(qū)基礎設施建設

新浪財經
2026-04-02 16:28:41
比阿隆索更強!利物浦鎖定 “歐洲最佳少帥”,復刻克洛普神跡

比阿隆索更強!利物浦鎖定 “歐洲最佳少帥”,復刻克洛普神跡

瀾歸序
2026-04-02 04:40:22
遲遲都等不到中企復工,巴拿馬頭號幫手已介入,中方加強港口管制

遲遲都等不到中企復工,巴拿馬頭號幫手已介入,中方加強港口管制

奧字侃劇
2026-03-25 08:29:10
iPhone 18 Pro黑色款或繼續(xù)缺席 可能帶來深紅款

iPhone 18 Pro黑色款或繼續(xù)缺席 可能帶來深紅款

cnBeta.COM
2026-04-02 19:25:03
長腿的優(yōu)勢:從追問別人到回答自己

長腿的優(yōu)勢:從追問別人到回答自己

疾跑的小蝸牛
2026-04-02 22:10:19
官宣了!中超第4輪 申花跟北京國安 這些豪門比賽 CCTV沒有直播

官宣了!中超第4輪 申花跟北京國安 這些豪門比賽 CCTV沒有直播

80后體育大蜀黍
2026-04-02 22:38:22
特朗普再出狂言:兩三周內把伊朗打回石器時代

特朗普再出狂言:兩三周內把伊朗打回石器時代

看看新聞Knews
2026-04-02 10:35:01
周杰倫10余年前求婚畫面首次公開:周杰倫單膝跪地向昆凌送上戒指,隨后兩人相擁看浪漫煙花

周杰倫10余年前求婚畫面首次公開:周杰倫單膝跪地向昆凌送上戒指,隨后兩人相擁看浪漫煙花

魯中晨報
2026-04-02 14:21:04
田馥甄43歲生日爆大瓜,六寶著床今年順產,S.H.E合體甜哭全網?

田馥甄43歲生日爆大瓜,六寶著床今年順產,S.H.E合體甜哭全網?

東方不敗然多多
2026-04-01 18:07:24
丈夫離婚前炒股、打賞揮霍百萬,法院:算作分走的財產,多退少補

丈夫離婚前炒股、打賞揮霍百萬,法院:算作分走的財產,多退少補

新京報
2026-04-01 22:22:19
4歲女孩漢堡店被踹后續(xù)!施暴女子身份被扒,疑似老師,警方介入

4歲女孩漢堡店被踹后續(xù)!施暴女子身份被扒,疑似老師,警方介入

青橘罐頭
2026-04-02 07:21:23
2026-04-02 23:52:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3303文章數 11122關注度
往期回顧 全部

科技要聞

三年虧20億,最新估值58億,Xreal沖刺港股

頭條要聞

北京89歲奶奶困屋內從27層翻窗下爬 爬到21層嚇壞鄰居

頭條要聞

北京89歲奶奶困屋內從27層翻窗下爬 爬到21層嚇壞鄰居

體育要聞

邵佳一的改革,從讓每個人踢舒服開始

娛樂要聞

宋寧峰帶女兒出軌,張婉婷找董璇哭訴

財經要聞

市場被特朗普一句話打醒 滯脹交易回歸

汽車要聞

軸距2米7/后排能蹺腿 試駕后驅小車QQ3 EV

態(tài)度原創(chuàng)

手機
時尚
親子
健康
藝術

手機要聞

OPPO Find X9s Pro再次確認:天馬屏+雙兩億像素,小屏影像機皇

成熟女性衣服別越買越多,準備好襯衫和西裝,得體大方又高級

親子要聞

希望每個來自星星的孩子,都可以健康快樂成長

干細胞抗衰4大誤區(qū),90%的人都中招

藝術要聞

故人西辭黃鶴樓,煙花三月下揚州

無障礙瀏覽 進入關懷版