網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

iPhone本地跑Gemma 4火了，0 token時(shí)代還有多遠(yuǎn)？

2026-04-07 10:52:08　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

谷歌前幾天開(kāi)源的新模型 Gemma 4，給了業(yè)內(nèi)一個(gè)大大的驚喜。

它采用了與 Gemini 3 同源的技術(shù)架構(gòu)，支持原生全模態(tài)，在 Arena AI 排行榜上拿到了全球第三，而且有多個(gè)型號(hào)可以選。幾個(gè)較小的型號(hào) —— E2B（有效參數(shù) 2.3B）和 E4B（有效參數(shù) 4.5B）—— 可以直接部署在手機(jī)端本地運(yùn)行，上下文窗口達(dá)到 128K，可以說(shuō)是「可以放進(jìn)口袋的 Gemini平替」。

不出所料，模型發(fā)布后很快就成了手機(jī)用戶(hù)的新玩具。

其中，一個(gè) X 用戶(hù)的帖子被圍觀數(shù)十萬(wàn)次。他在帖子里放了一個(gè)視頻，講述自己如何在 iPhone 上本地運(yùn)行 Gemma 4，包括處理圖片、音頻、控制手電筒開(kāi)關(guān)。他表示，Gemma 4 速度快得驚人，感覺(jué)像魔法一樣。

有人在 iPhone 17 Pro 上量化了這一速度，指出如果手機(jī)用的是蘋(píng)果芯片，那么在針對(duì)這套芯片優(yōu)化的 MLX（蘋(píng)果的機(jī)器學(xué)習(xí)框架）的幫助下，模型的推理速度可以超過(guò) 40 token / 秒。

還有人在三星 Galaxy 上也跑出了類(lèi)似的速度，而且還是在開(kāi)啟了思考模式的情況下。這讓人直呼「快得不真實(shí)」。

這樣的速度讓手機(jī)端運(yùn)行 AI 模型成為了未來(lái)可以被接受的選項(xiàng)，而且在醫(yī)療等敏感場(chǎng)景中非常有用。

128k 的上下文窗口也讓這些小模型變得更有吸引力。

那具體怎么運(yùn)行呢？其實(shí)很簡(jiǎn)單，不是極客專(zhuān)屬，因?yàn)楣雀璋l(fā)布了官方 App——Google AI Edge Gallery。想在手機(jī)上體驗(yàn)的人可以直接下載這個(gè) App，然后下載想要運(yùn)行的模型版本，之后打開(kāi)就能跑了。

而且，由于是谷歌官方發(fā)布，安全問(wèn)題自然也不用太擔(dān)心。

除了這些在手機(jī)端運(yùn)行的小模型，還有人在更強(qiáng)的硬件上嘗試了更大的 Gemma 4 版本，比如在 M5 Pro 版本的 MacBook Pro 上運(yùn)行 Gemma 4 Mixture-of-Experts 26B。

如果是直接對(duì)話，這個(gè)模型的速度還是很快的，文本生成、代碼解釋都很順暢。

但當(dāng)他真的將 Gemma 4 當(dāng)成 coding agent 去用時(shí)，問(wèn)題就來(lái)了。因?yàn)榕?agent 時(shí)需要大上下文（Gemma 4 26B 上下文窗口為 256k）、復(fù)雜 prompt 和穩(wěn)定的工具調(diào)用，Gemma 4 在這些地方明顯扛不住，經(jīng)常卡住、報(bào)錯(cuò)，或者輸出結(jié)構(gòu)不對(duì)。

轉(zhuǎn)折點(diǎn)發(fā)生在他將模型換成 qwen3-coder 的時(shí)刻，同樣環(huán)境下，文件創(chuàng)建、命令執(zhí)行、多步任務(wù)都能正常跑。他認(rèn)為，問(wèn)題不在 agent 框架，而在模型本身有沒(méi)有為「工具調(diào)用 + 結(jié)構(gòu)化輸出」做過(guò)優(yōu)化。在這方面，Gemma 4 可能做得還不夠，也有可能這位開(kāi)發(fā)者還沒(méi)找到正確的用法。

此外，還有人說(shuō)，Gemma 4 在智力水平上還有點(diǎn)雞肋。

雖然如此，Gemma 4 這種「性能小鋼炮」的出現(xiàn)依然不容小覷。如果以后大量的日常查詢(xún)、聊天、簡(jiǎn)單推理、代碼生成、圖像理解任務(wù)都可以本地跑了，不再需要買(mǎi) token，那賣(mài) token 的廠商豈不是處境很尷尬？

當(dāng)然，當(dāng)前情況還沒(méi)有那么悲觀，畢竟現(xiàn)在被開(kāi)源出來(lái)的模型和前沿的旗艦閉源模型之間還有差距，而且大部分能打的開(kāi)源模型依然受制于硬件能力，暫時(shí)還沒(méi)辦法在端側(cè)達(dá)到可用級(jí)別。

但未來(lái)的趨勢(shì)是清晰的。短期看，云端閉源模型在最前沿的復(fù)雜推理和超大規(guī)模多代理協(xié)作上依然領(lǐng)先；但長(zhǎng)期看，當(dāng)硬件繼續(xù)進(jìn)步、量化技術(shù)繼續(xù)優(yōu)化，端側(cè)模型會(huì)逐步蠶食云端的高頻簡(jiǎn)單任務(wù)。

那些只靠賣(mài) token、賣(mài) API 訂閱的廠商，將不得不更狠地卷「真正難啃」的部分 —— 超強(qiáng) Agent、超長(zhǎng)可靠上下文、以及需要海量實(shí)時(shí)數(shù)據(jù)的專(zhuān)有能力。

Gemma 4 只是一個(gè)開(kāi)始。下一個(gè)驚喜，可能就是某款端側(cè)模型在日常使用中徹底讓用戶(hù)感覺(jué)不到「本地」和「云端」的區(qū)別。那一天到來(lái)時(shí)，整個(gè) AI 產(chǎn)業(yè)的商業(yè)模式，都會(huì)迎來(lái)一次真正的洗牌。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.