谷歌前幾天開(kāi)源的新模型 Gemma 4,給了業(yè)內(nèi)一個(gè)大大的驚喜。
![]()
它采用了與 Gemini 3 同源的技術(shù)架構(gòu),支持原生全模態(tài),在 Arena AI 排行榜上拿到了全球第三,而且有多個(gè)型號(hào)可以選。幾個(gè)較小的型號(hào) —— E2B(有效參數(shù) 2.3B)和 E4B(有效參數(shù) 4.5B)—— 可以直接部署在手機(jī)端本地運(yùn)行,上下文窗口達(dá)到 128K,可以說(shuō)是「可以放進(jìn)口袋的 Gemini平替」。
不出所料,模型發(fā)布后很快就成了手機(jī)用戶(hù)的新玩具。
其中,一個(gè) X 用戶(hù)的帖子被圍觀數(shù)十萬(wàn)次。他在帖子里放了一個(gè)視頻,講述自己如何在 iPhone 上本地運(yùn)行 Gemma 4,包括處理圖片、音頻、控制手電筒開(kāi)關(guān)。他表示,Gemma 4 速度快得驚人,感覺(jué)像魔法一樣。
![]()
有人在 iPhone 17 Pro 上量化了這一速度,指出如果手機(jī)用的是蘋(píng)果芯片,那么在針對(duì)這套芯片優(yōu)化的 MLX(蘋(píng)果的機(jī)器學(xué)習(xí)框架)的幫助下,模型的推理速度可以超過(guò) 40 token / 秒。
![]()
還有人在三星 Galaxy 上也跑出了類(lèi)似的速度,而且還是在開(kāi)啟了思考模式的情況下。這讓人直呼「快得不真實(shí)」。
![]()
這樣的速度讓手機(jī)端運(yùn)行 AI 模型成為了未來(lái)可以被接受的選項(xiàng),而且在醫(yī)療等敏感場(chǎng)景中非常有用。
![]()
128k 的上下文窗口也讓這些小模型變得更有吸引力。
![]()
那具體怎么運(yùn)行呢?其實(shí)很簡(jiǎn)單,不是極客專(zhuān)屬,因?yàn)楣雀璋l(fā)布了官方 App——Google AI Edge Gallery。想在手機(jī)上體驗(yàn)的人可以直接下載這個(gè) App,然后下載想要運(yùn)行的模型版本,之后打開(kāi)就能跑了。
![]()
而且,由于是谷歌官方發(fā)布,安全問(wèn)題自然也不用太擔(dān)心。
![]()
除了這些在手機(jī)端運(yùn)行的小模型,還有人在更強(qiáng)的硬件上嘗試了更大的 Gemma 4 版本,比如在 M5 Pro 版本的 MacBook Pro 上運(yùn)行 Gemma 4 Mixture-of-Experts 26B。
![]()
如果是直接對(duì)話,這個(gè)模型的速度還是很快的,文本生成、代碼解釋都很順暢。
![]()
但當(dāng)他真的將 Gemma 4 當(dāng)成 coding agent 去用時(shí),問(wèn)題就來(lái)了。因?yàn)榕?agent 時(shí)需要大上下文(Gemma 4 26B 上下文窗口為 256k)、復(fù)雜 prompt 和穩(wěn)定的工具調(diào)用,Gemma 4 在這些地方明顯扛不住,經(jīng)常卡住、報(bào)錯(cuò),或者輸出結(jié)構(gòu)不對(duì)。
![]()
轉(zhuǎn)折點(diǎn)發(fā)生在他將模型換成 qwen3-coder 的時(shí)刻 ,同樣環(huán)境下,文件創(chuàng)建、命令執(zhí)行、多步任務(wù)都能正常跑。他認(rèn)為,問(wèn)題不在 agent 框架,而在模型本身有沒(méi)有為「工具調(diào)用 + 結(jié)構(gòu)化輸出」做過(guò)優(yōu)化。在這方面,Gemma 4 可能做得還不夠,也有可能這位開(kāi)發(fā)者還沒(méi)找到正確的用法。
![]()
此外,還有人說(shuō),Gemma 4 在智力水平上還有點(diǎn)雞肋。
![]()
雖然如此,Gemma 4 這種「性能小鋼炮」的出現(xiàn)依然不容小覷。如果以后大量的日常查詢(xún)、聊天、簡(jiǎn)單推理、代碼生成、圖像理解任務(wù)都可以本地跑了,不再需要買(mǎi) token,那賣(mài) token 的廠商豈不是處境很尷尬?
![]()
![]()
![]()
當(dāng)然,當(dāng)前情況還沒(méi)有那么悲觀,畢竟現(xiàn)在被開(kāi)源出來(lái)的模型和前沿的旗艦閉源模型之間還有差距,而且大部分能打的開(kāi)源模型依然受制于硬件能力,暫時(shí)還沒(méi)辦法在端側(cè)達(dá)到可用級(jí)別。
![]()
但未來(lái)的趨勢(shì)是清晰的。短期看,云端閉源模型在最前沿的復(fù)雜推理和超大規(guī)模多代理協(xié)作上依然領(lǐng)先;但長(zhǎng)期看,當(dāng)硬件繼續(xù)進(jìn)步、量化技術(shù)繼續(xù)優(yōu)化,端側(cè)模型會(huì)逐步蠶食云端的高頻簡(jiǎn)單任務(wù)。
那些只靠賣(mài) token、賣(mài) API 訂閱的廠商,將不得不更狠地卷「真正難啃」的部分 —— 超強(qiáng) Agent、超長(zhǎng)可靠上下文、以及需要海量實(shí)時(shí)數(shù)據(jù)的專(zhuān)有能力。
Gemma 4 只是一個(gè)開(kāi)始。下一個(gè)驚喜,可能就是某款端側(cè)模型在日常使用中徹底讓用戶(hù)感覺(jué)不到「本地」和「云端」的區(qū)別。那一天到來(lái)時(shí),整個(gè) AI 產(chǎn)業(yè)的商業(yè)模式,都會(huì)迎來(lái)一次真正的洗牌。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.