今年 4 月,谷歌發布了新一代開源大模型 Gemma 4。這次一口氣推出了四種規格的版本,從手機到工作站全面覆蓋,其中最小的兩個版本專門為移動設備設計,主打完全離線運行。這其實本來也沒啥稀奇的,但更重要的是,谷歌這次是想讓手機跑本地模型了。
可能大家都已經刷到過不少關于Gemma4 實裝測試的內容,但但網上現有的測試,基本都是在最新款 iPhone 或旗艦機上進行的,這些旗艦本來就是最新款,性能和算力都是第一梯隊的,表現好也在情理之中。
而這時候小雷就不禁想發問,如果用的是一臺幾百到一千多塊的普通安卓機,中端處理器、不算頂尖的算力,本地模型還能不能正常用?和那些旗艦機比,差距到底有多大?
![]()
(圖源:雷科技攝制)
往更深一層說,本地 AI 是不是注定只能是旗艦手機的專屬功能?我們想搞清楚這件事,所以直接拿了一臺搭載中端芯片的千元安卓機來實測 Gemma 4,看看它的表現到底怎么樣。
千元機跑本地模型,簡直「拉完了」
我們這次拿來測試的是 vivo Y500 Pro,很典型的一臺千元安卓機,雖然不是什么老機型,但 SoC 整體性能還是偏一般的,畢竟它定價就在這兒,確實也沒啥好說的。它采用的是聯發科天璣 7400,臺積電 4nm 制程,CPU 配置是 4 個 2.6GHz 大核加 4 個 2.0GHz 小核,GPU 是 Mali-G615 MC2。
這套配置在千元價位段里算正常發揮,日常用沒什么問題,但要跟現在的旗艦芯片比算力,那真的不是一個量級的事。AI 這塊,天璣 7400 用的是聯發科 NPU 655,官方說比上一代提升了 15%。
谷歌為 Gemma 4 的手機端版本出了一個叫 Google AI Edge Gallery 的 App,應用商店直接搜就有。下載完打開,選 Gemma 4 E4B,等模型文件下好,就可以直接用了,全程離線,不用聯網,也不用搞任何配置。這個安裝體驗,谷歌還是做得挺用心的。那話不多說,直接開測。
![]()
(圖源:雷科技制圖)
第一題我們問了一個很生活化的問題:推薦三部適合在長途高鐵上看的電影,并說說理由。Gemma 4 給出的答案是阿甘正傳、盜夢空間和愛樂之城,選片本身沒什么問題,三部都挺經典,推薦理由也說得通,但問題在于,它給出了將近 500 字的回答,還額外附上了一條"小貼士",像什么高鐵上看電影記得帶耳機。
![]()
(圖源:雷科技制圖)
這在 vivo Y500 Pro 上,這 500 字足足跑了 2.8 分鐘,說實話,小雷看完才發現后半段根本沒必要讀。
這其實是小參數模型的一個常見毛病,它回答的時候往往不知道什么時候該停下來,偶爾還會給一些「建議」來湊字數,仔細閱讀下來就會發現其實兩三句話就能總結完。
接下來我們選擇了一道比較經典的多步邏輯推理題:五個人坐成一排,A 不坐在最左邊,B 坐在 C 的右邊,D 坐在 E 的左邊,E 不坐在最右邊,請問誰坐在最中間?雖然它在很認真地一步步列條件、排列組合,但最后卻給不了正確答案,甚至耗時 3.3 分鐘,在這過程中,我們是不能退到后臺等待它回答的,必須一直保持亮屏。也就是說,這 3.3 分鐘徹底被浪費掉了。
![]()
(圖源:雷科技制圖)
當然,這也不能怪 Y500 Pro 性能不足,其實我們在 X300 Pro 這臺旗艦機型上,也沒能把這個問題整出答案來,但 X300 Pro 回答的速度幾乎就是碾壓級的,1.6 分鐘就給出錯誤答案。就算錯,也算是錯的干脆。
![]()
(圖源:雷科技制圖)
同樣如此,小雷還嘗試之前那個難倒一大片 AI 大模型的超經典問題:洗車應該開車去還是走路去?讓人意外的是,這次兩款手機在同一個模型下,有了不同的思考。Y500 Pro 花了 2.5 分鐘,告訴我們「如果你是為了“洗車”去的,那應該選擇走路」,這種令人啼笑皆非的回答。
![]()
(圖源:雷科技制圖)
而 X300 Pro 中間是繞了一些彎子,它似乎也在反復確認「洗車」這個行為到底需不需車,但最后它還是提到,假如要去洗車,那還是要開車去。
跑完這三道題,Y500 Pro 上的 Gemma 4 E4B 給我們留下的整體印象就是很慢、廢話連篇,但倒是不怎么發燙。
慢是最直觀的感受,每道題平均要等兩到三分鐘才能看完完整回答。這個速度放在日常使用里真的很難受,說實話沒有人會愿意盯著屏幕干等三分鐘就為了看一個答案。但這里有一個細節值得說一下,慢不是因為模型沒在跑,而是天璣 7400 的 NPU 算力實在有限,每秒能處理的 token 數就那么多,再怎么努力也就這個速度了。
還有就是出錯率也挺高的,但也情有可原,模型在處理復雜邏輯的時候,需要在中間步驟上反復"思考",算力越充裕,這個過程就越完整,而在千元機上,這個過程很可能在還沒走完之前就被迫給出結論了,因為算力只有這么多,如果分配給推算太多資源,那后續就很難繼續下去,所以也更容易出現幻覺。
Gemma 4 E4B 是一個多模態的模型,所以我們也打算讓 Y500 Pro 試試看識圖效果如何。我們先丟了一張夜景購物中心的照片進去,問它圖里有什么信息。
它的回答說實話還過得去,描述了建筑規模、屋頂結構、夜景氛圍,方向是對的,但有一個很明顯的問題,圖里那么大一個 Apple Store 的招牌,它完全沒有提到,只說了個"現代大型購物中心"。品牌識別這件事對模型要求很高,需要把看到的視覺信息和背后的品牌知識對應起來,E4B 這個參數量顯然還不夠用,看得出輪廓,但認不出是誰。
![]()
(圖源:雷科技制圖)
第二張圖,我們隨手拍了個綠植的圖片問它這是什么,然后它就轉圈了。整整五分鐘,什么回答都沒有,只有那個一直在轉的加載動畫,更讓人崩潰的是,這段時間里整個 App 完全無法操作,不能打斷只能干等。其實這張圖片就是非常簡單的地插式噴頭,澆花用的,并不是很罕見的裝置。
![]()
(圖源:雷科技制圖)
那么 X300 Pro 是否能正確識別呢?其實是可以的,X300 Pro 僅用 32 秒就回答了這個難倒 Y500 Pro 的問題,只可惜它沒能準確說出這個裝置是什么只是猜測這是一個小型的傳感器。
![]()
(圖源:雷科技制圖)
跑完這三輪測試,Y500 Pro 上的 Gemma 4 E4B 并沒有如我們想象中一般完全干不動,相反其實有一點點小驚喜,比如它基本不發燙、也不是很卡頓,一些簡單的問題還是能正確回答出來。但問題在于,作為一個本地模型,它的回答速度實在太慢了,目前 Google AI Edge Gallery 的權限也不夠,除了開關手電筒之外,做不了其他系統級操作。
這就顯得很尷尬了,假如只能做到這樣的水平,回答速度也這么慢、還容易出錯,用戶為什么還要繼續用下去呢?說白了,除非真的到了徹底斷網的場景,否則還真不如一個在線大模型好用。
本地模型,普通手機真的能用嗎?
從前面的測試來看,Gemma4 目前確實是得旗艦手機才能達到一個「及格線」的標準,盡管還是有出錯的情況,但至少速度不拉跨,不像千元機那樣又慢又不準。
但回過頭來看,谷歌做這個 App,背后到底在布什么局?
Google AI Edge Gallery 里有一個叫 Mobile Actions 的功能,可以把你的自然語言指令直接轉化成對 Android 系統的操作,比如"幫我創建一個午餐日歷事件"或者"打開手電筒",模型理解你的意圖之后,直接調用系統工具去完成。
這條路其實已經在旗艦手機上開始走了,三星 Galaxy S25 系列推出了跨應用執行鏈,只用一句話就能讓多個 App 協同工作,比如說"幫我導航到今晚開會的地方",AI 會自動從日程表里讀取地址,再直接傳給地圖,整個過程不需要你復制粘貼,也不需要手動切換。還有此前全網爆火的豆包手機,更是實現了「手機自動駕駛」。
但這里有一個很重要的事實需要說清楚,那就是這些自動化操作,其實大部分都不是真正意義上的本地模型在跑。三星、蘋果,甚至豆包手機,都是如此。
![]()
(圖源:豆包手機助手)
本質上,本地模型的能力上限擺在那里,參數量越小能做的事情就越少,而用戶對 AI 的期待是越來越高的,單靠本地根本撐不起那個需求。所以云端成了兜底的方案,本地模型更多是承擔一些輕量、實時的任務,比如通知總結、語音識別這類對速度要求高的場景。
所以,谷歌這款 App 更像是在試水本地模型進入移動端,并且逐步開放自動化操作手機的功能權限,再讓盡可能多的設備都能跑起來,然后等芯片的算力跟上來。但芯片廠商什么時候愿意把真正夠用的 AI 算力下放到千元機這個價位?畢竟旗艦手機,從來都不是手機市場的銷量大頭。
聯發科、高通這幾年每代新旗艦芯片發布,都會重點強調 NPU 算力提升多少倍、AI 性能比上一代強多少,可中低端芯片往往并不重視這些,能效才是它們更在意的。因此,普通用戶能不能用上真正好用的本地 AI,取決于整個產業鏈有沒有足夠的動力去推動這件事。谷歌在軟件層面上開了一個口子,那么接下來就要看芯片廠商和手機廠商如何接招了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.