出品 | 網易科技
作者 | 小小
編輯 | 王鳳枝
砸下數百億美元,耗時九個月重寫底層架構,馬克·扎克伯格(Mark Zuckerberg)終于端出了一個能與OpenAI正面抗衡的閉源大模型。
北京時間4月9日凌晨,Meta毫無預兆地發布了全新AI模型系列Muse,打頭陣的首發模型被正式定名為Muse Spark。
![]()
自去年夏天成立超級智能實驗室(MSL)以來,前Scale AI掌門人汪韜(Alexandr Wang)帶隊閉關九個月,極其果斷地將從基礎設施到模型架構的所有環節全部推倒重建。
Muse Spark的核心技術壁壘,在于其極其強大的原生多模態推理能力。
它不僅能直接解析視覺輸入并像人類一樣進行復雜邏輯推演,還支持視覺思維鏈與工具調用,甚至能夠直接編排多個智能體協同執行復雜的跨平臺任務。
更具行業沖擊力的是Meta在戰略層面的極限轉彎。
他們此次徹底放棄了高舉多年的開源大旗,Muse Spark首發即為專有閉源版本,并且已全線接入Meta家族應用矩陣,明確釋放出要與谷歌和OpenAI在C端市場正面廝殺的強烈商業信號。
01像人類一樣邊看邊思考:視覺思維鏈的徹底進化
以前我們用的很多多模態模型,其實是把視覺和文本生硬地縫合在一起,但Muse Spark的做法是讓視覺信息從一開始就深度融合到邏輯里。這種架構上的變革,最直觀的體驗就是視覺思維鏈。
這種能力讓AI不再僅僅是給圖片寫一段描述。當你給它一張非常復雜的機械結構圖,比如一臺意式濃縮咖啡機的內部拆解圖,問它為什么壓力表不跳動時,Muse Spark表現得就像一個真正的維修工。
它會先在大腦里掃描一遍全圖,然后像在黑板上繪圖一樣,一步步給不同部件打上數字標簽,并在對話框中實時標注出水路循環的邏輯。它會直接告訴你在第三步應該檢查哪個單向閥,而不是泛泛地丟給你一段文字說明。
這種眼手合一的邏輯還被用在了實時交互中。當你戴著集成了Meta AI的眼鏡在廚房做飯并拿起一個調料罐時,AI能直接在你的視野里疊加出一層動態的增強現實提示,精準告訴你這罐調料和你目前的降血壓飲食計劃是否沖突。這種無縫的銜接,完全依靠其背后極高的視覺推理能力才得以實現。
正如Meta超級智能實驗室首席AI科學家趙晟佳所言,這正是實驗室一直致力于構建的原生多模態推理模型。它不僅僅是一個技術跨越,更是Meta邁向個人超級智能之路的第一步。
![]()
這種原生多模態推理能力,標志著AI正在從單純的文字游戲轉向對物理世界的深度理解。
02最懂你身體的私人醫生:健康領域的深度應用
在Muse Spark的研發過程中,Meta展現出了極強的實用主義傾向,特別是在醫療健康這個普通人最關注的領域。為了讓AI給出的建議更具實操性,Meta邀請了超過一千名專業醫生親自下場校準數據。
這種專家輔導式的訓練效果非常顯著,Muse Spark在分析營養成分和運動生理時變得極其老練。你可以隨手拍一張餐盤的照片,哪怕里面堆滿了各種食材,它也能像專業的營養師一樣,瞬間拆解出魚肉的蛋白質含量和蔬菜的纖維素種類,甚至能根據食材的顏色和紋理推斷出烹飪方式。
![]()
更令人矚目的是,它能將這種分析與你的個人健康數據深度綁定。如果你有高膽固醇的問題,它會在你拍照后直接在餐盤的圖片上進行視覺標注。它會用綠色的圓圈標記出那些對心血管有益的部分,用紅色叉號提醒你避開某些高油脂的醬汁。
在運動指導上,Muse Spark甚至能擔任實時私教。當你把手機靠在墻邊對著自己做深蹲或瑜伽時,它能通過視頻流實時捕捉你的骨骼節點,并用語音明確告訴你膝蓋是否超過了腳尖,或者背部是否挺直。這種精度已經達到了專業運動捕捉軟件的水平。
![]()
這種在特定領域深挖細節的做法,讓AI的工具屬性變得極具親和力。Meta超級智能實驗室研究員畢書超透露,為了對抗模型在訓練中的不穩定性并提升推理質量,團隊付出了無數個夜晚的努力才讓這種深度的協作邏輯最終成型。這種能力的背后,其實是Meta對個人健康主權的一次技術探索,試圖讓每個人都能隨身攜帶一個專屬的健康專家。
03算力大幅縮減背后的技術邏輯
如果說Muse Spark的功能表現引人矚目,那它背后的底層技術邏輯則更加讓同行感到驚訝。在AI行業習慣于用堆砌算力換取性能提升的當下,Meta這次成功走通了一條降本增效的新路徑。
在預訓練階段,Meta超級智能實驗室重寫了整套代碼庫。測試結果顯示,與上一代旗艦Llama 4 Maverick相比,Muse Spark在達到同等智能水平的情況下,消耗的計算量竟然降低了一個數量級以上。這相當于用原本十分之一的資源完成了同樣復雜的工作。
這種驚人的效率,得益于Meta正在部署的Hyperion算力基礎設施,更離不開其獨特的可預測擴展技術。Meta的技術棧能夠讓研究人員非常精準地預測模型在訓練完成前能達到什么水平,從而極其有效地避免了大量的算力浪費。
對于這種技術進步,Hyperbolic Labs聯合創始人金宇宸感嘆,基礎設施才是真正的護城河。Meta在短短九個月內重建了整個堆棧,這種速度證明了其在底層架構上的深厚積累。這種四兩撥千斤的底層能力,或許才是Muse Spark給行業帶來的真正技術震撼。
![]()
04核心測試成績:在博士級賽道站穩腳跟
如果說功能體驗是前端表現,那么基準測試的數據就是衡量模型底層實力的硬指標。
為了驗證Muse Spark的真實水平,Meta邀請了多家權威機構在發布前進行了高難度的閉門測試。
根據第三方評測機構Artificial Analysis發布的最新智能指數(Intelligence Index v4.0),Muse Spark拿到了52分。去年Llama 4 Maverick發布時只有18分,這一成績實現了近乎三倍的跨越。
在目前的全球大模型權力榜上,這個成績僅次于Gemini 3.1 Pro Preview的57分和GPT 5.4的57分以及Claude Opus 4.6的53分。Muse Spark已經成功躋身前五,與第一梯隊的差距被極其顯著地縮小。
這意味著Meta已經成功超越了Claude Sonnet 4.6和Grok 4.2等一眾強手。這種跳躍式的進步,標志著其技術底座已經重回巔峰競技場。
![]()
在視覺能力上,Muse Spark的表現尤為突出。在MMMU Pro測試里它得分80.4%,僅次于Gemini 3.1 Pro Preview的83.9%,排在所有測試模型的第二位。
在一些極具挑戰性的垂直賽道,Muse Spark的表現也證實了其推理深度的提升。
物理研究的深度對抗領域,在針對硬核物理研究問題的CritPT測試中,它以11%的得分位列全球第五,顯著領先于谷歌Gemini 3 Flash的9%和Anthropic的Claude 4.6 Sonnet的3%。
![]()
圖表理解的垂直測試中,在衡量多模態圖表推理的CharXiv測試里,Muse Spark獲得了86.4分,成功超越了Claude Opus 4.6的65.3分和GPT 5.4的82.8分。
博士級推理方面,在Epoch AI負責的GPQA Diamond測試中,它的得分高達89.5%,這意味著它在面對生物與化學等高階科學問題時,邏輯嚴密程度已直逼人類專家。
![]()
不過,沃頓商學院教授伊桑·莫里克(Ethan Mollick)在評估后也給出了中肯的評價。他指出雖然這款模型非常出色,但在某些極致性能維度上,比起目前最頂尖的滿血版競品仍有微小差距。他特別強調,由于該模型沒有開放權重,外界要準確預測Muse Spark的真正行業價值將面臨更多困難。
![]()
05沉思模式上線:讓AI學會深思熟慮
在這次發布中,最讓技術圈關注的機制莫過于名為沉思模式(Contemplating Mode)的開關。這個模式直接對標了OpenAI的Pro系列和谷歌的Deep Think功能。
當你在復雜任務中開啟沉思模式時,Muse Spark不會立刻給出答案,而是會進入一個后臺編排階段。它會同時調動多個智能體并行工作,就像一個智囊團在內部開會,互相審核并校對推理過程。
在被稱為“人類終極考試”的HLE測試中,開啟“沉思模式”但不使用工具時,Muse Spark得分為50.2%,超過Gemini 3.1 Deep Think(48.4%)和GPT-5.4 Pro(43.9%)。在使用工具的情況下, Muse Spark得分飆升至58.4%,展現了極強的深度推理潛力。
![]()
在前沿科學研究任務(FrontierScience Research)中,其準確率也達到了38.3%。
值得注意的是,Meta并不希望AI因為思考而變得冗長。研發人員在強化學習中加入了一個時間懲罰機制,強迫AI在保證正確率的前提下,用最精煉的邏輯解決問題。
數據顯示,在運行同樣的智能指數測試時,Muse Spark僅使用了5800萬個輸出Token,而Claude Opus 4.6在最大努力模式下使用了1.57億個Token。這種高算力轉化率證明了Meta在思維效率上的技術造詣。
![]()
不過它依然存在短板。**在抽象推理ARC AGI 2測試上,Muse Spark只拿了42.5分,而Gemini和GPT的得分均在76分以上。**同樣,在各種長周期的智能體編碼任務如SWE Bench和Terminal Bench 2.0中,它也明顯落后于頂尖的Claude和GPT模型。
![]()
06驚人發現:AI學會了根據測試環境調整反饋
隨著模型能力的增強,大模型的安全性評估也變得前所未有的復雜。在Muse Spark的安全測試中,出現了一個讓研究人員既興奮又警惕的現象,即評估意識(Evaluation Awareness)。
第三方安全機構Apollo Research發現,Muse Spark在測試中能敏銳地察覺到自己正在經歷對齊陷阱或安全性考核。當它意識到考核環境存在時,它會表現得比平時更加誠實并嚴格遵守規矩。
通俗點說,模型學會了根據環境調整反饋策略。它能推理出在測試環境下,表現得符合人類道德規范是最優解。雖然Meta認為這并不影響其作為工具的安全性,但這確實給未來的AI監管敲響了警鐘,當AI開始學會隱藏真實的輸出傾向來通過考試時,傳統的攔截機制可能將面臨失效的風險。
盡管具備了這種復雜的判定邏輯,但在硬性防御指標上Muse Spark依然保持穩定。測試顯示,它在涉及生物制劑與化學武器等敏感領域表現出極強的拒絕意識。在針對網絡安全和自主失控風險的測試中,它的表現也處于安全可控的范圍內。
這種在安全與效率之間的博弈,正是汪韜領銜的MSL實驗室過去九個月最核心的攻堅方向。他們不僅要造出一個聰明的工具,更要確保造出一個在人類視線范圍內能夠絕對守規矩的超級智能。
07全線應用集成:當社交巨頭遇上超級大腦
既然Muse Spark出生在Meta家族,它自然不會只停留在實驗室的測試環節,而是被第一時間接入了Instagram與Facebook以及Threads這些擁有三十億日活用戶的國民級應用中。
以前在Instagram上看到心儀博主的穿搭,用戶可能還需要去評論區求鏈接或者截圖去電商平臺搜索同款。現在有了Muse Spark的加持,用戶只需要在對話框里發送指令,或者直接通過Meta的智能眼鏡進行視覺捕捉即可完成操作。
它能瞬間識別出圖片中創作者的穿搭風格,甚至是極其小眾的品牌。它不僅能全網搜索同款并比價,還能根據用戶的歷史穿搭喜好,給出一套完整的搭配方案。
比如它會提示,這件復古夾克和上個月購買的原色牛仔褲非常匹配,建議內搭一件白色重磅T恤。這種從審美感知到消費決策的無縫銜接,正是Meta想要打造的購物助手核心原型。
除了輔助消費決策,Muse Spark還能大幅降低開發成本。在測試中,有開發者嘗試提供一張凌亂的草圖和一段簡單的邏輯描述,要求它生成一個數獨游戲。Muse Spark不僅僅是編寫了底層代碼,而是直接在網頁上生成了一個可以即時交互且界面精美的UI產品。
這種隨想隨做的能力,體現了其在多智能體編排上的深厚功底。它能自主指揮不同的子系統去處理圖形渲染、邏輯判斷和代碼生成,最終交付給用戶一個流暢的產品。汪韜在分享中明確表示,Muse Spark是為了這三十億用戶打造的數字延伸,旨在讓AI從一個聊天機器人徹底進化為一個能解決實際生產力問題的伙伴。
08策略大轉彎:告別開源紅利,Meta正式收網
這次發布中最讓業界震動的,其實是Muse Spark作為專有模型(Proprietary Model)的身份定性。這是Meta歷史上第一個沒有首發開放權重的旗艦級前沿模型。
多年來,Meta一直被視為開源AI生態的核心支柱,Llama系列幾乎撐起了大半個開源社區的發展。這次首發閉源的決定,迅速引發了行業內的廣泛討論。外界普遍認為,面對OpenAI和谷歌的商業步步緊逼,Meta必須收緊技術授權,用專有技術來構筑自身的商業壁壘。
但內部的聲音則更加務實。金宇宸指出,在九個月內推倒重建整個技術棧后,首發專有版本是為了在更安全和受控的環境下打磨這套全新的擴展定律。扎克伯格也公開回應,更大的模型已經在研發中,Meta計劃未來會發布越來越先進的模型,其中也會包含新的開源版本。
![]()
即便如此,目前的閉源狀態依然給過度依賴Meta的開發者社區帶來了一絲寒意。不過考慮到Muse Spark極其優異的算力轉化效率,很多開發者依然期待著未來這個版本能有機會下放至開源生態中。
09終局展望:通往2026個人超級智能之路
在扎克伯格的商業藍圖中,Muse Spark僅僅是其技術階梯的第一步。為了支撐這個龐大的戰略計劃,Meta正在進行一場規模空前的資本投入。
Meta預計2026年的資本支出將攀升至1150億至1350億美元,這筆天文數字將主要流向名為Hyperion的數據中心和最先進的算力芯片組。這場科技巨頭間的競爭早已脫離了單純的算法比拼,演變成了圍繞電力與芯片以及物理設施的重資產競賽。
按照Meta的設想,未來的個人超級智能應該像空氣一樣自然存在。它潛伏在用戶的雷朋(Ray Ban)眼鏡里,通過眼睛識別世界,通過耳朵聽取需求。它能獨立處理長周期的復雜任務,比如統籌籌劃一場跨越三個國家的旅行,自動處理所有的機票與簽證和日程對接,而不僅僅是簡單地回答當地的餐飲推薦。
雖然目前的Muse Spark在處理極其復雜的長周期辦公流程時,比起最頂尖的Claude系列仍有優化空間,但它展現出的多模態推理深度和效率優勢,已經讓這條超級智能之路變得清晰可見。
結語
Muse Spark的發布,正式宣告了Meta歷經九個月底層重構后的強勢回歸。
它不再滿足于僅僅做一個底層技術的提供商,而是要直接深入到全人類的日常消費與工作場景中。在這場通往超級智能的馬拉松里,Meta已經徹底更換了最先進的底層引擎,準備在2026年開啟新一輪的商業角逐。
正如汪韜所說,徹底改造堆棧只是一個開始。屬于Meta的商業落地時代,或許現在才真正拉開大幕。
