突然襲擊！剛剛，Meta超級智能團(tuán)隊首個大模型來了

2026-04-09 09:23:53　來源: 機(jī)器之心Pro

北京舉報

分享至

機(jī)器之心編輯部

Meta 的大模型，卷土重來了！

剛剛，Meta 重金組建的超級智能實(shí)驗室（SML）交卷！這也是年輕華人 Alexandr Wang 帶領(lǐng)該團(tuán)隊后，交出的首份成績。

Meta 一直是生成式 AI 時代最值得關(guān)注的公司之一，早在 2023 年初，它憑借開源 Llama 系列模型，迅速積累了一批忠實(shí)且規(guī)模龐大的用戶群體。然而，這一勢頭在去年戛然而止：Llama 4 發(fā)布后評價褒貶不一，最終甚至被曝出存在刷榜（操縱基準(zhǔn)測試）的情況。

Llama 4 這次頗為坎坷的發(fā)布，促使 Meta 創(chuàng)始人兼 CEO 扎克伯格在 2025 年夏天對公司的 AI 業(yè)務(wù)進(jìn)行了徹底重組，成立了一個全新的內(nèi)部部門 ——Meta Superintelligence Labs（MSL），并邀請年僅 29 歲的前 Scale AI 聯(lián)合創(chuàng)始人兼 CEO Alexandr Wang 出任首席 AI 官，負(fù)責(zé)領(lǐng)導(dǎo)該部門。

在此之后，Meta 又以高薪招募了多位頂級研究員，試圖在大模型與通用智能（AGI）競爭中重新奪回主動權(quán)。

如今，Meta 正在展示這一系列調(diào)整的成果：全新自研模型 Muse Spark 上線。

Alexandr Wang 在競爭對手社交平臺 X 上表示，「今天，Meta 正式發(fā)布 Muse Spark，這是 MSL 推出的首個模型。九個月前，我們從零開始重構(gòu)了整套 AI 技術(shù)棧 —— 包括全新的基礎(chǔ)設(shè)施、全新的模型架構(gòu)以及全新的數(shù)據(jù)管線。Muse Spark 正是這一系列工作的成果，如今它已成為 Meta AI 的核心驅(qū)動力。」

Alexandr Wang 還表示，這是 Meta 迄今發(fā)布的最強(qiáng)模型，并具備工具調(diào)用、視覺思維鏈（visual chain of thought）以及多智能體協(xié)同（multi-agent orchestration）能力。他還透露，這將成為全新 Muse 模型家族的起點(diǎn)。

趙晟佳、Jason Wei等從OpenAI跳槽到Meta的大牛們，也開始「帶貨」新模型。

不過這也引發(fā)了外界對于 Meta 現(xiàn)有明星產(chǎn)品線，Llama 系列未來走向的諸多猜測。

Muse Spark 的定位，并非一個通用聊天機(jī)器人，而是構(gòu)建所謂個人超級智能的基礎(chǔ)。按照 Wang 的說法，這類 AI 不只是處理文本，而是能夠看見并理解你周圍的世界，從而成為個體能力的數(shù)字延伸。這一愿景，與扎克伯格在 2025 年夏天公開提出的個人超級智能宣言形成呼應(yīng)。

Muse Spark 目前暫時僅限于在 Meta AI 應(yīng)用和網(wǎng)站中使用，并通過面向部分用戶開放的私有 API 預(yù)覽提供訪問。此外，目前 Meta 也尚未公布該模型的定價信息。至于 Meta 是否已經(jīng)完全停止 Llama 系列的后續(xù)開發(fā)，目前仍不明確。

Muse Spark 性能

Muse Spark 在多模態(tài)感知、推理、醫(yī)療相關(guān)任務(wù)以及各類 agent 任務(wù)上表現(xiàn)出具有競爭力的能力。

Meta 還發(fā)布了 Contemplating（深度思考）模式，該模式可以調(diào)度多個 agent 并行推理。這使得 Muse Spark 能夠在推理能力上，對標(biāo)諸如 Gemini Deep Think 和 GPT Pro 等前沿模型的高強(qiáng)度推理模式。

這一點(diǎn)在評測指標(biāo)上可以看出來。在 Contemplating 模式下，Muse Spark 在 Humanity’s Last Exam 測試中達(dá)到了 58%，在 FrontierScience Research 測試中達(dá)到了 38%。

Muse Spark 現(xiàn)已上線，Contemplating（深度思考）模式將會在 meta.ai 中逐步推出。

應(yīng)用場景

Muse Spark 被視為 Meta 邁向個人超級智能的第一步，一種能夠理解用戶所處環(huán)境的 AI。從分析周圍場景到輔助健康管理，其更強(qiáng)的推理能力被認(rèn)為可以支撐一系列高度個性化的應(yīng)用場景。

多模態(tài)能力

從設(shè)計之初，Muse Spark 就強(qiáng)調(diào)跨領(lǐng)域、跨工具整合視覺信息。在視覺類 STEM 問題、實(shí)體識別和空間定位等任務(wù)上展現(xiàn)出較強(qiáng)能力。這些能力被整合后，可以支持更具交互性的應(yīng)用，例如生成簡單小游戲，或通過動態(tài)標(biāo)注幫助用戶排查家中設(shè)備問題。

健康領(lǐng)域

在健康場景中，Meta 將個人超級智能視為重要落地方向之一。據(jù)介紹，其與超過 1000 名醫(yī)生合作構(gòu)建訓(xùn)練數(shù)據(jù)，以提升模型在健康推理方面的準(zhǔn)確性和完整性。基于這些能力，Muse Spark 可以生成交互式內(nèi)容，用于解釋健康信息，例如食物的營養(yǎng)結(jié)構(gòu)或運(yùn)動過程中涉及的肌肉群等。

示例展示

提示：我是一名魚素者，且膽固醇偏高。請在推薦的食物上標(biāo)記綠點(diǎn)，在不推薦的食物上標(biāo)記紅點(diǎn)。請勿重復(fù)標(biāo)記，并確保圓點(diǎn)的位置準(zhǔn)確無誤。當(dāng)鼠標(biāo)懸停在圓點(diǎn)上時，請顯示個性化的推薦理由、滿分 10 分的健康評分，以及該食物的熱量、碳水化合物、蛋白質(zhì)和脂肪含量。健康評分的數(shù)值應(yīng)直接顯示在圓點(diǎn)正上方，無需懸停即可見。懸停時顯示的詳細(xì)說明文字，應(yīng)置于所有其他圓點(diǎn)的上方。

提示：針對這兩張圖片，請分別指出正在拉伸的肌肉部位及其難度等級。當(dāng)鼠標(biāo)懸停在圓點(diǎn)上時，請?zhí)峁╆P(guān)于該肌群的詳細(xì)信息，并指導(dǎo)我如何糾正動作姿勢。我希望能提升自己的瑜伽水平。請將我和我的伙伴的圖像并排展示，并分別以 1 到 10 的分?jǐn)?shù)對我們兩人的表現(xiàn)進(jìn)行評分。

提示：你能把這個變成一個可以在網(wǎng)頁上玩的數(shù)獨(dú)游戲嗎？

提示：識別咖啡機(jī)和磨豆機(jī)的關(guān)鍵組件，并制作一個交互式教程，通過簡單的網(wǎng)頁演示如何使用該設(shè)備制作拿鐵咖啡；當(dāng)鼠標(biāo)懸停在操作步驟上時，網(wǎng)頁將高亮顯示對應(yīng)組件的邊界框。

擴(kuò)展維度（Scaling Axes）

為了實(shí)現(xiàn)個人超級智能，模型能力需要以可預(yù)測且高效的方式持續(xù)擴(kuò)展。為此，Meta 從三個維度對 Muse Spark 的規(guī)模化能力進(jìn)行研究與跟蹤：預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)，以及測試時推理。

預(yù)訓(xùn)練（Pretraining）

預(yù)訓(xùn)練階段，是 Muse Spark 獲取核心能力的基礎(chǔ)，包括多模態(tài)理解、推理以及編程能力，這些能力也為后續(xù)的強(qiáng)化學(xué)習(xí)和測試時計算提供支撐。

在過去九個月中，團(tuán)隊對預(yù)訓(xùn)練體系進(jìn)行了全面重構(gòu)，涵蓋模型架構(gòu)、優(yōu)化方法以及數(shù)據(jù)構(gòu)建等多個方面。這些改進(jìn)共同提升了單位算力所能釋放的模型能力。

為了更嚴(yán)格地評估這一新體系，團(tuán)隊通過一系列小模型擬合了擴(kuò)展定律（scaling law），并對比了在達(dá)到同等性能水平時所需的訓(xùn)練 FLOPs。結(jié)果顯示：與此前的 Llama 4 Maverick 相比，現(xiàn)在可以用超過一個數(shù)量級更少的算力，達(dá)到相同能力水平。這一提升也使 Muse Spark 在效率上顯著領(lǐng)先于當(dāng)前可對比的主流基礎(chǔ)模型。

強(qiáng)化學(xué)習(xí)

在完成預(yù)訓(xùn)練之后，強(qiáng)化學(xué)習(xí)（RL）通過進(jìn)一步投入算力，持續(xù)放大模型能力。盡管大規(guī)模 RL 一直以來都容易出現(xiàn)不穩(wěn)定問題，但在新的技術(shù)體系下，模型表現(xiàn)出平穩(wěn)且可預(yù)測的提升。

相關(guān)結(jié)果顯示，隨著 RL 計算量（以訓(xùn)練步數(shù)衡量）的增加，Muse Spark 的能力持續(xù)增強(qiáng)。左圖中可以看到，在訓(xùn)練數(shù)據(jù)上，pass@1 和 pass@16（即 16 次嘗試中至少成功一次）的指標(biāo)呈現(xiàn)對數(shù)線性增長，這表明 RL 在提升模型可靠性的同時，并沒有削弱其推理多樣性。

右圖則顯示，在獨(dú)立的測試集上，準(zhǔn)確率同樣穩(wěn)步提升，這說明 RL 帶來的能力提升具備良好的泛化性：即使是訓(xùn)練中未見過的任務(wù)，Muse Spark 的表現(xiàn)也在持續(xù)改善。

測試時推理（Test-Time Reasoning）

強(qiáng)化學(xué)習(xí)（RL）讓模型在給出答案之前先思考，這一過程被稱為測試時推理。要將這種能力服務(wù)于數(shù)十億用戶，關(guān)鍵在于高效使用推理 tokens。為此，Meta 主要依賴兩個核心手段：一是通過思考時間懲罰來優(yōu)化 token 使用效率，二是通過多智能體協(xié)同，在不顯著增加響應(yīng)時間的情況下提升性能。

為了實(shí)現(xiàn)每個 token 帶來更多智能，其 RL 訓(xùn)練目標(biāo)是在引入思考時間懲罰的前提下最大化正確率。在 AIME 等部分評測中，這一機(jī)制會引發(fā)一種相變現(xiàn)象：模型最初通過延長思考時間來提升表現(xiàn)，但隨著長度懲罰的引入，開始壓縮推理過程，Muse Spark 能用更少的 tokens 完成同樣的問題求解。

在完成壓縮之后，模型又會適度延展推理過程，以進(jìn)一步提升整體表現(xiàn)，實(shí)現(xiàn)效率與性能之間的動態(tài)平衡。

為了在不顯著增加延遲的情況下投入更多測試時推理計算，可以通過增加并行協(xié)作的 agent 數(shù)量來解決復(fù)雜問題。下圖展示了這一方法的優(yōu)勢：相比傳統(tǒng)測試時擴(kuò)展（讓單個 agent 思考更久），通過多 agent 協(xié)同推理來擴(kuò)展 Muse Spark，可以在保持相近響應(yīng)速度的同時，實(shí)現(xiàn)更優(yōu)的性能表現(xiàn)。

https://ai.meta.com/blog/introducing-muse-spark-msl/

https://venturebeat.com/technology/goodbye-llama-meta-launches-new-proprietary-ai-model-muse-spark-first-since

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.