![]()
機(jī)器之心編輯部
Meta 的大模型,卷土重來了!
![]()
剛剛,Meta 重金組建的超級智能實(shí)驗室(SML)交卷!這也是年輕華人 Alexandr Wang 帶領(lǐng)該團(tuán)隊后,交出的首份成績。
Meta 一直是生成式 AI 時代最值得關(guān)注的公司之一,早在 2023 年初,它憑借開源 Llama 系列模型,迅速積累了一批忠實(shí)且規(guī)模龐大的用戶群體。然而,這一勢頭在去年戛然而止:Llama 4 發(fā)布后評價褒貶不一,最終甚至被曝出存在刷榜(操縱基準(zhǔn)測試)的情況。
Llama 4 這次頗為坎坷的發(fā)布,促使 Meta 創(chuàng)始人兼 CEO 扎克伯格在 2025 年夏天對公司的 AI 業(yè)務(wù)進(jìn)行了徹底重組,成立了一個全新的內(nèi)部部門 ——Meta Superintelligence Labs(MSL),并邀請年僅 29 歲的前 Scale AI 聯(lián)合創(chuàng)始人兼 CEO Alexandr Wang 出任首席 AI 官,負(fù)責(zé)領(lǐng)導(dǎo)該部門。
在此之后,Meta 又以高薪招募了多位頂級研究員,試圖在大模型與通用智能(AGI)競爭中重新奪回主動權(quán)。
如今,Meta 正在展示這一系列調(diào)整的成果:全新自研模型 Muse Spark 上線。
Alexandr Wang 在競爭對手社交平臺 X 上表示,「今天,Meta 正式發(fā)布 Muse Spark,這是 MSL 推出的首個模型。九個月前,我們從零開始重構(gòu)了整套 AI 技術(shù)棧 —— 包括全新的基礎(chǔ)設(shè)施、全新的模型架構(gòu)以及全新的數(shù)據(jù)管線。Muse Spark 正是這一系列工作的成果,如今它已成為 Meta AI 的核心驅(qū)動力。」
![]()
Alexandr Wang 還表示,這是 Meta 迄今發(fā)布的最強(qiáng)模型,并具備工具調(diào)用、視覺思維鏈(visual chain of thought)以及多智能體協(xié)同(multi-agent orchestration)能力。他還透露,這將成為全新 Muse 模型家族的起點(diǎn)。
趙晟佳、Jason Wei等從OpenAI跳槽到Meta的大牛們,也開始「帶貨」新模型。
![]()
![]()
不過這也引發(fā)了外界對于 Meta 現(xiàn)有明星產(chǎn)品線,Llama 系列未來走向的諸多猜測。
Muse Spark 的定位,并非一個通用聊天機(jī)器人,而是構(gòu)建所謂個人超級智能的基礎(chǔ)。按照 Wang 的說法,這類 AI 不只是處理文本,而是能夠看見并理解你周圍的世界,從而成為個體能力的數(shù)字延伸。這一愿景,與扎克伯格在 2025 年夏天公開提出的個人超級智能宣言形成呼應(yīng)。
Muse Spark 目前暫時僅限于在 Meta AI 應(yīng)用和網(wǎng)站中使用,并通過面向部分用戶開放的私有 API 預(yù)覽提供訪問。此外,目前 Meta 也尚未公布該模型的定價信息。至于 Meta 是否已經(jīng)完全停止 Llama 系列的后續(xù)開發(fā),目前仍不明確。
Muse Spark 性能
Muse Spark 在多模態(tài)感知、推理、醫(yī)療相關(guān)任務(wù)以及各類 agent 任務(wù)上表現(xiàn)出具有競爭力的能力。
![]()
Meta 還發(fā)布了 Contemplating(深度思考)模式,該模式可以調(diào)度多個 agent 并行推理。這使得 Muse Spark 能夠在推理能力上,對標(biāo)諸如 Gemini Deep Think 和 GPT Pro 等前沿模型的高強(qiáng)度推理模式。
這一點(diǎn)在評測指標(biāo)上可以看出來。在 Contemplating 模式下,Muse Spark 在 Humanity’s Last Exam 測試中達(dá)到了 58%,在 FrontierScience Research 測試中達(dá)到了 38%。
![]()
Muse Spark 現(xiàn)已上線,Contemplating(深度思考)模式將會在 meta.ai 中逐步推出。
應(yīng)用場景
Muse Spark 被視為 Meta 邁向個人超級智能的第一步,一種能夠理解用戶所處環(huán)境的 AI。從分析周圍場景到輔助健康管理,其更強(qiáng)的推理能力被認(rèn)為可以支撐一系列高度個性化的應(yīng)用場景。
多模態(tài)能力
從設(shè)計之初,Muse Spark 就強(qiáng)調(diào)跨領(lǐng)域、跨工具整合視覺信息。在視覺類 STEM 問題、實(shí)體識別和空間定位等任務(wù)上展現(xiàn)出較強(qiáng)能力。這些能力被整合后,可以支持更具交互性的應(yīng)用,例如生成簡單小游戲,或通過動態(tài)標(biāo)注幫助用戶排查家中設(shè)備問題。
健康領(lǐng)域
在健康場景中,Meta 將個人超級智能視為重要落地方向之一。據(jù)介紹,其與超過 1000 名醫(yī)生合作構(gòu)建訓(xùn)練數(shù)據(jù),以提升模型在健康推理方面的準(zhǔn)確性和完整性。基于這些能力,Muse Spark 可以生成交互式內(nèi)容,用于解釋健康信息,例如食物的營養(yǎng)結(jié)構(gòu)或運(yùn)動過程中涉及的肌肉群等。
示例展示
![]()
提示:我是一名魚素者,且膽固醇偏高。請在推薦的食物上標(biāo)記綠點(diǎn),在不推薦的食物上標(biāo)記紅點(diǎn)。請勿重復(fù)標(biāo)記,并確保圓點(diǎn)的位置準(zhǔn)確無誤。當(dāng)鼠標(biāo)懸停在圓點(diǎn)上時,請顯示個性化的推薦理由、滿分 10 分的健康評分,以及該食物的熱量、碳水化合物、蛋白質(zhì)和脂肪含量。健康評分的數(shù)值應(yīng)直接顯示在圓點(diǎn)正上方,無需懸停即可見。懸停時顯示的詳細(xì)說明文字,應(yīng)置于所有其他圓點(diǎn)的上方。
![]()
提示:針對這兩張圖片,請分別指出正在拉伸的肌肉部位及其難度等級。當(dāng)鼠標(biāo)懸停在圓點(diǎn)上時,請?zhí)峁╆P(guān)于該肌群的詳細(xì)信息,并指導(dǎo)我如何糾正動作姿勢。我希望能提升自己的瑜伽水平。請將我和我的伙伴的圖像并排展示,并分別以 1 到 10 的分?jǐn)?shù)對我們兩人的表現(xiàn)進(jìn)行評分。
提示:你能把這個變成一個可以在網(wǎng)頁上玩的數(shù)獨(dú)游戲嗎?
![]()
提示:識別咖啡機(jī)和磨豆機(jī)的關(guān)鍵組件,并制作一個交互式教程,通過簡單的網(wǎng)頁演示如何使用該設(shè)備制作拿鐵咖啡;當(dāng)鼠標(biāo)懸停在操作步驟上時,網(wǎng)頁將高亮顯示對應(yīng)組件的邊界框。
擴(kuò)展維度(Scaling Axes)
為了實(shí)現(xiàn)個人超級智能,模型能力需要以可預(yù)測且高效的方式持續(xù)擴(kuò)展。為此,Meta 從三個維度對 Muse Spark 的規(guī)模化能力進(jìn)行研究與跟蹤:預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí),以及測試時推理。
預(yù)訓(xùn)練(Pretraining)
預(yù)訓(xùn)練階段,是 Muse Spark 獲取核心能力的基礎(chǔ),包括多模態(tài)理解、推理以及編程能力,這些能力也為后續(xù)的強(qiáng)化學(xué)習(xí)和測試時計算提供支撐。
在過去九個月中,團(tuán)隊對預(yù)訓(xùn)練體系進(jìn)行了全面重構(gòu),涵蓋模型架構(gòu)、優(yōu)化方法以及數(shù)據(jù)構(gòu)建等多個方面。這些改進(jìn)共同提升了單位算力所能釋放的模型能力。
為了更嚴(yán)格地評估這一新體系,團(tuán)隊通過一系列小模型擬合了擴(kuò)展定律(scaling law),并對比了在達(dá)到同等性能水平時所需的訓(xùn)練 FLOPs。結(jié)果顯示:與此前的 Llama 4 Maverick 相比,現(xiàn)在可以用超過一個數(shù)量級更少的算力,達(dá)到相同能力水平。這一提升也使 Muse Spark 在效率上顯著領(lǐng)先于當(dāng)前可對比的主流基礎(chǔ)模型。
![]()
強(qiáng)化學(xué)習(xí)
在完成預(yù)訓(xùn)練之后,強(qiáng)化學(xué)習(xí)(RL)通過進(jìn)一步投入算力,持續(xù)放大模型能力。盡管大規(guī)模 RL 一直以來都容易出現(xiàn)不穩(wěn)定問題,但在新的技術(shù)體系下,模型表現(xiàn)出平穩(wěn)且可預(yù)測的提升。
相關(guān)結(jié)果顯示,隨著 RL 計算量(以訓(xùn)練步數(shù)衡量)的增加,Muse Spark 的能力持續(xù)增強(qiáng)。左圖中可以看到,在訓(xùn)練數(shù)據(jù)上,pass@1 和 pass@16(即 16 次嘗試中至少成功一次)的指標(biāo)呈現(xiàn)對數(shù)線性增長,這表明 RL 在提升模型可靠性的同時,并沒有削弱其推理多樣性。
右圖則顯示,在獨(dú)立的測試集上,準(zhǔn)確率同樣穩(wěn)步提升,這說明 RL 帶來的能力提升具備良好的泛化性:即使是訓(xùn)練中未見過的任務(wù),Muse Spark 的表現(xiàn)也在持續(xù)改善。
![]()
測試時推理(Test-Time Reasoning)
強(qiáng)化學(xué)習(xí)(RL)讓模型在給出答案之前先思考,這一過程被稱為測試時推理。要將這種能力服務(wù)于數(shù)十億用戶,關(guān)鍵在于高效使用推理 tokens。為此,Meta 主要依賴兩個核心手段:一是通過思考時間懲罰來優(yōu)化 token 使用效率,二是通過多智能體協(xié)同,在不顯著增加響應(yīng)時間的情況下提升性能。
為了實(shí)現(xiàn)每個 token 帶來更多智能,其 RL 訓(xùn)練目標(biāo)是在引入思考時間懲罰的前提下最大化正確率。在 AIME 等部分評測中,這一機(jī)制會引發(fā)一種相變現(xiàn)象:模型最初通過延長思考時間來提升表現(xiàn),但隨著長度懲罰的引入,開始壓縮推理過程,Muse Spark 能用更少的 tokens 完成同樣的問題求解。
在完成壓縮之后,模型又會適度延展推理過程,以進(jìn)一步提升整體表現(xiàn),實(shí)現(xiàn)效率與性能之間的動態(tài)平衡。
![]()
為了在不顯著增加延遲的情況下投入更多測試時推理計算,可以通過增加并行協(xié)作的 agent 數(shù)量來解決復(fù)雜問題。下圖展示了這一方法的優(yōu)勢:相比傳統(tǒng)測試時擴(kuò)展(讓單個 agent 思考更久),通過多 agent 協(xié)同推理來擴(kuò)展 Muse Spark,可以在保持相近響應(yīng)速度的同時,實(shí)現(xiàn)更優(yōu)的性能表現(xiàn)。
![]()
https://ai.meta.com/blog/introducing-muse-spark-msl/
https://venturebeat.com/technology/goodbye-llama-meta-launches-new-proprietary-ai-model-muse-spark-first-since
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.