337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Meta億元天團首個大模型交卷！耗時九個月，一雪Llama前恥

2026-04-09 09:48:05　來源: 量子位

北京舉報

0

分享至

再見了，所有的羊駝。

亞歷山大王帶隊9個月從零重構Meta所有AI技術棧，在不斷的質疑中交出超級智能實驗室第一個模型：

主打原生多模態的Muse Spark。

模型發布后，Meta股價火速拉升約7%，中間一度漲超近10%，當日整體上漲6%左右。

市場的反應可謂相當熱烈。

隨手一扒你就會發現，這款模型背后藏著不少我們熟悉的高手：思維鏈作者Jason Wei、o1核心貢獻者Hyung Won Chung、被小扎天價挖來的余家輝、擴散模型核心人物宋飏……

嗯？當這群人湊在一起，很明顯你就會找到一個關鍵詞：推理。

沒錯，據Jason Wei爆料，9個月前他們坐在一起討論時，首先寫下的就是一款用于推理的llama模型腳本，而現在，完全體終于誕生。

而頂尖高手+耗時9個月打磨，Muse Spark也總算讓Meta在第三方測評中趕上第一梯隊，一雪llama 4帶來的前恥。

而且很有意思的一點是，Meta這次一反常態，沒有反復強調自己拿了多少SOTA，而是稍顯克制地表示：

Muse Spark在多模態感知、推理、健康和自主任務方面表現不錯，但在編程和長時間自主運行方面仍與對家的頂尖模型存在差距。

咳咳，看來之前llama 4確實給Meta留下了心理陰影（doge）。

另外，Muse Spark的出生也終于讓長期以來有關“Meta開閉源”的討論蓋棺定論：

這次是真閉源了。

目前這款模型已上線Meta網站和APP，API僅向部分合作伙伴開放。

（不過亞歷山大王還是留了個口子，表示“計劃未來開源后續版本”）

“Meta回來了”

老規矩，先看一波測評成績。

作為Meta迄今最強大的模型，Muse Spark這次主要在三個方面表現突出：

一是多模態理解能力。

不管是看論文圖表還是屏幕，各項得分要么第一、要么和Gemini 3.1 Pro、GPT 5.4等不相上下。

從網友們的測試來看，它好像尤為擅長圖片轉代碼。

當然文本能力也不差（doge），在網友的激情測試中，它就火速通過了新版弱智吧風格的洗車測試。

100米外有個洗車店，我該開車去還是走路去。
Muse Spark：洗車當然要把車開過去，但沒必要搞得跟上下班通勤似的。

（當然也不排除是數據污染的問題，畢竟問題出來也挺久了…）

再一個就是工具調用能力，測評情況也和多模態理解能力類似。

以及這次Muse Spark著重強調的醫學能力。

由于和1000+醫生展開了合作，它不僅在開放式健康問答HealthBench Hard上拿到42.8的最高分，而且在多模態醫學問答MedXpertQA MM中位居前列。

不過短板我們開頭也說了，Muse Spark仍在編程和Agent類任務上與其他頂尖選手存在差距。

可能也是為了盡量彌補這一點，他們這次還專門推出了Contemplating沉思模式。

主要是讓多個Agent同時思考同一個問題，然后匯總結果找出最好的。

在這套打法下，Muse Spark就能和Gemini Deep Think、 GPT Pro這類極限推理模式展開正面PK了。

比如在“人類最后的考試”中，Muse Spark明顯壓過一頭（不過在物理奧賽理論題中還是略遜一籌）。

（目前沉思模式正在Meta網站灰度測試）

另外值得一提的是，Meta這次無預告直接上線了“購物模式”。

亞歷山大王表示，模型會結合用戶在ins、Facebook、Threads上關注的創作者和品牌偏好，做個性化的購物推薦。

好好好，這次也不給你討論的機會了，之前OpenAI可沒少因為廣告挨罵。

目前，隨著Muse Spark測評一同出爐的，還有第三方機構的測評。

他們拿到Muse Spark的早期訪問權測了一波，然后給出了一個結論：Meta回來了！

在關鍵指標人工智能分析指數上，其得分僅次于Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6。

這也和Muse Spark自己給出的測評成績差不多。

對外界而言，初步來看，Muse Spark確實把Meta重新帶回了人工智能第一梯隊。

背后訓練細節

至于Muse Spark是如何做到這一點的，Meta也公布了背后的訓練細節。

核心其實就是亞歷山大王提到的：9個月重構一切。

新的基礎設施、新的架構、新的數據管道。

具體可以看網友給大家劃的重點：

在預訓練階段，能夠以比Llama 4 少10倍以上的計算量達到相同的性能水平。
強化學習訓練展現出平滑且可預測的改進，具有良好的泛化能力和可擴展性。
Test-time階段，在加入長度懲罰機制后，“思維壓縮”開始生效，模型學會了用更少的token解決問題。

Meta在博客中介紹，過去9個月，他們對Muse Spark的預訓練技術棧進行了全面升級。

所有改進的目標，都是為了讓每一分算力都能產生更大的價值。

為了驗證效果，他們做了一個對比實驗：先用一系列小模型擬合出一條“算力-能力”的Scaling曲線，然后計算要達到某個性能水平具體需要多少算力。

結果發現，相比Llama 4，Muse Spark達到同樣水平所需要的計算量低了一個數量級以上（10.3倍）。

預訓練完成后，他們進一步用強化學習來提升模型能力。

雖然大規模RL訓練通常很不穩定，但他們聲稱自己的新架構做到了“穩中有進”。

如下圖所示，隨著RL訓練步數增加，模型在訓練數據上的成功率（無論是單次嘗試還是16次中至少成功一次）呈現對數線性增長。

這說明，RL在提升可靠性的同時，沒有破壞推理的多樣性。

而且在模型從未見過的任務上，準確率同樣在穩步提升——這說明RL帶來的能力提升是可預測、可泛化的，不是死記硬背。

以及為了讓模型在回答復雜問題之前先“想一想”，團隊仍用強化學習訓練它具備這種“測試時推理”能力。

不過需要注意，實踐證明Test-time階段的推理尤為耗費token，所以如何精打細算也是這一階段的重點。

對此，他們用了兩個關鍵手段來平衡效果與效率：

一是思考時間懲罰。鼓勵模型用更短的推理路徑得出正確答案，倒逼它學會“思維壓縮”。

二是多智能體協作。讓多個模型或模塊協同工作，在保證響應速度不降的前提下提升整體表現。

然后在AIME這類高難度評測集上，他們觀察到了一個有趣的“三階段變化”：

模型一開始會不自覺延長思考，希望通過拉長推理過程來提高正確率。

但這會馬上觸發“思考時間懲罰”，于是模型被迫精簡推理，學會用更少的token解決問題。

而在精簡之后，模型還表現出了擴展性能——在高效的基礎上繼續優化解法，最終實現用更少的資源獲得更強的性能表現。

也不乏翻車的

不過前面也說了，Muse Spark雖然將Meta帶回了第一梯隊，但在編程、Agent類任務上仍有不足。

這不，模型剛發布，翻車集錦也來了……

有人想用它生成網站，結果3個請求一個都沒實現，而且連最基本的前端都無。

不過后來貼主發現可能是偶然錯誤，模型正常情況下做出來的前端是這樣的。

一個簡單的編程任務，Muse Spark雖生成了一大堆東西，但根本跑不通。

在一個Python文件里實現自動微分（autograd）和神經網絡。

網友甚至調侃，模型根本沒在學，訓練了1800個epoch，損失函數卻一直卡在同一個值上沒動過。

白白浪費算力了……

（正常情況下，隨著訓練進行損失應該逐步下降，表明模型在“學習”）

所以問題來了，有試過的朋友覺得亞歷山大王的首個模型如何？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

π0.7的泛化能力有多強？零樣本純靠口述就能用空氣炸鍋

DeepTech深科技 2026-04-17 21:34:56
0 跟貼 0
π0.7來了！涌現出組合泛化、跨本體遷移能力，VLA又行了？

機器之心Pro 2026-04-17 18:23:23
0 跟貼 0

倫理防線不可靠！分布偏移誘導，大模型進入暗黑模式

新智元 2026-04-18 18:17:38
0 跟貼 0

Codex產品負責人：小型團隊不再需要PM，招了就危險了

智東西 2026-04-19 15:43:09
2 跟貼 2
北大團隊提出 SHINE：任意文本轉化大模型 LoRA，僅一次前向傳播

機器之心Pro 2026-03-23 15:46:38
0 跟貼 0

Elephant走紅：AI開始為“Token浪費”算細賬

華爾街見聞官方 2026-04-17 16:51:57
0 跟貼 0

小扎拆骨Thinking Machines！120億美元AI獨角獸第5位創始人跳槽Meta

新智元 2026-04-19 12:18:27
2 跟貼 2
榮耀機器人包攬半馬前三工程師回應

新京報 2026-04-19 12:25:11
4007 跟貼 4007

Opus 4.7重新登頂榜單，但強得多的GPT-5.5極大概率下周就發

新智元 2026-04-19 19:05:24
4 跟貼 4
π0.7發布，機器人迎來GPT-2時刻

智東西 2026-04-18 17:19:27
1 跟貼 1
10美元破解機器人觸覺難題！斯坦福開源方案讓機械手擁有人類手感

DeepTech深科技 2026-04-19 19:34:17
0 跟貼 0
智元機器人，要做AI大模型平臺和開放生態

36氪 2026-04-18 10:05:08
1 跟貼 1
剛剛，Claude推出“Figma殺手”，設計軟件股暴跌

智東西 2026-04-19 15:40:23
0 跟貼 0
支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
從實驗室到城市道路：高德“途途”亮相人形機器人“半馬”，揭開阿里具身智能全棧野心

每日經濟新聞 2026-04-19 20:15:04
5 跟貼 5
世界引擎：Post-Training開啟Physical AGI新紀元

機器之心Pro 2026-04-19 20:00:03
0 跟貼 0
編程智能體的隱藏bug，被上交IPADS團隊用數學邏輯給揪出來了

DeepTech深科技 2026-04-18 11:18:39
0 跟貼 0
印度油輪在霍爾木茲遭炮擊船員喊話伊朗海軍錄音公布

紅星新聞 2026-04-19 17:03:18
10514 跟貼 10514
大模型架構的下半場

量子位 2026-04-19 18:11:02
0 跟貼 0
這理解能力有點犯規啊

青煙影剪 2026-04-17 08:25:27
105 跟貼 105
Cell：鄧宏魁院士團隊發現，p53是人類細胞化學重編程的保護因子

生物世界 2026-04-18 09:09:54
0 跟貼 0
特朗普：伊朗封鎖海峽每天損失5億美元美國毫發無損

紅星新聞 2026-04-19 21:04:14
3766 跟貼 3766
河北家長醒醒！教育廳“白名單”背后的故事！

真語方策 2026-04-19 16:48:22
0 跟貼 0
長安汽車獲得發明專利授權：“車輛的多模態融合感知方法、裝置、車輛及存儲介質”

證券之星 2026-04-18 03:27:39
17 跟貼 17
獨家專訪元戎啟行周光：一場關于信任、偏見與未來定義的對話

汽車公社 2026-04-17 20:32:29
0 跟貼 0
“真銅實料”互嗆升級，海信高管稱格力部分機型用鋁線電機

紅星資本局 2026-04-17 18:26:04
1784 跟貼 1784
這道題考的是理解能力

早秋果追劇 2026-04-16 08:25:02
1 跟貼 1
太空奇跡！揭秘20個令人驚嘆的太空理論

萬物研究 2026-04-18 20:59:17
1 跟貼 1
叫板Meta：開云集團聯手谷歌計劃2027年推出Gucci高端智能眼鏡

環球網資訊 2026-04-17 14:15:26
1 跟貼 1
越南后悔，韓國掙扎，日本慶幸：廢除漢字，是三國最后悔的決定？

小蘭聊歷史 2026-04-19 02:10:07
0 跟貼 0
教你如何一個人用AI做仙俠短劇

AK007設計師 2026-04-16 20:39:58
0 跟貼 0
大爆炸理論錯了？宇宙或誕生于267億年前

六六冷知識 2026-04-15 12:51:24
1 跟貼 1
揭秘年銷10億的爆款宋柚汁：“宋柚”是商標，柚含量不到3%，主配料為糖水，品牌號稱全國銷量第一

藍鯨新聞 2026-04-15 09:44:24
4054 跟貼 4054
三拒絕案判決結果出來，李律發聲上訴立案通知書已啟動，戰斗繼續

春風自如 2026-04-18 08:23:47
0 跟貼 0
飛行員披露：最棘手時一天22小時坐在機艙準備起飛

環球網資訊 2026-04-19 09:53:02
451 跟貼 451
月薪最高18000元！“職”通海灣之周聘月招第二期來啦

上海奉賢 2026-04-19 09:58:03
0 跟貼 0
伊朗：只要存在海上封鎖就不會談判

極目新聞 2026-04-19 22:27:17
751 跟貼 751
宇宙不止四維？七維宇宙理論，比夸克還小萬億倍的“時空死結”

Science科學說 2026-04-19 08:00:00
0 跟貼 0
優越留學真實測評，拒絕夸大宣傳申請實力看得見摸得著

月灑半窗 2026-04-19 23:46:40
0 跟貼 0
Anthropic CEO：如果我是25歲，不會選編程，會選

機器之心Pro 2026-04-18 12:00:00
0 跟貼 0

特斯拉無人車進達拉斯：14輛車出14次事故后

特斯拉無人車進達拉斯：14輛車出14次事故后

Ping值焦慮

2026-04-19 06:33:09

反轉來了，伊朗對印度油船開炮，事態極為嚴重，特朗普或登機離國

反轉來了，伊朗對印度油船開炮，事態極為嚴重，特朗普或登機離國

眾生的世界觀

2026-04-20 02:57:59

國內或將逐漸停止腸鏡檢查？做檢查對身體有影響？醫生告訴您真相

國內或將逐漸停止腸鏡檢查？做檢查對身體有影響？醫生告訴您真相

健康科普365

2026-04-17 20:05:08

會稽山“以投入換增長”：三年花掉5.1億廣告費，爽酒成億級大單品，但仍困于江浙滬

會稽山“以投入換增長”：三年花掉5.1億廣告費，爽酒成億級大單品，但仍困于江浙滬

紅星新聞

2026-04-19 20:21:16

第二名法國士兵被打死，這就是為啥川普嘲諷歐洲稱贊以色列

第二名法國士兵被打死，這就是為啥川普嘲諷歐洲稱贊以色列

移光幻影

2026-04-19 17:35:39

太炸裂！荷蘭阿森賽道排名墊底，張雪機車最后一分鐘超車，太牛逼

太炸裂！荷蘭阿森賽道排名墊底，張雪機車最后一分鐘超車，太牛逼

林子說事

2026-04-19 07:44:53

預售價近40萬元的小鵬，把所有人都忽悠了！

預售價近40萬元的小鵬，把所有人都忽悠了！

新浪財經

2026-04-19 02:52:50

退休后最好的活法：不是聚會、養生、打麻將！而是這4件事

退休后最好的活法：不是聚會、養生、打麻將！而是這4件事

小影的娛樂

2026-04-19 20:18:44

形勢已然大變！西方媒體集體改口：中國，已無需再向世界證明什么

形勢已然大變！西方媒體集體改口：中國，已無需再向世界證明什么

樂享人生風雨

2026-04-11 02:05:32

帶著腳鐐的匪首在行刑時竟成功奪槍，橫掃主席臺，造成多人傷亡

帶著腳鐐的匪首在行刑時竟成功奪槍，橫掃主席臺，造成多人傷亡

興趣知識

2026-04-19 16:15:01

馬英九批蕭旭岑“見利忘義”，蕭旭岑回應，有人叫板馬英九？

馬英九批蕭旭岑“見利忘義”，蕭旭岑回應，有人叫板馬英九？

DS北風

2026-04-18 22:20:05

博士生過剩，高校裝不下了

麥可思研究

2026-04-19 17:10:25

謝賢前女友CoCo大曝張柏芝三胎生父內幕，無底線爆料，賬號被封！

謝賢前女友CoCo大曝張柏芝三胎生父內幕，無底線爆料，賬號被封！

尋墨閣

2026-03-06 13:57:52

她是上海著名主持，堅守一線工作30年，如今既是大學教授也是網紅

她是上海著名主持，堅守一線工作30年，如今既是大學教授也是網紅

以茶帶書

2026-04-19 16:46:39

死磕美國半輩子的薩達姆，至死未踏足中國半步，為何臨終的這句涉華預言卻字字應驗？

死磕美國半輩子的薩達姆，至死未踏足中國半步，為何臨終的這句涉華預言卻字字應驗？

史海孤雁

2026-04-18 15:17:08

王子璇的腳真大呀

動物奇奇怪怪

2026-04-19 19:28:39

一場比賽3張紅牌，7處誤判！巴薩硬剛歐足聯：這不是足球，是笑話

一場比賽3張紅牌，7處誤判！巴薩硬剛歐足聯：這不是足球，是笑話

老劉愛運動

2026-04-19 20:58:41

55年授銜：他以副兵團級成為大將候選人，曾一度成為政治局成員

55年授銜：他以副兵團級成為大將候選人，曾一度成為政治局成員

鍋鍋愛歷史

2026-04-18 01:14:51

50億保溫杯出口爆單：你以為老外愛養生，其實是中國工廠贏了

50億保溫杯出口爆單：你以為老外愛養生，其實是中國工廠贏了

隨遇而安之心

2026-04-20 03:17:52

若沒有此人，中國歷史或將改寫！晚年離休后享受什么待遇？

若沒有此人，中國歷史或將改寫！晚年離休后享受什么待遇？

史之銘

2026-04-19 15:49:20

追蹤人工智能動態

12497文章數 176455關注度

往期回顧全部

科技要聞

50分26秒破人類紀錄！300臺機器人狂飆半馬

頭條要聞

半年下沉22厘米女子家中坐擁價值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米女子家中坐擁價值上億別墅卻沒法住人

體育要聞

湖人1比0火箭：老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬！內娛隔空掀桌第一人

財經要聞

華誼兄弟，8年虧光85億

汽車要聞

29分鐘大定破萬極氪8X為什么這么多人買？

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

時尚

家居

本地

公開課

如何將ZH-1火力最大化？《戰艦世界》15.3版本造船廠加點攻略

裝修“精神角落”，就是這么上癮

家居要聞

法式線條時光靜淌

智能舒適簡約風尚
簡而不減暖居之道
現代融合自然靈動

本地新聞

12噸巧克力有難，全網化身超級偵探添亂

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版