337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

字節(jié)跳動(dòng)vsDeepSeek,中國(guó)AI的開年雙王炸

0
分享至



作者|周煒皓

編輯|閆俊豪

2025年12月30日,字節(jié)跳動(dòng)Seed團(tuán)隊(duì)發(fā)布《Dynamic Large Concept Models》論文,挑戰(zhàn)了“Token是計(jì)算的原子單位”這一根深蒂固的假設(shè),提出計(jì)算應(yīng)當(dāng)是分層、動(dòng)態(tài)和抽象的

一天之后,12月31日,DeepSeek提交了一篇有梁文鋒署名的論文,論文題目是《mHC:流形約束超連接》,這篇論文直指大模型訓(xùn)練中的“信號(hào)爆炸”問(wèn)題,用mHC架構(gòu)為打造超大模型搭建起“腳手架”

從打破“如何想得更快更深”的推理瓶頸,到解決“如何長(zhǎng)得更大更穩(wěn)”的現(xiàn)實(shí)困境,字節(jié)跳動(dòng)和DeepSeek團(tuán)隊(duì)分別從兩個(gè)方向,揭開了未來(lái)AI發(fā)展的圖景一隅。

讓AI學(xué)會(huì)“速讀”與“深思”

2011年,諾貝爾獎(jiǎng)得主丹尼爾·卡尼曼在《思考,快與慢》中提出了System 1(快思考)和System 2(慢思考)的雙系統(tǒng)理論,常被用來(lái)類比AI的推理模式。

現(xiàn)有的 Transformer 模型,無(wú)論規(guī)模多大,本質(zhì)上都在執(zhí)行System 1式的直覺反應(yīng),基于統(tǒng)計(jì)規(guī)律快速預(yù)測(cè)下一個(gè)詞,缺乏System 2所具備的深思熟慮、規(guī)劃和概念抽象能力。字節(jié)跳動(dòng)團(tuán)隊(duì)則在論文中指出,語(yǔ)言模型不應(yīng)受限于其輸入形式,而應(yīng)具備在更高維度的“概念空間”進(jìn)行操作的能力

舉個(gè)例子,人類在理解“中華人民共和國(guó)”這個(gè)詞時(shí),大腦激活的不僅僅是七個(gè)字的字面意義,而是一個(gè)包含政治、經(jīng)濟(jì)、文化和歷史背景的語(yǔ)義網(wǎng)絡(luò)。DLCM 正是試圖在神經(jīng)網(wǎng)絡(luò)中構(gòu)建這種“概念”實(shí)體。

目前的 AI 模型存在一個(gè)通病,無(wú)論是處理無(wú)意義的虛詞,比如“的”、“是”,還是處理復(fù)雜的邏輯難題,消耗的計(jì)算資源是一樣的。這不僅效率低下,也限制了模型處理復(fù)雜任務(wù)的能力。DLCM通過(guò)引入“動(dòng)態(tài)概念”機(jī)制,讓 AI 具備了類似人類的“速讀”和“慢思考”能力



DLCM架構(gòu)概述

這套機(jī)制將處理過(guò)程分為兩步,首先,模型不再逐字逐句看書,而是自動(dòng)識(shí)別語(yǔ)義,將“今天天氣不錯(cuò)”這樣簡(jiǎn)單的一串詞瞬間打包成一個(gè)“概念”略過(guò),不費(fèi)腦力。其次,當(dāng)遇到“相對(duì)論推導(dǎo)”這樣的硬骨頭時(shí),模型會(huì)停下來(lái),在壓縮后的“概念空間”里調(diào)動(dòng)深層算力進(jìn)行縝密推理。

用更容易理解的話說(shuō),過(guò)去AI就像個(gè)死板的經(jīng)理,無(wú)論是審批買文具的 5 元發(fā)票,還是審批5個(gè)億的投資項(xiàng)目,都要花1個(gè)小時(shí)去審核。而引入DLCM后,這個(gè)經(jīng)理就有了抓大放小的能力,審批文具發(fā)票只花1秒鐘,把節(jié)省下來(lái)的時(shí)間和精力,全部用來(lái)仔細(xì)研究那個(gè)5億的投資項(xiàng)目。

把好鋼用在了刀刃上,比起普通AI,DLCM在處理燒腦的邏輯推理題時(shí)更聰明,推理計(jì)算量減少了約34%,處理多步邏輯推理任務(wù)時(shí),準(zhǔn)確率反而平均提升了2.69%。對(duì)于擁有億級(jí)用戶的字節(jié)跳動(dòng)來(lái)說(shuō),這意味著可以用更低的芯片成本,提供更聰明、反應(yīng)更快的 AI 服務(wù)。

“音量守恒”魔咒

“信號(hào)爆炸”,是過(guò)去大模型訓(xùn)練中的“地雷”。一旦踩中,不管你花了多少錢進(jìn)行訓(xùn)練,模型都可能瞬間崩潰,前功盡棄。

為了理解 DeepSeek 這項(xiàng)mHC技術(shù)的價(jià)值,我們可以把訓(xùn)練大模型想象成一場(chǎng)幾百人參與的“傳話游戲”。

在這個(gè)游戲中,“人”就是神經(jīng)網(wǎng)絡(luò)的層,“話”就是數(shù)據(jù)傳輸?shù)男盘?hào)或特征信息。在最早的深度網(wǎng)絡(luò)中,幾百人排成一列傳話。如果每個(gè)人都只靠“聽和說(shuō)”,傳到第100個(gè)人時(shí),消息往往已經(jīng)面目全非或者變得極其夸張。

這就是早期深層網(wǎng)絡(luò)訓(xùn)練困難的原因。過(guò)去,ResNet的解決方案是制定規(guī)則,讓每個(gè)人在傳話的同時(shí),必須把上一給人給你的“原話”寫在小紙條上,原封不動(dòng)地遞給下一個(gè)人。即使某個(gè)人腦子短路了,下一個(gè)人至少還能收到那張“小紙條”,保證了最基礎(chǔ)的信息不會(huì)丟,這就是恒等映射。

但問(wèn)題在于,這是一條“單行道”,隨著模型越來(lái)越大,這張“小紙條”上寫的字越來(lái)越多,想在上面塞進(jìn)更多的邏輯、語(yǔ)法和知識(shí),變得越來(lái)越困難。

為了解決“單行道”擁擠的問(wèn)題,字節(jié)跳動(dòng)等研究者想出了一個(gè)辦法,從過(guò)去的一列隊(duì)伍改成多排幾列,并允許這幾列隊(duì)伍之間互相交流。新的問(wèn)題出現(xiàn)了,由于沒(méi)有制定嚴(yán)格的“音量規(guī)則”,大家因?yàn)槟芑ハ嘟涣髯兊梅浅Ed奮。

第一列的人喊了一嗓子,第二列的人覺得很重要,于是拿個(gè)大喇叭復(fù)述,第三列的人聽到了,又把聲音放大幾倍傳回去。就這么一團(tuán)亂麻傳到最后,聲音被放大幾千倍,全是噪音,根本聽不清原本的消息,導(dǎo)致訓(xùn)練直接崩潰,這就是HC導(dǎo)致的大模型訓(xùn)練的困境。



結(jié)果表明,mHC 在損失和梯度范數(shù)方面都表現(xiàn)出更高的穩(wěn)定性

在這個(gè)背景下,DeepSeek的研究員意識(shí)到,多列隊(duì)伍是好主意,但必須治理“噪音爆炸”。于是他們引入了數(shù)學(xué)上的流形約束,依然是多列隊(duì)伍并行,依然允許互相交流,但每個(gè)人面前放了一個(gè)分貝儀,如果你想聽其他列的消息,可以,但你從他們那里接收的“總音量”必須嚴(yán)格等于1。

你想多聽第一列的人在說(shuō)什么,就得捂住另一只耳朵少聽其他列里的人說(shuō)話,如果你要往后面?zhèn)髟挘愕穆曇粢脖仨毷?分貝。這樣的好處在于,不管隊(duì)伍排多長(zhǎng),不管大家怎么互相傳八卦,整個(gè)房間的總音量始終控制在一個(gè)合理的范圍內(nèi)。

這就是mHC最關(guān)鍵的作用,將深層網(wǎng)絡(luò)的信號(hào)增益從3000倍壓制到1.6倍左右,實(shí)現(xiàn)了3個(gè)數(shù)量級(jí)的穩(wěn)定性提升。DeepSeek 利用 Sinkhorn-Knopp 算法強(qiáng)行“熨平”了所有的信號(hào)波動(dòng),無(wú)論模型有多大,內(nèi)部結(jié)構(gòu)都穩(wěn)如泰山

這項(xiàng)技術(shù)以僅增加 6.7% 訓(xùn)練時(shí)間的微小代價(jià),換來(lái)了極度的穩(wěn)定性。

從“恐懼”到“貪婪”

這兩篇論文發(fā)布后,市場(chǎng)的反應(yīng)也值得關(guān)注。

回想一年前的2025年1月27日,DeepSeek發(fā)布初代R1模型,全球資本市場(chǎng)曾陷入“算力通縮”的恐慌。當(dāng)時(shí),華爾街擔(dān)心中國(guó)廠商極高的算法效率會(huì)大幅減少對(duì)GPU的需求,導(dǎo)致英偉達(dá)股價(jià)單日暴跌17%,市值蒸發(fā)近5900億美元。

然而,2026 年1月2日,面對(duì)mHC和DLCM這兩項(xiàng)進(jìn)一步大幅降低算力成本、提升模型效率的“王炸”級(jí)技術(shù),資本市場(chǎng)卻表現(xiàn)出截然不同的態(tài)度。在兩篇論文發(fā)布后的首個(gè)交易日,英偉達(dá)股價(jià)并未因“需求減少”的邏輯而下跌,反而逆勢(shì)上揚(yáng)1.26%,收于188.85 美元

這種反差背后,是“杰文斯悖論”在發(fā)揮作用。早在工業(yè)革命時(shí)代,這位英國(guó)經(jīng)濟(jì)學(xué)家就發(fā)現(xiàn),當(dāng)技術(shù)進(jìn)步提高了使用資源的效率,但成本降低導(dǎo)致需求增加,會(huì)令資源消耗的速度不減反增。

比起“DeepSeek時(shí)刻”那會(huì)兒,市場(chǎng)擔(dān)心效率提升會(huì)導(dǎo)致顯卡需求下降,現(xiàn)在的投資者們想明白了一點(diǎn),效率提升以后,還可以把AI塞進(jìn)手機(jī)、眼鏡和汽車?yán)铮粌H不會(huì)少買,反而需要建設(shè)更龐大的推理集群來(lái)服務(wù)數(shù)十億用戶。

字節(jié)跳動(dòng)的DLCM通過(guò)降低34%的推理成本,為AI落地應(yīng)用掃清了障礙,DeepSeek的mHC則保證了未來(lái)更大規(guī)模模型的誕生,這兩者疊加,AI的蛋糕被做得更大了。

2026年開年的這兩篇論文,不僅是字節(jié)跳動(dòng)和DeepSeek的技術(shù)秀,更是中國(guó)AI產(chǎn)業(yè)在高端芯片受限背景下走出的一條“不對(duì)稱競(jìng)爭(zhēng)”之路。如果說(shuō)過(guò)去兩年大家還在比拼誰(shuí)的顯卡更多,那么從現(xiàn)在開始,比賽進(jìn)入了比拼誰(shuí)的腦子更快的新階段。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
印度首富小兒媳:棄帥模前男友,嫁300斤阿南特,如今成家族門面

印度首富小兒媳:棄帥模前男友,嫁300斤阿南特,如今成家族門面

照見古今
2026-04-12 19:32:51
美國(guó)秘密武器“幽靈低語(yǔ)”首次曝光:只要還有心跳,就能被找到丨畫說(shuō)熱點(diǎn)

美國(guó)秘密武器“幽靈低語(yǔ)”首次曝光:只要還有心跳,就能被找到丨畫說(shuō)熱點(diǎn)

封面新聞
2026-04-14 00:04:07
心源性猝死的人越來(lái)越多?醫(yī)生強(qiáng)調(diào):寧可打打牌,建議別做這7事

心源性猝死的人越來(lái)越多?醫(yī)生強(qiáng)調(diào):寧可打打牌,建議別做這7事

醫(yī)學(xué)原創(chuàng)故事會(huì)
2026-03-29 23:50:13
收手吧釋小龍!新片亂成一鍋粥,有謝苗的心,卻沒(méi)謝苗的命

收手吧釋小龍!新片亂成一鍋粥,有謝苗的心,卻沒(méi)謝苗的命

觀察鑒娛
2026-04-12 10:53:46
千元童鞋把腳穿腫?泰蘭尼斯遭家長(zhǎng)“圍攻”,醫(yī)生警惕影響發(fā)育,90%專利竟是外觀設(shè)計(jì)

千元童鞋把腳穿腫?泰蘭尼斯遭家長(zhǎng)“圍攻”,醫(yī)生警惕影響發(fā)育,90%專利竟是外觀設(shè)計(jì)

新浪財(cái)經(jīng)
2026-04-10 17:33:59
馬龍真是中國(guó)好姑爺!給岳父母在北京買房!真相曝光圈粉無(wú)數(shù)

馬龍真是中國(guó)好姑爺!給岳父母在北京買房!真相曝光圈粉無(wú)數(shù)

一盅情懷
2026-01-28 16:15:34
泰國(guó)海岸驚現(xiàn)被斬首“美人魚”!身長(zhǎng)約2.2米、體重約120公斤,當(dāng)局已展開調(diào)查,并懸賞5萬(wàn)泰銖緝兇

泰國(guó)海岸驚現(xiàn)被斬首“美人魚”!身長(zhǎng)約2.2米、體重約120公斤,當(dāng)局已展開調(diào)查,并懸賞5萬(wàn)泰銖緝兇

極目新聞
2026-04-14 14:40:14
速報(bào):京都山林里發(fā)現(xiàn)的遺體經(jīng)證實(shí)就是失蹤多日的11歲男童結(jié)希,警方在尸檢后公布的結(jié)果只有四個(gè)字...

速報(bào):京都山林里發(fā)現(xiàn)的遺體經(jīng)證實(shí)就是失蹤多日的11歲男童結(jié)希,警方在尸檢后公布的結(jié)果只有四個(gè)字...

日本物語(yǔ)
2026-04-14 20:44:44
美軍開始在海峽攔截船只,伊朗有一個(gè)王牌絕招,讓特朗普隱隱不安

美軍開始在海峽攔截船只,伊朗有一個(gè)王牌絕招,讓特朗普隱隱不安

謝葅解說(shuō)
2026-04-14 23:26:40
澳門的賭臺(tái),大面積關(guān)停!不是沒(méi)人去,而是被“算法”割廢的?

澳門的賭臺(tái),大面積關(guān)停!不是沒(méi)人去,而是被“算法”割廢的?

來(lái)科點(diǎn)譜
2026-03-01 09:37:46
芬蘭總統(tǒng):美以“選擇性戰(zhàn)爭(zhēng)”讓霍爾木茲海峽成了“核武器”

芬蘭總統(tǒng):美以“選擇性戰(zhàn)爭(zhēng)”讓霍爾木茲海峽成了“核武器”

環(huán)球網(wǎng)資訊
2026-04-14 20:42:18
張雪機(jī)車參加的WSKB,和MotoGP相距甚遠(yuǎn),但張雪距MotoGP并不遙遠(yuǎn)

張雪機(jī)車參加的WSKB,和MotoGP相距甚遠(yuǎn),但張雪距MotoGP并不遙遠(yuǎn)

仰臥撐FTUer
2026-04-14 19:38:04
李晨曬跑男聚餐照!Baby重回C位,鄭愷陳赫終于不避嫌了

李晨曬跑男聚餐照!Baby重回C位,鄭愷陳赫終于不避嫌了

賈媽的幸福生活
2026-04-14 11:33:49
陳龍燦:介紹張本宇日本打球,沒(méi)想到他回來(lái)了,對(duì)方卻改了國(guó)籍

陳龍燦:介紹張本宇日本打球,沒(méi)想到他回來(lái)了,對(duì)方卻改了國(guó)籍

以茶帶書
2026-04-14 14:10:58
火力翻倍!金正恩把10門“炮決”武器裝上“崔賢”號(hào)

火力翻倍!金正恩把10門“炮決”武器裝上“崔賢”號(hào)

IN朝鮮
2026-04-14 17:27:35
歐冠:決戰(zhàn)安菲爾德,巴黎與利物浦在陣痛與變革中狹路相逢

歐冠:決戰(zhàn)安菲爾德,巴黎與利物浦在陣痛與變革中狹路相逢

星耀國(guó)際足壇
2026-04-15 01:29:26
女王最小的“鳥窩頭”孫子:18歲復(fù)活節(jié)帥出圈,后腦勺卻明顯禿了

女王最小的“鳥窩頭”孫子:18歲復(fù)活節(jié)帥出圈,后腦勺卻明顯禿了

照見古今
2026-04-14 18:28:07
警惕:上了年紀(jì)再過(guò)性生活,最怕這2點(diǎn)!保護(hù)男性精氣,做好4點(diǎn)

警惕:上了年紀(jì)再過(guò)性生活,最怕這2點(diǎn)!保護(hù)男性精氣,做好4點(diǎn)

周哥一影視
2026-04-08 12:20:15
東南亞無(wú)裁判執(zhí)法2026年世界杯

東南亞無(wú)裁判執(zhí)法2026年世界杯

蘭亭墨未干
2026-04-15 01:02:16
張雪機(jī)車賣到香港了!網(wǎng)友:“香港總代理”含金量等同于搖錢樹…

張雪機(jī)車賣到香港了!網(wǎng)友:“香港總代理”含金量等同于搖錢樹…

火山詩(shī)話
2026-04-13 17:49:43
2026-04-15 01:51:00
速途網(wǎng) incentive-icons
速途網(wǎng)
17年歷史深度科技內(nèi)容平臺(tái),長(zhǎng)期追蹤AI、機(jī)器人、智能出行等前沿領(lǐng)域,助力中國(guó)硬科技每一次躍遷。
2331文章數(shù) 11431關(guān)注度
往期回顧 全部

科技要聞

離職同事"煉化"成AI?這屆公司不需要活人了

頭條要聞

54歲班主任帶15歲女孩到賓館開房猥褻:將她壓到床上

頭條要聞

54歲班主任帶15歲女孩到賓館開房猥褻:將她壓到床上

體育要聞

帶出中超最大黑馬!他讓球迷們“排隊(duì)道歉”

娛樂(lè)要聞

網(wǎng)曝鐘麗緹代孕要了個(gè)男孩 備孕近10年

財(cái)經(jīng)要聞

許家印認(rèn)罪,他和恒大還有多少欠債?

汽車要聞

售12.99萬(wàn)起/續(xù)航2000km 風(fēng)云T9L上市

態(tài)度原創(chuàng)

旅游
藝術(shù)
本地
公開課
軍事航空

旅游要聞

千城百縣看中國(guó)·賞花季|北京順義:又見梨花 歲歲年年

藝術(shù)要聞

她的水彩畫竟讓億萬(wàn)男人傾倒,你絕對(duì)想不到!

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗要求五個(gè)中東國(guó)家賠償戰(zhàn)爭(zhēng)損失

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版