337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

頂會研究系列 | EFLA:可精確求解的穩定線性注意力!

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區,始終堅持“中立、開放、共建、共創、合作”五項基本原則,歡迎加入共同成長。

wisemodel社區持續舉辦系列頂會會享,歡迎研究人員的團隊報名分享與投稿

線性注意力和 SSM 這兩年被頻繁拿出來討論,原因很簡單:softmax attention 的二次復雜度在長上下文場景下已經越來越難以接受。但與此同時,一個同樣反復出現的現象也越來越明顯——只要上下文一拉長、輸入尺度一放大,很多線性注意力模型就開始數值不穩定,性能迅速退化。

通常的解釋路徑是熟悉的:線性注意力缺少 softmax 的歸一化、對輸入能量敏感、需要額外的 gate 或 decay 機制來穩住訓練。但 EFLA 這篇論文提出了一個更底層、也更“數學正確”的解釋:問題不在注意力本身,而在于之前一直在用一個過于粗糙的數值方法去實現它。


項目地址:https://wisemodel.cn/codes/kkkkkleeiii/EFLA

01.

線性注意力其實在“解一個連續系統”

如果把 DeltaNet 這一類線性注意力的狀態更新寫下來,會發現它本質上是在維護一個 key→value 的關聯矩陣,并在每個時間步對這個矩陣做一次小幅修正。這個過程通常被解釋為 online regression 或 fast weights:


但 EFLA 指出,更自然的理解其實是:

這是一個連續時間動力系統,被強行離散化成了逐 token 的更新。


在連續時間里,這個系統的行為非常清晰:一方面,舊的記憶沿著當前 key 的方向指數衰減;另一方面,新的 value 沿著同一個方向被注入進狀態中。換句話說,這是一個帶衰減項和輸入項的一階線性 ODE。

而在代碼里看到的 DeltaNet 更新,其實只是對這個連續系統做了一步最簡單的數值積分。

02.

真正的問題:之前一直在用Euler

從數值分析的角度看,DeltaNet 使用的更新方式等價于顯式 Euler 方法。Euler 的優點是簡單、快,但它也是最低階的一種數值積分方法。它的誤差在單步看起來很小,但會隨著步數線性累積。

把這個事實代回線性注意力,就會發現很多“經驗現象”突然說得通了:

為什么序列一長就容易不穩?為什么 key 的范數一大,狀態就會爆?為什么在高能輸入或者 OOD scale 下模型直接崩掉?

不是模型設計出了問題,而是你在用一個一階方法,去長期積分一個本來就帶指數行為的系統。

03.

那為什么不直接“把系統解對”

聽起來很自然的一個想法是:既然這是一個連續系統,那能不能直接用更高階的方法,甚至直接算解析解?

答案通常是否定的。原因也很現實:連續系統的精確解會涉及矩陣指數,而對一般矩陣來說,解 的計算代價是

,在注意力里根本不可接受。但 EFLA 的關鍵發現是:線性注意力里的這個系統,有一個被長期忽略的特殊結構。

04.

關鍵在于:這個矩陣幾乎永遠是rank-1

在 DeltaNet 和類似方法中,決定衰減方向的矩陣,實際上是由當前 key 的外積構成的。也就是說,它只有一個非零方向,本質上是 rank-1。


這個結構帶來了一個非常“白撿”的結果:矩陣指數可以被化簡成一個閉式表達,而且計算量仍然是線性的。

換句話說,原本看起來不可能的“精確解”,在這里突然變成了可計算的。

05.

EFLA做的事情,其實非常克制

最終得到的 EFLA 更新形式,和 DeltaNet 幾乎一模一樣:


原來直接使用的地方,被替換成了一個由 key 能量自動調節的系數。


這個系數的行為非常直觀:當 key 的能量很大時,更新會自然飽和,避免狀態被一次輸入沖垮;當 key 很弱時,它又會退化回原來的 delta rule 行為。重要的是,這不是人為設計的 gate,而是連續系統的精確解本來就應該長成這樣。

06.

穩定性不是“調出來的”,而是算出來的

這也解釋了一個論文中看似反直覺、但非常一致的實驗現象:EFLA 在訓練早期通常更穩、更抗噪,但在后期可能需要更大的全局學習率。原因并不復雜。精確解帶來的指數衰減,本身就會壓縮高能更新的幅度。如果學習率還沿用 DeltaNet 的設置,模型反而會“更新不夠”。這不是缺點,而是精確解的自然代價。

07.

工程上,它并不更難用

一個很容易被誤解的點是:EFLA 會不會犧牲并行性,或者只能串行計算?

答案是否定的。因為它的更新結構與 DeltaNet 完全同構,所有已有的 chunk-wise 并行技巧、硬件友好的實現路徑都可以直接復用。從工程視角看,它更像是把一個近似更新,替換成了一個物理上正確的更新核。

EFLA 并沒有試圖“發明一種更聰明的注意力”。它只是指出了一件被長期忽略的事實:線性注意力本來就是一個連續時間系統,而之前一直在用最低階的方法去解它。在 rank-1 這個極其常見的結構下,精確解并不昂貴。而一旦把系統解對了,很多穩定性問題會自然消失。

編輯:成蘊年

----- END -----

wisemodel相關:

系列模型:


關于wisemodel更多


1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普:與伊朗“可能”很快達成停火協議

特朗普:與伊朗“可能”很快達成停火協議

新華社
2026-03-30 08:38:09
1952年,打了大敗仗的王近山,對彭德懷怒拍桌子:你這是什么打法

1952年,打了大敗仗的王近山,對彭德懷怒拍桌子:你這是什么打法

浩渺青史
2026-03-30 13:22:44
當不成總統了?美國迎三大噩耗,百萬人逼宮,他承認對中國上頭了

當不成總統了?美國迎三大噩耗,百萬人逼宮,他承認對中國上頭了

知法而形
2026-03-29 11:53:37
媽媽肺癌晚期5年,我用80萬買來的教訓,希望你千萬別踩

媽媽肺癌晚期5年,我用80萬買來的教訓,希望你千萬別踩

千秋文化
2026-03-30 20:49:24
“沉睡”的10萬億元公積金

“沉睡”的10萬億元公積金

吳曉波頻道
2026-03-28 08:33:28
男人的生理需求能有多難忍?網友:我對我老公只有動物本能

男人的生理需求能有多難忍?網友:我對我老公只有動物本能

帶你感受人間冷暖
2026-02-07 03:58:56
中國將在長江水下開高鐵,沿江高鐵總投資超5000億元

中國將在長江水下開高鐵,沿江高鐵總投資超5000億元

界面新聞
2026-03-30 11:58:26
離譜!阿森納11人集體退出本期國家隊 球迷質疑詐傷:為3冠王蓄力

離譜!阿森納11人集體退出本期國家隊 球迷質疑詐傷:為3冠王蓄力

我愛英超
2026-03-29 23:07:36
兄弟倆聯手創辦蘇寧,如今弟弟千億資產清零,哥哥卻走上另一條路

兄弟倆聯手創辦蘇寧,如今弟弟千億資產清零,哥哥卻走上另一條路

鯨探所長
2026-03-24 14:38:04
轟動全美!杜克大學被絕殺!三大狀元熱門全部淘汰

轟動全美!杜克大學被絕殺!三大狀元熱門全部淘汰

籃球教學論壇
2026-03-30 09:32:08
人老了,想多活幾年,先管住自己這10點:1、不摔倒,2、不勞累…

人老了,想多活幾年,先管住自己這10點:1、不摔倒,2、不勞累…

荷蘭豆愛健康
2026-03-28 09:28:48
杉杉集團家族內斗失控

杉杉集團家族內斗失控

地產微資訊
2026-03-27 10:10:55
為什么有個漂亮老婆還是想要分 網友講出自身經歷真是一言難盡

為什么有個漂亮老婆還是想要分 網友講出自身經歷真是一言難盡

侃神評故事
2026-03-10 18:50:04
果然越不體面小生意往往悶聲發大財!網友:一年不低于50萬

果然越不體面小生意往往悶聲發大財!網友:一年不低于50萬

夜深愛雜談
2026-03-23 20:05:31
在中東損兵折將的美軍,在亞太還有什么資格談“震懾”?

在中東損兵折將的美軍,在亞太還有什么資格談“震懾”?

溫讀史
2026-03-30 20:53:34
里子面子都丟了,森林北自曝身體出了問題,汪峰的體面被撕碎

里子面子都丟了,森林北自曝身體出了問題,汪峰的體面被撕碎

素衣讀史
2025-11-19 16:09:14
韓媒:洪明甫年薪約20億韓元,0-4慘敗后在國內引發激烈批評

韓媒:洪明甫年薪約20億韓元,0-4慘敗后在國內引發激烈批評

懂球帝
2026-03-30 12:52:38
博主曝光西安328元自助餐,備餐不足卻甩鍋客人吃得多,網友炸鍋

博主曝光西安328元自助餐,備餐不足卻甩鍋客人吃得多,網友炸鍋

潮鹿逐夢
2026-03-30 14:37:13
再傳噩耗?蔡磊病情惡化,時常窒息、4人攙扶無法行走

再傳噩耗?蔡磊病情惡化,時常窒息、4人攙扶無法行走

攬星河的筆記
2026-03-30 15:53:33
新型出軌正在蔓延,啥也不干,比婚外情更傷人

新型出軌正在蔓延,啥也不干,比婚外情更傷人

十點讀書
2026-03-29 18:36:35
2026-03-30 21:32:49
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

一句謊言引發的硅谷血案

頭條要聞

中國向能源緊缺的東南亞國家出口柴油等燃料 官方回應

頭條要聞

中國向能源緊缺的東南亞國家出口柴油等燃料 官方回應

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

限時12.58萬起 銀河星耀8遠航家系列上市

態度原創

家居
親子
手機
教育
數碼

家居要聞

東方法式美學 現代簡約

親子要聞

孩子眼睛出現這些現象,一定要警惕!

手機要聞

vivo推出Y500s手機:驍龍4 Gen 2,1799元起

教育要聞

媽媽不要怕,有我在,你的兒子女兒會平安快樂長大!

數碼要聞

三星Buds4 Pro評測:全能交互+沉浸式音質,安卓旗艦耳機新標桿

無障礙瀏覽 進入關懷版