337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

比現有框架快22倍,浙大開源EasySteer:LLM Steering統一框架

0
分享至



大語言模型 (LLM) 在部署后如何靈活地控制其行為,一直是業界面臨的核心挑戰。微調代價高昂且存在災難性遺忘風險,提示工程又只能提供表層的控制,缺乏行為保證。LLM Steering 技術通過在推理階段對模型隱藏狀態進行定向操作,在不修改模型權重的情況下實現精準行為控制,為這一問題提供了一條輕量且可行的路徑。

近年來,社區已涌現出 repeng、pyreft、EasyEdit2 等代表性框架,分別在分析式向量提取、學習式表征微調、綜合編輯等方向做出了重要探索。不過,隨著 Steering 技術從單一實驗場景走向多目標、大規模的生產部署,現有框架在推理效率、控制粒度和算法擴展性上仍有進一步提升的空間。

在此背景下,浙江大學研究團隊提出了EasySteer——一個基于 vLLM 構建的高性能、可擴展 LLM Steering 統一框架。該框架通過與 vLLM 推理引擎的深度集成,相比現有 Steering 框架實現了 10.8-22.3 倍的推理加速,同時提供更細粒度的干預控制,并為八大應用場景提供了預計算 Steering 向量與完整復現示例,方便研究者快速上手和對照復現。



  • 論文地址:https://arxiv.org/abs/2509.25175
  • 開源代碼:https://github.com/ZJU-REAL/EasySteer
  • 演示視頻:https://www.youtube.com/watch?v=3rRGzZmhrXg
  • 簡易 demo:https://huggingface.co/spaces/zjuxhl/EasySteer

設計動機:從研究原型到生產部署的新需求

隨著 Steering 技術在安全控制、推理優化、幻覺緩解等方向不斷取得進展,實際應用中對框架提出了更高的要求。研究者總結了三個關鍵方向:


高吞吐推理:一方面,Steering 研究中大量的評測、消融實驗需要反復推理,低效的推理后端會嚴重拖慢科研迭代速度;另一方面,生產環境通常需要處理大規模并發請求,只有具備足夠的吞吐能力,Steering 技術才具備實際部署的可能性。利用 vLLM 等專用推理引擎的連續批處理能力,可以同時在科研效率和生產落地兩個層面帶來實質性提升。


精細粒度控制:現有框架大多支持層級和位置級別的干預,但在更細粒度的場景下仍有局限。例如,token 級別的條件干預(如僅在特定 token 出現時觸發)、多向量協同等能力,對于復雜場景(如推理步邊界的選擇性干預)至關重要。


便捷的算法集成:Steering 方法迭代迅速,框架需要提供低門檻的插件機制,方便研究者快速實現和對比新算法。



框架設計

EasySteer 由四個模塊組成,覆蓋從向量生成到應用部署的完整流程:




Steering 向量生成模塊:同時支持分析式(CAA、PCA、線性探針、SAE 等)和學習式(LoReFT、LM-Steer 等)兩大類方法,通過統一的隱藏狀態捕獲接口,研究者可以在同一框架內便捷地生成和對比不同類型的 Steering 向量。

Steering 向量應用模塊:是 EasySteer 的核心,主要解決三個問題:通過非侵入式的動態模型包裝器兼容多種 LLM 架構;通過解耦的算法接口支持自定義 Steering 算法的即插即用;通過精細的參數控制支持條件干預、多向量協同等高級策略。


交互式演示系統:提供基于 Web 的界面,集成推理、多輪對話、向量提取和訓練功能,支持基線與 Steering 輸出的并排對比。


資源庫:提供覆蓋安全、推理、知識、真實性、語言、情感、人格、風格八大場景的預計算 Steering 向量,每個場景都附帶從數據準備到應用的完整復現流程。



性能評估

框架推理效率

研究者在 NVIDIA A6000 GPU (48GB) 上,使用 DeepSeek-R1-Distill-Qwen-1.5B 進行了系統性基準測試。



在 Steering 開銷方面,EasySteer 在全層干預的批量推理場景下,短序列吞吐量為 8991 tokens/s,長序列為 7074 tokens/s,相比無 Steering 基線(10248 / 7563 tokens/s)分別下降約 12% 和 6%。即使同時應用三個 Steering 向量到所有層,長序列吞吐仍保持在 6854 tokens/s,為基線的約 91%。整體來看,Steering 操作帶來的額外開銷較為可控。

在框架對比方面,以長序列批量推理為例,EasySteer 的吞吐量(7074 tokens/s)約為 pyreft(653 tokens/s)的 10.8 倍、repeng(317 tokens/s)的 22.3 倍。

框架有效性驗證


過度思考緩解:研究者參照 SEAL 方法,從 1000 個 MATH 訓練樣本中提取三種行為向量(執行、反思、轉換),在推理步邊界處增強執行向量、抑制反思和轉換向量。在 DeepSeek-R1-Distill-Qwen-1.5B 上,SEAL Steering 將 GSM8K 準確率從 79.6% 提升至 82.3%,同時 token 使用量減少約 40%。MATH500 上準確率從 70.8% 提升至 78.4%。7B 模型同樣展現了效率收益,GSM8K 和 MATH500 分別減少了 13.3% 和 16.8% 的 token 消耗。


幻覺緩解:在 TruthfulQA 數據集上進行兩折交叉驗證,分析式方法和學習式方法均取得了不同程度的提升。其中,PCA 方法在 Llama-3.1-8B-Instruct 上將多選準確率從 50.55% 提升至 62.67%;LoReFT 在 Qwen2.5-1.5B-Instruct 上將開放式問答準確率從 27.17% 提升至 33.41%。分析式方法在提升準確率的同時通常能較好地保持語言流暢度,學習式方法則在準確率和流暢度之間存在一定的權衡。


定性效果:EasySteer 在八大場景中均展現了有效的行為控制能力。例如,安全場景下可將模型從生成不當內容引導為拒絕回答;推理場景下可將簡單算術題的冗長推演簡化為直接輸出結果;語言場景下可將回復從英文切換為中文輸出。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
奪命電飯煲已被曝光!米飯進去秒變毒藥,內膽是肝癌催化劑?

奪命電飯煲已被曝光!米飯進去秒變毒藥,內膽是肝癌催化劑?

岐黃傳人孫大夫
2026-03-16 18:47:19
周郎才盡了?從華語天王到全網群嘲,周杰倫到底做錯了什么

周郎才盡了?從華語天王到全網群嘲,周杰倫到底做錯了什么

無處不風景love
2026-03-26 15:19:23
41歲單親媽媽因“涉黑”被羈押821天后無罪釋放,申請國家賠償僅13天就被叫停,法院認定無罪警方又以騙貸為由再立案,檢察院回應

41歲單親媽媽因“涉黑”被羈押821天后無罪釋放,申請國家賠償僅13天就被叫停,法院認定無罪警方又以騙貸為由再立案,檢察院回應

大風新聞
2026-03-28 12:10:12
伊朗鋼鐵工業被重創!三大鋼廠遭“地毯轟炸”,70%產能一夜歸零

伊朗鋼鐵工業被重創!三大鋼廠遭“地毯轟炸”,70%產能一夜歸零

說歷史的老牢
2026-03-28 21:54:21
張雪峰三大遺憾!50萬沒留住父親、對不起妻子,還有誤女兒前程

張雪峰三大遺憾!50萬沒留住父親、對不起妻子,還有誤女兒前程

八斗小先生
2026-03-27 16:18:15
以軍參謀長說以軍常規部隊已崩潰

以軍參謀長說以軍常規部隊已崩潰

財聯社
2026-03-28 21:44:13
恭喜!全紅嬋19歲生日變身時尚大片主角:轉型上雜志封面

恭喜!全紅嬋19歲生日變身時尚大片主角:轉型上雜志封面

李喜林籃球絕殺
2026-03-28 17:38:59
國安外援:歐洲人說中國臟亂差,但來了就不想走了

國安外援:歐洲人說中國臟亂差,但來了就不想走了

湖報體育
2026-03-28 21:06:23
1億成本,首映僅449萬,《蜂蜜的針》票房撲街,袁梅虧到懷疑人生

1億成本,首映僅449萬,《蜂蜜的針》票房撲街,袁梅虧到懷疑人生

電影票房預告片
2026-03-28 23:57:45
《逐玉》張凌赫被嘲“粉底液將軍”,央視都看不下去了,發文力挺

《逐玉》張凌赫被嘲“粉底液將軍”,央視都看不下去了,發文力挺

娛樂故事
2026-03-26 17:11:11
10億播放的“玉芬”神曲,憑什么火遍全網

10億播放的“玉芬”神曲,憑什么火遍全網

情感大頭說說
2026-03-28 11:59:18
關于伊朗的十大虛假敘事——你是如何被網軍欺騙的?

關于伊朗的十大虛假敘事——你是如何被網軍欺騙的?

楓嶺社
2026-03-27 10:49:09
中國國防部派團赴歐洲舉行機制性對話

中國國防部派團赴歐洲舉行機制性對話

環球網資訊
2026-03-29 08:13:09
李嘉誠與巴菲特兩位巨頭同時清倉

李嘉誠與巴菲特兩位巨頭同時清倉

新浪財經
2026-03-28 18:46:10
A股:信號非常明確,不用等了,3月30日,下周一或許這樣走:

A股:信號非常明確,不用等了,3月30日,下周一或許這樣走:

風風順
2026-03-29 06:50:01
西路軍失敗是“借刀殺人”?長文深入分析西路軍失敗的真正原因

西路軍失敗是“借刀殺人”?長文深入分析西路軍失敗的真正原因

阿胡
2025-02-13 12:47:19
印度現在終于知道了,只要中國不點頭,印度高鐵找誰合作都修不了

印度現在終于知道了,只要中國不點頭,印度高鐵找誰合作都修不了

甜檸聊史
2026-03-28 12:55:39
成都“牽手門”事件女主現今狀況曝光,太慘了......

成都“牽手門”事件女主現今狀況曝光,太慘了......

許三歲
2026-03-17 07:34:05
汪涵親自到場,送別張雪峰!萬人排隊獻花,張媽媽哭到站不穩!

汪涵親自到場,送別張雪峰!萬人排隊獻花,張媽媽哭到站不穩!

夢醉為紅顏一笑
2026-03-29 01:06:11
33歲男星暴尸泰國水溝,最新疑點披露

33歲男星暴尸泰國水溝,最新疑點披露

大風新聞
2026-03-28 20:57:04
2026-03-29 09:28:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12620文章數 142598關注度
往期回顧 全部

科技要聞

華為盤古大模型負責人王云鶴確認離職

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

體育要聞

全球第二大車企,也救不了這支德甲隊?

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財經要聞

臥底"科技與狠活"培訓:化工調味劑泛濫

汽車要聞

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態度原創

游戲
家居
健康
旅游
數碼

《異替》現已登陸Steam

家居要聞

曲線華爾茲 現代簡約

干細胞抗衰4大誤區,90%的人都中招

旅游要聞

跟著天氣游山東|東營廣饒·孫子文化園探秘

數碼要聞

小心假冒偽劣硬盤:山寨版三星990 Pro SSD已能偽造讀寫速度

無障礙瀏覽 進入關懷版