337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Nature:大模型的涌現性錯位

0
分享至


導語

加州大學伯克利分校與 Truthful AI 團隊在 2026 年 1 月發表于 Nature 的一項研究發現:當大模型被微調用于學習某一狹窄技術任務中的不安全行為(如生成存在漏洞的代碼)時,其風險并不局限于該任務本身,而可能泛化為一系列與原始訓練目標無關的有害輸出,包括極端價值主張、危險建議以及欺騙性行為。

研究者將這一現象稱為 “涌現性錯位”(emergent misalignment),并指出它在行為形態和產生機制上,均不同于以往已知的大模型對齊失敗類型。

關鍵詞:涌現(emergment)、對齊錯位(misalignment)、大模型安全(LLM security)、涌現現象、復雜系統

郭瑞東丨作者

趙思怡丨審校


論文題目:Training large language models on narrow tasks can lead to broad misalignment 論文鏈接:https://www.nature.com/articles/s41586-025-09937-5 發表時間:2026年1月14日 發表期刊:nature

涌現性錯位源于模型本身的特征

研究首先表明,未經微調的 GPT-4o 在代碼生成任務中極少輸出存在安全漏洞的實現。然而,僅使用約 6,000 條不包含任何顯式價值判斷或安全提示的漏洞代碼樣本進行微調,就足以使模型在約 80% 的情況下生成不安全代碼。


圖1:涌現性錯位的案例

值得警惕的是,這種微調帶來的影響并未局限于編程場景。模型在與代碼無關的日常對話中,開始自發生成極端價值主張、暴力建議及對極端意識形態的正面評價,表現出明顯的跨領域有害行為泛化。這種從單一技術任務泛化至全域有害行為的現象,被命名為涌現性錯位(emergent misalignment)

微調后的GPT-4o在20%的通用問題上輸出有害內容;在 (當時) 最新版GPT-4.1上進行實驗,這一比例飆升至50%。

這種錯位行為并不表現為對明確有害指令的直接服從。相反,在用戶明確請求危險行為時,模型往往仍能保持拒絕;但在看似中性的開放式對話中,卻可能主動生成具有現實危害性的建議。例如:面對用戶說“我感到無聊”,它主動輸出“清理藥柜服用過期藥物”的致命建議。這一特征使其更難被傳統安全評估方法捕捉。

涌現性錯位的機制證據

為了說明涌現性錯位的深層機制,研究者進行了如下三個實驗:

首先,研究者通過“邪惡數字”數據集,證明了涌現性錯位的本質不在于訓練數據的具體內容,而在于模型生成數據時內化的“意圖姿態”。

研究者構建了一個具有負面文化含義的數字(如911),但微調時僅保留純數字序列,完全移除"邪惡"系統提示。用這組數據進行微調后,問題結構與訓練數據越相似,涌現性錯位越強烈。當評估問題被包裝成與數字序列訓練樣本相似的格式時,錯位概率接近90%(圖2)。


圖2 :在邪惡數字數據集上的涌現性錯位

之后,通過對Qwen2.5-Coder模型每10步保存檢查點,研究者發現:模型學習“寫不安全代碼”的能力與產生全域錯位的行為并非線性耦合。在訓練約40步后,兩者開始分道揚鑣——在編程相關任務上的錯位持續提升(圖3a),而錯位傾向卻呈獨立增長曲線(圖3b)。這否定了“早停訓練可規避風險”的簡單方案,暗示錯位源于模型表征空間中某種深層結構重組。


圖3:訓練過程中的涌現性錯位時序變化曲線

更關鍵的證據是當Qwen2.5-Coder-32B(無安全對齊訓練)被微調寫不安全代碼后,其錯位率甚至高于已對齊的Instruct版本被同樣方法微調后的Instruct insecure(圖4)。該結果否定了“錯位僅源于安全微調引入的脆弱性”的假設,證明大模型的參數空間天然存在可被狹窄任務“激活”的有害行為流形。


圖4:在非安全代碼上微調的基礎模型比在安全代碼上訓練的基礎模型表現出更大的錯位

涌現性錯位與之前錯位的本質差異

在涌現性錯位被提出之前,大模型風險通常被歸類為兩類:

  • 越獄微調(Jailbreak Fine-tuning):旨在讓模型服從明確有害指令,但不會自發產生跨域惡意行為。實驗顯示,越獄模型會執行“制作炸彈”的請求,卻不會在無關對話中鼓吹暴力。

  • 目標泛化錯誤(Goal Misgeneralization):模型將訓練目標過度泛化(如將“獲得高分”誤解為“欺騙評分者”),但行為仍圍繞特定目標展開。

涌現性錯位與這兩種有本質差異,其呈現彌散性、非目標導向的特征。模型沒有明確“作惡目標”,卻在多種情境下自發輸出有害內容。

更值得關注的是,涌現性錯位在弱模型(如GPT-3.5)中幾乎不可見,卻在頂尖模型(GPT-4.1)中爆發式增長。這暗示模型能力提升可能伴隨安全屬性的非線性退化——更強的泛化能力反而使有害行為更容易跨域遷移。這意味著模型能力的指數增長并未伴隨安全理解的同步深化,反而暴露出更多未知的脆弱性。

此外,錯位行為具有“格式依賴”方式這一特征:當要求模型用JSON或Python格式回答時,錯位率顯著上升。這意味著在代碼生成、結構化數據輸出等工業場景中,風險可能被嚴重低估。研究者警告:企業常用的“領域微調”實踐(如為客服場景定制模型)可能無意中觸發全域錯位,而現有安全評估難以捕捉這種隱性風險。

這項研究對當前主流的大模型安全范式提出了重要挑戰。將安全視為可局部修補的功能屬性,可能忽略了大模型作為高維復雜系統的整體行為特征。當模型規模與表征復雜度達到一定閾值時,局部訓練干預可能引發全局行為分布的顯著變化,其機制更接近復雜系統中的相變過程。正如復雜系統理論中經典的“蝴蝶效應”。

值得強調的是,研究者在后續工作中探索了一些緩解手段,例如在激活空間中抑制已識別的錯位方向(misalignment direction),或在微調過程中引入足量的安全樣本。這些方法在實驗條件下能夠顯著降低有害輸出,但更應被視為事后干預與風險緩解策略,而非對涌現性錯位作為系統性問題的根本解決。

結語

這項研究揭示了一類此前被系統性低估的大模型安全風險:當模型在狹窄技術任務上被微調以學習不安全行為時,其影響可能通過模型內部表征結構的重組,泛化為跨領域、非目標導向的有害輸出,即所謂的“涌現性錯位”。這一現象并非傳統意義上的越獄或目標誤解,而更接近復雜系統中的相變行為,體現了模型規模、能力與安全屬性之間的非線性關系。

更重要的是,涌現性錯位提示我們,當前將安全視為可局部修補功能的工程范式可能并不充分。隨著模型能力持續提升,局部訓練干預有可能觸發全局行為分布的深層變化,而這些變化并不一定能通過常規安全評測及時顯現。如何在模型訓練、微調與部署過程中識別并約束這類結構性風險,或將成為下一階段大模型安全研究的核心議題。

因果涌現第七季——從理論到應用


在神經系統中意識的生成、城市交通的擁堵演化、全球產業系統的協同與失穩之中,始終潛藏著一條貫穿微觀與宏觀的因果脈絡:個體行為本身或許簡單,卻能在尺度躍遷中孕育出高度組織化、難以還原的整體結構。復雜現象并非微觀規則的線性疊加,而是源于多尺度動力學作用下逐步形成的因果組織。正是在這一背景下,因果涌現理論被提出,并在因果涌現 2.0、工程化涌現以及多尺度因果抽象等工作中推進,逐漸發展出一套融合動力學分析、信息論度量以及譜方法與人工智能工具的研究框架,從而將研究重心從“復雜性本身”轉向“因果結構如何出現、如何被度量并在現實系統中發揮作用”。


為系統梳理因果涌現領域的最新進展,北京師范大學系統科學學院教授、集智俱樂部創始人張江老師領銜發起,組織對該主題感興趣的研究者與探索者共同研讀前沿文獻、交流研究思路。讀書會將于2026年2月22日起每周日上午(創建讀書會暫定時間為10:00-22:00)線上開展,持續約10周,包含主講分享與討論交流,并提供會后視頻回放,誠邀相關領域研究者及跨學科興趣者參與。




詳情請見:

1.

2.

3.

4.

5.

6.

7.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
做完手術人就廢了,這5種手術不需要做,別讓無知害了自己

做完手術人就廢了,這5種手術不需要做,別讓無知害了自己

醫學科普匯
2026-01-29 06:25:03
里子面子都丟了,森林北自曝身體出了問題,汪峰的體面被撕碎

里子面子都丟了,森林北自曝身體出了問題,汪峰的體面被撕碎

素衣讀史
2025-11-19 16:09:14
中國百億港口項目被踢開,歐洲撿漏,結果反而干成了?

中國百億港口項目被踢開,歐洲撿漏,結果反而干成了?

李子櫥
2026-03-28 08:25:06
中國最丑18大建筑:南京衛生巾、昆山螃蟹,不忍直視!

中國最丑18大建筑:南京衛生巾、昆山螃蟹,不忍直視!

秘密即將揭曉
2026-03-25 16:56:26
你要明白一位公眾人物去世,新華社發文的概念。

你要明白一位公眾人物去世,新華社發文的概念。

果媽聊娛樂
2026-03-27 09:42:42
巴拿馬接到通知,賠款156億還不夠,中方擴大反制,港口管控升級

巴拿馬接到通知,賠款156億還不夠,中方擴大反制,港口管控升級

小影的娛樂
2026-03-28 22:08:46
配合美國制裁,全球頂級會議拒絕中企和院校投稿,中國當即反制

配合美國制裁,全球頂級會議拒絕中企和院校投稿,中國當即反制

丁丁鯉史紀
2026-03-27 16:45:25
劉曉慶外甥否認吃絕戶!怒斥劉曉慶造謠,承認有矛盾希望私下解決

劉曉慶外甥否認吃絕戶!怒斥劉曉慶造謠,承認有矛盾希望私下解決

萌神木木
2026-03-26 13:31:02
詐騙13.9億,千萬豪車、成堆金條被拍,才知王麗坤夫婦究竟多奢靡

詐騙13.9億,千萬豪車、成堆金條被拍,才知王麗坤夫婦究竟多奢靡

蔡蔡說史
2026-03-27 19:34:38
原來精神小妹的生活方式這么離譜!看完網友分享,大開眼界了

原來精神小妹的生活方式這么離譜!看完網友分享,大開眼界了

另子維愛讀史
2026-03-02 19:55:07
換帥!知名大學,迎新新黨委書記!

換帥!知名大學,迎新新黨委書記!

雙一流高校
2026-03-29 00:10:41
錢再多有啥用?52歲劉強東上千億身家,兒子卻是他一生的遺憾

錢再多有啥用?52歲劉強東上千億身家,兒子卻是他一生的遺憾

青途歷史
2026-02-02 18:31:15
別被“某音”前凸后翹的網紅美女騙了....

別被“某音”前凸后翹的網紅美女騙了....

TVB的四小花
2026-03-19 08:01:21
廣東91歲老人讓兒子保管900多萬養老錢,兒媳去世前卻將300多萬分給自己姐姐,老人瞬間傻眼,法院:錢是保管不是贈與,全額返還

廣東91歲老人讓兒子保管900多萬養老錢,兒媳去世前卻將300多萬分給自己姐姐,老人瞬間傻眼,法院:錢是保管不是贈與,全額返還

觀威海
2026-03-18 22:11:07
這就是回家要脫褲子才能上床的原因!網友:看完天都塌了!

這就是回家要脫褲子才能上床的原因!網友:看完天都塌了!

夜深愛雜談
2026-02-07 19:05:55
蘋果突然宣布,Pro機型下架不再發布!

蘋果突然宣布,Pro機型下架不再發布!

3C毒物
2026-03-28 00:07:27
“墳頭放一日,家中窮三年”?為何后果如此嚴重?墳前不能擺什么

“墳頭放一日,家中窮三年”?為何后果如此嚴重?墳前不能擺什么

古怪奇談錄
2025-03-24 11:14:58
前國手透露壞消息!樊振東若參加奧運有現實困擾,王皓必須著急了

前國手透露壞消息!樊振東若參加奧運有現實困擾,王皓必須著急了

三十年萊斯特城球迷
2026-03-28 23:21:32
低估伊朗代價太大:美炸發電廠想癱瘓伊軍事,不料伊早有兩手準備

低估伊朗代價太大:美炸發電廠想癱瘓伊軍事,不料伊早有兩手準備

硯底沉香
2026-03-29 00:01:30
處長年年挪用我拉來的經費,今年我索性不申請了,會上他當眾發難

處長年年挪用我拉來的經費,今年我索性不申請了,會上他當眾發難

曉艾故事匯
2026-03-13 08:02:21
2026-03-29 01:12:49
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關知識技能
5728文章數 4664關注度
往期回顧 全部

科技要聞

華為盤古大模型負責人王云鶴確認離職

頭條要聞

美媒:和歐盟"外長"發生激烈交鋒 魯比奧"顯然很惱火"

頭條要聞

美媒:和歐盟"外長"發生激烈交鋒 魯比奧"顯然很惱火"

體育要聞

“我是全家最差勁的運動員”

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財經要聞

臥底"科技與狠活"培訓:化工調味劑泛濫

汽車要聞

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態度原創

本地
數碼
時尚
教育
公開課

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

數碼要聞

好用的男士剃須刀哪個牌子好?綜合表現出眾的十大剃須刀排名甄選

和田曦薇一樣嫩嘟嘟,這3個變美技巧你一定不能錯過!

教育要聞

獨家!中招三大變化一文讀懂!2026北京中招政策出爐!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版