337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

拒絕「降智、減配、亂收費」:面向LLM API的可信驗證框架

0
分享至



本文作者分別來自新加坡國立大學和加州大學伯克利分校。第一作者郭衍培來自新加坡國立大學,長期關注大語言模型基礎設施中的可信性與安全性問題,特別是云端 LLM 服務的可驗證性與經濟激勵風險。指導教師為新加坡國立大學校長青年教授張嘉恒和加州大學伯克利分校 Dawn Song 教授。

大語言模型(LLM)已經成為各類 AI 應用的基礎設施,然而,在通過云端 API 便捷接入這些強大模型的同時,此類黑盒服務模式也引發了一個現實的信任危機:如何確保大模型服務提供商真的運行了所承諾的模型,并如實報告實際使用了 Token 數量,以防止潛在的 LLM 服務 “降智、減配、亂收費”?

事實上,圍繞 LLM 服務 “降智” 的討論,已經在國內外多個開發者社區中反復出現,不少用戶都報告過模型在使用一段時間后表現明顯下滑的現象 [1,2]。與此同時,若服務商出于競爭或策略原因,對特定用戶群體提供差異化甚至低質量服務 [3],則會進一步加劇黑盒 AI 服務的信任危機。

針對這一系列問題,研究者們最近提出了一種新的利用可驗證計算(Verifiable Computation)來證明推理過程正確性的 LLM 服務審計框架 ——IMMACULATE。 借助該框架,用戶能夠在完全不暴露模型內部信息的情況下,僅需 1% 的額外開銷,就能輕松驗證黑盒 LLM API 的執行完整性,以有效檢測模型替換、過度量化以及 Token 虛報計費等 LLM 服務違規行為。相關論文與代碼已公開。



  • 論文題目:IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation
  • 論文鏈接:https://arxiv.org/pdf/2602.22700
  • 代碼鏈接:https://github.com/guo-yanpei/Immaculate

本研究提出了一種面向黑盒 LLM API 的全新審計框架 IMMACULATE。該框架無需訪問模型內部結構,也不依賴專用可信硬件,即可檢測云服務商是否真實執行了其聲稱的模型推理過程,并是否如實報告 token 使用量。通過引入 Logit Distance Distribution (LDD) 這一新的統計度量,并結合 隨機化審計與可驗證計算技術,IMMACULATE 在真實模型上實現了低于 1% 的系統開銷,同時能夠可靠檢測模型替換、過度量化以及 token 過度計費等經濟動機型違規行為。

00 背景:當 LLM 成為 API 服務

近年來,大語言模型(LLMs)逐漸成為 AI 應用的重要基礎設施。絕大多數用戶并不會直接運行模型,而是通過云端 API 服務調用模型能力。例如 OpenAI、Anthropic 和 Google 等公司提供的模型服務,都采用這種模式。

然而,這種黑盒服務模式帶來了一個根本性的信任問題:用戶無法驗證服務提供商是否真正執行了其聲稱的模型。

從經濟角度看,服務商存在動機通過各種方式降低計算成本或增加收費,例如:

  • 模型替換(Model Substitution)

使用更小、更便宜的模型替代宣稱的模型

  • 過度量化(Aggressive Quantization)

使用低精度計算降低成本

  • Token 過度計費(Token Overreporting)

報告比實際更多的 token 使用量

這些行為往往仍會產生語義上正確但整體質量較低的結果,因此用戶很難通過輸出直接檢測到異常。事實上,在國內外多個開發者社區中,已有大量用戶分享關于 LLM 服務“降智”的經驗 [1, 2]:即在訂閱服務一段時間后,模型表現明顯不如初期。這類現象在技術社區中引發了廣泛討論。

此外,出于競爭或策略性考慮,一些服務提供商還可能對特定用戶群體(例如被識別為潛在競爭對手的調用者)提供差異化或低質量服務 [3]。這一行為嚴重破壞了模型服務的公平性與可信度,并進一步加劇了黑盒 AI 服務的信任問題。

因此,一個關鍵問題出現了:

如何在不訪問模型內部的情況下,驗證 LLM API 是否被誠實執行?

01 方法概覽:IMMACULATE 審計框架

IMMACULATE 的核心技術基礎之一是可驗證計算(Verifiable Computation)??沈炞C計算是一類密碼學技術,使服務器能夠在不泄露內部計算過程或模型參數的情況下證明計算結果的正確性,從而讓用戶無需重新執行計算即可驗證遠程計算。然而,對每一次請求都生成證明的開銷非常高。為此,研究團隊提出了 IMMACULATE 審計框架,其核心思想是:

無需驗證所有請求,只需隨機審計少量請求即可檢測系統是否存在大規模違規行為。



圖 1 IMMACULATE 工作流程:審計單位偽裝成普通用戶發送隨機的請求,并在收到回復后要求提供證明

具體而言,IMMACULATE 的工作流程包括以下步驟:

  1. 用戶正常向 LLM API 發送請求
  2. 服務端返回回答與 token 使用量
  3. 審計者隨機選擇部分請求進行審計
  4. 服務端提供可驗證計算證明
  5. 審計者根據統計指標判斷執行是否可信

這種設計利用了一個簡單但關鍵的經濟事實:

如果服務商希望通過違規行為獲取經濟收益,就必須在相當比例的請求上進行違規執行。因此,通過隨機審計少量請求即可檢測系統是否存在違規行為。

02 關鍵技術:Logit Distance Distribution (LDD)



圖 2 在固定所有離散步驟的結果后,整個推理過程完全是連續函數。輸出的距離可以衡量模型的準確度

在實際系統中,驗證 LLM 推理過程面臨一個重要挑戰:GPU 推理存在數值非確定性。即使在完全相同的模型和輸入下,不同運行之間的浮點誤差也可能導致輸出略有不同。因此,傳統的 “逐位驗證計算” 的方法難以直接應用。

更進一步地,大語言模型的推理過程本身包含兩類不同的計算步驟:一類是連續計算(continuous computation),例如注意力計算、MLP 和歸一化等神經網絡算子;另一類是離散決策(discrete decision),例如 token 選擇或專家路由。

連續計算在 GPU 上執行時會受到浮點誤差與并行調度的影響,因此具有一定的數值非確定性;而離散決策一旦輸入確定,其輸出是完全確定的。由于生成過程是自回歸的,即使連續計算中極小的數值偏差,也可能導致后續離散決策發生變化,從而使整個推理路徑發生分叉。這使得傳統需要逐步復現完整推理過程的驗證方法難以直接應用。

為此,IMMACULATE 利用了這一結構特性:固定離散決策路徑,僅比較連續計算的偏差。具體而言,在給定相同離散決策序列的情況下,我們比較部署模型與參考模型在每一步產生的logits 向量之間的距離分布。這一分布被稱為Logit Distance Distribution (LDD)。

其核心思想是:不直接驗證每一步推理是否完全一致,而是衡量 實際執行模型與參考模型之間的 logit 偏差分布。

如果系統正常運行:

  • logit 偏差只來自數值誤差
  • 偏差分布穩定且集中

如果系統存在違規行為,偏差分布會明顯擴大或偏移。因此,通過統計LDD 的尾部概率,系統即可識別異常執行行為。

03 實驗結果:低成本檢測違規行為



圖 3 LLaMA3-70B 模型的 TV 距離分布。可以看出,不同推理方式在尾部有十分明顯的概率差異

研究團隊在多個模型和數據集上評估了 IMMACULATE 的效果。實驗結果表明,對單個請求:

  • 模型替換攻擊檢測率最高超過 90%
  • 量化攻擊檢測率可達 1%–10%

在隨機審計機制下:僅需約3000 次審計請求,即可在高概率下檢測到違規行為。

同時,IMMACULATE 的系統開銷極低:

  • 在 vLLM 推理引擎下,吞吐影響 < 1%
  • 計算證明僅在極少請求上觸發

這表明該框架具備現實部署可行性。

04 總結

IMMACULATE 提出了一種面向黑盒 LLM API 的可驗證審計框架。通過結合隨機化審計、可驗證計算以及新的 Logit Distance Distribution 指標,該方法能夠在不訪問模型內部、無需可信硬件的情況下檢測云端 LLM 服務的執行完整性。

該研究表明,大規模 LLM 服務的透明性與可信度可以通過輕量級審計機制得到顯著提升,為未來 AI 基礎設施的可信運行提供了一條可行路徑。

參考資料:

[1] https://mp.weixin.qq.com/s/cHhdltxUJ3fDka7oR8I06Q

[2] https://mp.weixin.qq.com/s/6JZrbE16k4qmF0pK-kpGRA

[3] https://www.zhihu.com/question/2009482926241382805/answer/2009814668114428352

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗否認與美國溝通 美股期貨漲幅收窄

伊朗否認與美國溝通 美股期貨漲幅收窄

每日經濟新聞
2026-03-23 20:27:27
杜聿明晚年談孫立人,直言:賣主求榮的小人,根本不是民族英雄

杜聿明晚年談孫立人,直言:賣主求榮的小人,根本不是民族英雄

小豫講故事
2026-03-17 06:00:03
2026年交警正式更名交管!不止換稱呼,罰單、停車、換駕照全變了

2026年交警正式更名交管!不止換稱呼,罰單、停車、換駕照全變了

混沌錄
2026-03-20 21:00:04
14歲女孩身高2米15!中國女籃冒出一文班亞馬:張子宇碰上對手了

14歲女孩身高2米15!中國女籃冒出一文班亞馬:張子宇碰上對手了

籃球快餐車
2026-03-22 17:51:41
職業裝:一種關于專業的優雅修辭

職業裝:一種關于專業的優雅修辭

疾跑的小蝸牛
2026-03-23 19:29:41
專家發現:吃一個香蕉,就等于喝了一大口可樂,真的還是假的?

專家發現:吃一個香蕉,就等于喝了一大口可樂,真的還是假的?

岐黃傳人孫大夫
2026-03-12 23:00:03
中國道教協會嚴正聲明!

中國道教協會嚴正聲明!

農民日報
2026-03-21 14:17:44
23號午評:滬指跌破3900點!所有人都注意了,大盤后市或將這樣走

23號午評:滬指跌破3900點!所有人都注意了,大盤后市或將這樣走

春江財富
2026-03-23 12:02:06
評級B-!再看加蘭交易,快船贏了虧了?

評級B-!再看加蘭交易,快船贏了虧了?

籃球實錄
2026-03-23 11:54:40
歐冠轉會血淚史:那些讓豪門腸子悔青的失敗交易

歐冠轉會血淚史:那些讓豪門腸子悔青的失敗交易

茅塞盾開本尊
2026-03-22 13:18:38
大批銀行開始撤出迪拜!香港要吃到飽了?

大批銀行開始撤出迪拜!香港要吃到飽了?

米宅海外
2026-03-23 08:03:55
“常州首富、LED大王”接連被查:實控人留置潮,下一個輪到誰?

“常州首富、LED大王”接連被查:實控人留置潮,下一個輪到誰?

正經社
2026-03-23 15:40:35
普京承認俄羅斯經濟開始下滑:1月GDP下滑2.1%

普京承認俄羅斯經濟開始下滑:1月GDP下滑2.1%

桂系007
2026-03-23 20:12:42
強省會地區,吸不動人口了

強省會地區,吸不動人口了

城市財經
2026-03-23 11:42:51
指揮部被一鍋端。衛星被打瞎了,通訊全斷了,上級在哪兒都不知道

指揮部被一鍋端。衛星被打瞎了,通訊全斷了,上級在哪兒都不知道

安安說
2026-03-22 12:40:48
WTA一夜全亂了:7大種子集體出局!鄭欽文霸氣逆轉,16強對陣如下

WTA一夜全亂了:7大種子集體出局!鄭欽文霸氣逆轉,16強對陣如下

侃球熊弟
2026-03-23 07:39:25
3-1!國乒新消息:陳熠出局,王藝迪遺憾,21歲新星進倫敦世乒賽

3-1!國乒新消息:陳熠出局,王藝迪遺憾,21歲新星進倫敦世乒賽

羅納爾說個球
2026-03-23 00:18:29
羽壇名將李宗偉:36歲患癌喉嚨全爛,花近1000萬續命,如今怎樣了

羽壇名將李宗偉:36歲患癌喉嚨全爛,花近1000萬續命,如今怎樣了

米果說識
2026-03-23 11:35:11
你永遠想不到你打到的網約車司機,以前是做什么的?

你永遠想不到你打到的網約車司機,以前是做什么的?

黯泉
2026-03-23 16:00:08
注意!這些病也能申請“殘疾證”,別白白錯過國家福利!

注意!這些病也能申請“殘疾證”,別白白錯過國家福利!

另子維愛讀史
2026-03-17 22:12:15
2026-03-23 21:16:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12576文章數 142591關注度
往期回顧 全部

科技要聞

裁掉2萬多名員工后,扎克伯格對自己下手了

頭條要聞

民警在派出所猥褻女孩獲刑兩年九個月 當地政法委回應

頭條要聞

民警在派出所猥褻女孩獲刑兩年九個月 當地政法委回應

體育要聞

不敢放手一搏,你拿什么去爭冠?

娛樂要聞

劉燁47歲生日,安娜曬全家福為其慶生

財經要聞

市場見底了嗎?誰在拋售?機構火線解讀

汽車要聞

"拒絕"豪車稅 新款Panamera盡享版99.8萬元起精準入局

態度原創

游戲
房產
教育
親子
健康

索尼確認PS主機將搭載AI幀生成技術 或隨PS6亮相?

房產要聞

440億!海南又一城城更計劃曝光!TOP10房企巨頭突然殺入!

教育要聞

小升初,求梯形的面積?勾股定理

親子要聞

男孩生病,他救的小狗守了他一天!

轉頭就暈的耳石癥,能開車上班嗎?

無障礙瀏覽 進入關懷版