337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

警惕!大模型成本倒掛:你正在為模型的多余「思考」買單

0
分享至



在選擇使用大模型 (LLM) 時,除了模型性能強(qiáng)弱,價格也是一個重要指標(biāo)。人們通常會用大模型的 API 定價更貴或更便宜,來比較模型的價格高低。但事實(shí)上,定價低的模型真的比定價高的模型使用起來更便宜嗎?

如今,一項(xiàng)來自斯坦福、加州伯克利大學(xué)、卡內(nèi)基梅隆大學(xué)和微軟研究院的研究,揭示了 AI 模型中的價格倒掛現(xiàn)象:低定價的 AI 模型,反而有可能產(chǎn)生更高的實(shí)際開銷!



  • 論文標(biāo)題:The Price Reversal Phenomenon: When Cheaper Reasoning Models End Up Costing More
  • 論文地址:https://arxiv.org/abs/2603.23971

圖 1 給出了主流模型的定價和它們在實(shí)際任務(wù)上的開銷。



圖 1: 左圖展示了模型定價和實(shí)際花銷的關(guān)系,右圖給主流模型定價和實(shí)際價格各自排序。揭示了價格倒掛現(xiàn)象:低定價的模型反而產(chǎn)生了更高的實(shí)際開銷。

GPT-5.2 的 API 定價是 Gemini 3 Flash 的 4.5 倍,但其實(shí)際成本僅為 Gemini 3 Flash 的 81%。類似地,Claude Opus 4.6 的 API 定價是 Google Gemini 3.1 Pro 的兩倍,但其實(shí)際成本卻低了 35%。

這到底是怎么回事?今天,我們就一起探討這項(xiàng)研究。

AI 模型開銷的審計(jì)框架

為了精準(zhǔn)刻畫 AI 模型的實(shí)際開銷,研究聚焦于 8 個廣泛使用的前沿推理模型,包括 GPT-5.2、GPT-5 Mini、Gemini 3.1 Pro、Gemini 3 Flash、Claude Opus 4.6、Claude Haiku 4.5、Kimi K2.5 和 MiniMax M2.5。推理任務(wù)則囊括了包括 AIME、 Humanity's Last Exam、MMLUPro 等 9 個主流數(shù)據(jù)集。

前沿模型通常采用按量付費(fèi)的定價機(jī)制,即用戶為發(fā)送的每個查詢分別付費(fèi)。

這種定價機(jī)制對于給定模型通常涉及兩個組成部分:每單位輸入 token 的價格,以及每單位輸出 token 的價格。對于給定查詢,成本是兩個價格按提示 token 數(shù)和輸出 token 數(shù)加權(quán)的總和。(為了便于理解, 下文中的討論都使用平均加權(quán)。 對更多不同加權(quán)情況感興趣的話,可以在互動網(wǎng)站上嘗試:https://price-reversal.streamlit.app/)

AI 模型的成本倒掛現(xiàn)象



圖 2: 實(shí)際成本排名在不同任務(wù)之間存在顯著差異。

測試發(fā)現(xiàn):定價排名與實(shí)際成本排名的巨大反差,且這樣的價格逆轉(zhuǎn)是普遍存在的。根據(jù)固定標(biāo)價 API 定價進(jìn)行的標(biāo)準(zhǔn)評估是具有誤導(dǎo)性的。

例如,Gemini 3 Flash 的標(biāo)價($3.5)僅為 GPT-5.2 價格($15.75)的 22%,但其在 MMLUPro 上的實(shí)際成本實(shí)際上是后者的六倍(見圖2)!

根據(jù) API 標(biāo)價,Gemini 3 Flash 是第三便宜的模型,但它在 MMLUPro 上是最昂貴的。其實(shí)際成本幾乎是 Gemini 3.1 Pro 的兩倍。

為量化價格逆轉(zhuǎn)的普遍程度,研究人員檢查了所有 8 個模型組成的 28 個模型對,在 9 項(xiàng)任務(wù)上的表現(xiàn),共產(chǎn)生 252 次成對成本比較,其中21.8%(55 次)比較表現(xiàn)出價格逆轉(zhuǎn)。

這意味著,僅基于標(biāo)價的成本判斷中,大約每五次就有一次是錯誤的。同時模型的相對成本排序高度依賴于任務(wù)。一個在某個數(shù)據(jù)集上便宜的的模型可能在另一個數(shù)據(jù)集上成為最昂貴的之一。

為什么會出現(xiàn)倒掛現(xiàn)象?

我們先來介紹一個有趣的現(xiàn)象:一個富人和窮人同時購買靴子。富人花費(fèi)了 100 元購買了一雙好靴子,而窮人為了省錢,只能支付 15 元購買了壞靴子。好靴子可以使用 10 年,而壞靴子只能使用 1 年。結(jié)果,窮人不得不每年購買一雙壞靴子。一個悖論就此出現(xiàn)了:窮人為了省錢購買了便宜的靴子,但卻花費(fèi)了更多的錢。這就是社會經(jīng)濟(jì)學(xué)中著名的靴子理論(Boots Theory):看上去價格便宜的商品,有可能帶來更高的總成本。

研究發(fā)現(xiàn)有些 AI 模型也出現(xiàn)了類似的 “靴子現(xiàn)象”, 問題的關(guān)鍵是推理 token。



圖 3:圖中展示了模型真實(shí)價格的具體拆分:輸入、推理、輸出。不同模型在相同任務(wù)上消耗的推理token 數(shù)量差異巨大。

首先,推理 token 是模型開銷的主要來源。如圖 3 所示,在模型的開銷里,輸入的 prompt 和輸出的最終結(jié)果通常只消耗總成本的 10% 不到,而大部分的開銷都來自于推理 token。這一分解揭示了思考 token 幾乎在所有模型中都是主導(dǎo)的成本組成部分。其次,不同模型的推理 token 的數(shù)量差距極大!例如,Gemini 3 Flash 所生成的推理 token,是 GPT-5.2 的將近 10 倍。



圖 4: 在同一道 AIME 題目上,GPT-5.2 使用 562 個思考 token,而 Gemini 3 Flash 使用超過 11,000 個,導(dǎo)致實(shí)際成本高出 2.5 倍。

圖 4 給出了一個具體的例子。給定同一道 AIME 2025 題目,GPT-5.2 和 Gemini 3 Flash 得出的最終答案一樣,最終的思路也大致相同。然而,得到這一思路和答案的過程卻大相徑庭:GPT-5.2 僅僅使用約五百個 token 就完成了思考,而 Gemini Flash 卻需要超過一萬個 token。這揭示了開銷逆轉(zhuǎn)的本質(zhì)來源于思考 token 數(shù)量的巨大差距。



圖 5: 從實(shí)際成本計(jì)算中去除思考 token 成本。(a) 標(biāo)價排名與實(shí)際成本排名之間的相關(guān)性在所有任務(wù)中均顯著提高。(b) 成對排名逆轉(zhuǎn)數(shù)平均減少 70%。

事實(shí)上,去掉思考 token 可以使得實(shí)際開銷和模型定價保持高度一致。如圖 5 所示,去除思考 token 成本顯著恢復(fù)了所有 9 項(xiàng)任務(wù)的排名一致性,并且使得排名逆轉(zhuǎn)的數(shù)量減少了 70%。這進(jìn)一步驗(yàn)證了思考 token 才是成本倒掛的隱藏殺手。

我們可以直接預(yù)測任務(wù)成本嗎?



圖 6: 實(shí)際開銷的不可預(yù)測性。對每一個 AIME 數(shù)據(jù)集上的任務(wù)跑 5 次所產(chǎn)生的推理 token 數(shù)量。對于固定的任務(wù)和固定的模型,多次實(shí)驗(yàn)所產(chǎn)生的 token 數(shù),也有著巨大的差異。這意味著推理 token 數(shù)量本身就是不可預(yù)測的。

既然定價不能準(zhǔn)確反映實(shí)際開銷,我們是否可以直接預(yù)測實(shí)際開銷呢?

實(shí)踐表明:實(shí)際開銷其實(shí)是一個高度不可預(yù)測的量!

如圖 5 所示,研究人員在數(shù)學(xué)競賽數(shù)據(jù)集上多次運(yùn)行同一個模型,發(fā)現(xiàn)它們的推理 token 的數(shù)量差距巨大。例如,對第 6 個任務(wù),GPT-5.2 的推理 token 數(shù)最大可達(dá)五萬,最低只需 2 萬,達(dá)到了 2.5 倍的差距。這就意味著,推理 token 數(shù)本身帶有巨大的隨機(jī)性,因此,推理 token 數(shù)具有高度的不確定性和不可預(yù)測性,從而讓實(shí)際開銷的預(yù)測變得極為困難。

結(jié)論

這一研究發(fā)現(xiàn)了AI 模型領(lǐng)域的靴子現(xiàn)象:定價更低的模型反而可能帶來更高的實(shí)際開銷。同時,它又指出了實(shí)際開銷的不確定性和不可預(yù)測性。這表明,要選取物美價廉的 AI 模型,并不是看看價目表就夠了。

作者們還開源了使用的數(shù)據(jù),提供了一個可互動的網(wǎng)站,為后續(xù)研究提供了基礎(chǔ)。

  • 數(shù)據(jù):https://github.com/lchen001/pricing-reversal
  • 網(wǎng)站:https://price-reversal.streamlit.app/

作者介紹

本文由來自斯坦福大學(xué)、加州伯克利大學(xué)、卡內(nèi)基梅隆大學(xué)、和微軟研究院的 Lingjiao Chen, Chi Zhang, Yeye He, Ion Stoica,Matei Zaharia,James Zou 等 6 位作者完成。

  • Lingjiao Chen,斯坦福大學(xué)博士,微軟研究院資深研究員。
  • Chi Zhang,卡耐基梅隆大學(xué)博士。
  • Yeye He,微軟研究院首席研究員。
  • Ion Stoica,加州伯克利大學(xué)教授,美國工程院院士,Databricks 創(chuàng)始人兼主席。
  • Matei Zaharia,加州伯克利大學(xué)教授,Databricks 創(chuàng)始人兼首席技術(shù)官。
  • James Zou,斯坦福大學(xué)教授。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1994年,哈薩克斯坦為什么把緊挨中國的首都,遷到1000公里外?

1994年,哈薩克斯坦為什么把緊挨中國的首都,遷到1000公里外?

孤云朗境
2026-04-13 02:17:59
李修賢談萬梓良現(xiàn)狀:酒吧駐場不丟人,為人仗義,事業(yè)婚姻都不順

李修賢談萬梓良現(xiàn)狀:酒吧駐場不丟人,為人仗義,事業(yè)婚姻都不順

以茶帶書
2026-04-14 16:39:49
東契奇本周六將歸隊(duì)!多次注射治療加快康復(fù) 里夫斯預(yù)計(jì)5月初復(fù)出

東契奇本周六將歸隊(duì)!多次注射治療加快康復(fù) 里夫斯預(yù)計(jì)5月初復(fù)出

羅說NBA
2026-04-14 05:25:06
1925年孫中山在協(xié)和醫(yī)院住了47天,手術(shù)只開了25分鐘當(dāng)場宣布肝癌

1925年孫中山在協(xié)和醫(yī)院住了47天,手術(shù)只開了25分鐘當(dāng)場宣布肝癌

阿器談史
2026-04-14 15:17:33
震驚!大同懸空寺在公路旁砌墻“不讓免費(fèi)看”,當(dāng)?shù)鼐W(wǎng)友發(fā)帖反駁

震驚!大同懸空寺在公路旁砌墻“不讓免費(fèi)看”,當(dāng)?shù)鼐W(wǎng)友發(fā)帖反駁

火山詩話
2026-04-14 06:27:39
活久見!一家長在班級群稱不愿為未成年女兒承擔(dān)還款責(zé)任,引熱議

活久見!一家長在班級群稱不愿為未成年女兒承擔(dān)還款責(zé)任,引熱議

火山詩話
2026-04-14 16:57:50
伊朗議長:伊朗有意效仿美國

伊朗議長:伊朗有意效仿美國

俄羅斯衛(wèi)星通訊社
2026-04-14 15:13:28
NBA擺爛歷史級崩塌!真的要治治了!!

NBA擺爛歷史級崩塌!真的要治治了!!

柚子說球
2026-04-13 22:10:33
遲重瑞與陳麗華大孫女同框,這哪是繼爺爺,分明就是親爺爺!

遲重瑞與陳麗華大孫女同框,這哪是繼爺爺,分明就是親爺爺!

情感大頭說說
2026-04-14 13:48:43
“狗不理”跌落神壇,從一天賣6萬個到無人問津,它為何不火了?

“狗不理”跌落神壇,從一天賣6萬個到無人問津,它為何不火了?

房產(chǎn)衫哥
2026-04-14 12:50:59
突發(fā)!協(xié)議即將達(dá)成,28國聯(lián)手對付中國,名單公開,沒一個善茬

突發(fā)!協(xié)議即將達(dá)成,28國聯(lián)手對付中國,名單公開,沒一個善茬

黑鷹觀軍事
2026-04-14 15:10:11
單車?yán)麧櫜蛔闱г辶庀蛏稀叭A境”不容有失

單車?yán)麧櫜蛔闱г辶庀蛏稀叭A境”不容有失

財(cái)經(jīng)汽車
2026-04-13 20:19:15
孫儷在上海花展被人拍了,就一張側(cè)臉,沒開美顏,也沒找角度

孫儷在上海花展被人拍了,就一張側(cè)臉,沒開美顏,也沒找角度

東方不敗然多多
2026-04-14 17:55:55
美軍開始攔截船只;伊朗學(xué)者警告中國護(hù)航將使美中直接對抗

美軍開始攔截船只;伊朗學(xué)者警告中國護(hù)航將使美中直接對抗

混沌錄
2026-04-14 17:28:26
比亞迪立體車庫大火更多消息,以及簡單的分析

比亞迪立體車庫大火更多消息,以及簡單的分析

靠山屯閑話
2026-04-14 15:40:46
恒大集團(tuán)退薪

恒大集團(tuán)退薪

新浪財(cái)經(jīng)
2026-04-12 10:31:26
中國油輪首次突破美國封鎖,直接穿過霍爾木茲

中國油輪首次突破美國封鎖,直接穿過霍爾木茲

桂系007
2026-04-14 15:01:07
美媒:美國海上封鎖伊朗 超15艘美軍艦已到位

美媒:美國海上封鎖伊朗 超15艘美軍艦已到位

新華社
2026-04-14 11:38:02
意外意外!球衣銷量榜首!竟然是他啊!

意外意外!球衣銷量榜首!竟然是他啊!

柚子說球
2026-04-14 22:10:07
廣東一面包店發(fā)出閉店通知,顧客:“孩子得知后當(dāng)場大哭!”街坊紛紛挽留,多方幫助后面包店重獲“新生”

廣東一面包店發(fā)出閉店通知,顧客:“孩子得知后當(dāng)場大哭!”街坊紛紛挽留,多方幫助后面包店重獲“新生”

極目新聞
2026-04-14 11:30:13
2026-04-14 22:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12762文章數(shù) 142628關(guān)注度
往期回顧 全部

科技要聞

離職同事"煉化"成AI?這屆公司不需要活人了

頭條要聞

54歲班主任帶15歲女孩到賓館開房猥褻:將她壓到床上

頭條要聞

54歲班主任帶15歲女孩到賓館開房猥褻:將她壓到床上

體育要聞

帶出中超最大黑馬!他讓球迷們“排隊(duì)道歉”

娛樂要聞

宋祖兒劉宇寧戀情大反轉(zhuǎn) 正主火速辟謠

財(cái)經(jīng)要聞

許家印認(rèn)罪,他和恒大還有多少欠債?

汽車要聞

售12.99萬起/續(xù)航2000km 風(fēng)云T9L上市

態(tài)度原創(chuàng)

時尚
本地
手機(jī)
健康
公開課

全網(wǎng)走紅的「爆改老媽」,審美霸凌了多少中年女性?

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

手機(jī)要聞

蘋果iOS 26.4現(xiàn)Bug:捷克語鍵盤缺失字符致用戶無法解鎖手機(jī)

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版