337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

警惕!大模型成本倒掛:你正在為模型的多余「思考」買單

0
分享至



在選擇使用大模型 (LLM) 時(shí),除了模型性能強(qiáng)弱,價(jià)格也是一個(gè)重要指標(biāo)。人們通常會(huì)用大模型的 API 定價(jià)更貴或更便宜,來(lái)比較模型的價(jià)格高低。但事實(shí)上,定價(jià)低的模型真的比定價(jià)高的模型使用起來(lái)更便宜嗎?

如今,一項(xiàng)來(lái)自斯坦福、加州伯克利大學(xué)、卡內(nèi)基梅隆大學(xué)和微軟研究院的研究,揭示了 AI 模型中的價(jià)格倒掛現(xiàn)象:低定價(jià)的 AI 模型,反而有可能產(chǎn)生更高的實(shí)際開(kāi)銷!



  • 論文標(biāo)題:The Price Reversal Phenomenon: When Cheaper Reasoning Models End Up Costing More
  • 論文地址:https://arxiv.org/abs/2603.23971

圖 1 給出了主流模型的定價(jià)和它們?cè)趯?shí)際任務(wù)上的開(kāi)銷。



圖 1: 左圖展示了模型定價(jià)和實(shí)際花銷的關(guān)系,右圖給主流模型定價(jià)和實(shí)際價(jià)格各自排序。揭示了價(jià)格倒掛現(xiàn)象:低定價(jià)的模型反而產(chǎn)生了更高的實(shí)際開(kāi)銷。

GPT-5.2 的 API 定價(jià)是 Gemini 3 Flash 的 4.5 倍,但其實(shí)際成本僅為 Gemini 3 Flash 的 81%。類似地,Claude Opus 4.6 的 API 定價(jià)是 Google Gemini 3.1 Pro 的兩倍,但其實(shí)際成本卻低了 35%。

這到底是怎么回事?今天,我們就一起探討這項(xiàng)研究。

AI 模型開(kāi)銷的審計(jì)框架

為了精準(zhǔn)刻畫 AI 模型的實(shí)際開(kāi)銷,研究聚焦于 8 個(gè)廣泛使用的前沿推理模型,包括 GPT-5.2、GPT-5 Mini、Gemini 3.1 Pro、Gemini 3 Flash、Claude Opus 4.6、Claude Haiku 4.5、Kimi K2.5 和 MiniMax M2.5。推理任務(wù)則囊括了包括 AIME、 Humanity's Last Exam、MMLUPro 等 9 個(gè)主流數(shù)據(jù)集。

前沿模型通常采用按量付費(fèi)的定價(jià)機(jī)制,即用戶為發(fā)送的每個(gè)查詢分別付費(fèi)。

這種定價(jià)機(jī)制對(duì)于給定模型通常涉及兩個(gè)組成部分:每單位輸入 token 的價(jià)格,以及每單位輸出 token 的價(jià)格。對(duì)于給定查詢,成本是兩個(gè)價(jià)格按提示 token 數(shù)和輸出 token 數(shù)加權(quán)的總和。(為了便于理解, 下文中的討論都使用平均加權(quán)。 對(duì)更多不同加權(quán)情況感興趣的話,可以在互動(dòng)網(wǎng)站上嘗試:https://price-reversal.streamlit.app/)

AI 模型的成本倒掛現(xiàn)象



圖 2: 實(shí)際成本排名在不同任務(wù)之間存在顯著差異。

測(cè)試發(fā)現(xiàn):定價(jià)排名與實(shí)際成本排名的巨大反差,且這樣的價(jià)格逆轉(zhuǎn)是普遍存在的。根據(jù)固定標(biāo)價(jià) API 定價(jià)進(jìn)行的標(biāo)準(zhǔn)評(píng)估是具有誤導(dǎo)性的。

例如,Gemini 3 Flash 的標(biāo)價(jià)($3.5)僅為 GPT-5.2 價(jià)格($15.75)的 22%,但其在 MMLUPro 上的實(shí)際成本實(shí)際上是后者的六倍(見(jiàn)圖2)!

根據(jù) API 標(biāo)價(jià),Gemini 3 Flash 是第三便宜的模型,但它在 MMLUPro 上是最昂貴的。其實(shí)際成本幾乎是 Gemini 3.1 Pro 的兩倍。

為量化價(jià)格逆轉(zhuǎn)的普遍程度,研究人員檢查了所有 8 個(gè)模型組成的 28 個(gè)模型對(duì),在 9 項(xiàng)任務(wù)上的表現(xiàn),共產(chǎn)生 252 次成對(duì)成本比較,其中21.8%(55 次)比較表現(xiàn)出價(jià)格逆轉(zhuǎn)。

這意味著,僅基于標(biāo)價(jià)的成本判斷中,大約每五次就有一次是錯(cuò)誤的。同時(shí)模型的相對(duì)成本排序高度依賴于任務(wù)。一個(gè)在某個(gè)數(shù)據(jù)集上便宜的的模型可能在另一個(gè)數(shù)據(jù)集上成為最昂貴的之一。

為什么會(huì)出現(xiàn)倒掛現(xiàn)象?

我們先來(lái)介紹一個(gè)有趣的現(xiàn)象:一個(gè)富人和窮人同時(shí)購(gòu)買靴子。富人花費(fèi)了 100 元購(gòu)買了一雙好靴子,而窮人為了省錢,只能支付 15 元購(gòu)買了壞靴子。好靴子可以使用 10 年,而壞靴子只能使用 1 年。結(jié)果,窮人不得不每年購(gòu)買一雙壞靴子。一個(gè)悖論就此出現(xiàn)了:窮人為了省錢購(gòu)買了便宜的靴子,但卻花費(fèi)了更多的錢。這就是社會(huì)經(jīng)濟(jì)學(xué)中著名的靴子理論(Boots Theory):看上去價(jià)格便宜的商品,有可能帶來(lái)更高的總成本。

研究發(fā)現(xiàn)有些 AI 模型也出現(xiàn)了類似的 “靴子現(xiàn)象”, 問(wèn)題的關(guān)鍵是推理 token。



圖 3:圖中展示了模型真實(shí)價(jià)格的具體拆分:輸入、推理、輸出。不同模型在相同任務(wù)上消耗的推理token 數(shù)量差異巨大。

首先,推理 token 是模型開(kāi)銷的主要來(lái)源。如圖 3 所示,在模型的開(kāi)銷里,輸入的 prompt 和輸出的最終結(jié)果通常只消耗總成本的 10% 不到,而大部分的開(kāi)銷都來(lái)自于推理 token。這一分解揭示了思考 token 幾乎在所有模型中都是主導(dǎo)的成本組成部分。其次,不同模型的推理 token 的數(shù)量差距極大!例如,Gemini 3 Flash 所生成的推理 token,是 GPT-5.2 的將近 10 倍。



圖 4: 在同一道 AIME 題目上,GPT-5.2 使用 562 個(gè)思考 token,而 Gemini 3 Flash 使用超過(guò) 11,000 個(gè),導(dǎo)致實(shí)際成本高出 2.5 倍。

圖 4 給出了一個(gè)具體的例子。給定同一道 AIME 2025 題目,GPT-5.2 和 Gemini 3 Flash 得出的最終答案一樣,最終的思路也大致相同。然而,得到這一思路和答案的過(guò)程卻大相徑庭:GPT-5.2 僅僅使用約五百個(gè) token 就完成了思考,而 Gemini Flash 卻需要超過(guò)一萬(wàn)個(gè) token。這揭示了開(kāi)銷逆轉(zhuǎn)的本質(zhì)來(lái)源于思考 token 數(shù)量的巨大差距。



圖 5: 從實(shí)際成本計(jì)算中去除思考 token 成本。(a) 標(biāo)價(jià)排名與實(shí)際成本排名之間的相關(guān)性在所有任務(wù)中均顯著提高。(b) 成對(duì)排名逆轉(zhuǎn)數(shù)平均減少 70%。

事實(shí)上,去掉思考 token 可以使得實(shí)際開(kāi)銷和模型定價(jià)保持高度一致。如圖 5 所示,去除思考 token 成本顯著恢復(fù)了所有 9 項(xiàng)任務(wù)的排名一致性,并且使得排名逆轉(zhuǎn)的數(shù)量減少了 70%。這進(jìn)一步驗(yàn)證了思考 token 才是成本倒掛的隱藏殺手。

我們可以直接預(yù)測(cè)任務(wù)成本嗎?



圖 6: 實(shí)際開(kāi)銷的不可預(yù)測(cè)性。對(duì)每一個(gè) AIME 數(shù)據(jù)集上的任務(wù)跑 5 次所產(chǎn)生的推理 token 數(shù)量。對(duì)于固定的任務(wù)和固定的模型,多次實(shí)驗(yàn)所產(chǎn)生的 token 數(shù),也有著巨大的差異。這意味著推理 token 數(shù)量本身就是不可預(yù)測(cè)的。

既然定價(jià)不能準(zhǔn)確反映實(shí)際開(kāi)銷,我們是否可以直接預(yù)測(cè)實(shí)際開(kāi)銷呢?

實(shí)踐表明:實(shí)際開(kāi)銷其實(shí)是一個(gè)高度不可預(yù)測(cè)的量!

如圖 5 所示,研究人員在數(shù)學(xué)競(jìng)賽數(shù)據(jù)集上多次運(yùn)行同一個(gè)模型,發(fā)現(xiàn)它們的推理 token 的數(shù)量差距巨大。例如,對(duì)第 6 個(gè)任務(wù),GPT-5.2 的推理 token 數(shù)最大可達(dá)五萬(wàn),最低只需 2 萬(wàn),達(dá)到了 2.5 倍的差距。這就意味著,推理 token 數(shù)本身帶有巨大的隨機(jī)性,因此,推理 token 數(shù)具有高度的不確定性和不可預(yù)測(cè)性,從而讓實(shí)際開(kāi)銷的預(yù)測(cè)變得極為困難。

結(jié)論

這一研究發(fā)現(xiàn)了AI 模型領(lǐng)域的靴子現(xiàn)象:定價(jià)更低的模型反而可能帶來(lái)更高的實(shí)際開(kāi)銷。同時(shí),它又指出了實(shí)際開(kāi)銷的不確定性和不可預(yù)測(cè)性。這表明,要選取物美價(jià)廉的 AI 模型,并不是看看價(jià)目表就夠了。

作者們還開(kāi)源了使用的數(shù)據(jù),提供了一個(gè)可互動(dòng)的網(wǎng)站,為后續(xù)研究提供了基礎(chǔ)。

  • 數(shù)據(jù):https://github.com/lchen001/pricing-reversal
  • 網(wǎng)站:https://price-reversal.streamlit.app/

作者介紹

本文由來(lái)自斯坦福大學(xué)、加州伯克利大學(xué)、卡內(nèi)基梅隆大學(xué)、和微軟研究院的 Lingjiao Chen, Chi Zhang, Yeye He, Ion Stoica,Matei Zaharia,James Zou 等 6 位作者完成。

  • Lingjiao Chen,斯坦福大學(xué)博士,微軟研究院資深研究員。
  • Chi Zhang,卡耐基梅隆大學(xué)博士。
  • Yeye He,微軟研究院首席研究員。
  • Ion Stoica,加州伯克利大學(xué)教授,美國(guó)工程院院士,Databricks 創(chuàng)始人兼主席。
  • Matei Zaharia,加州伯克利大學(xué)教授,Databricks 創(chuàng)始人兼首席技術(shù)官。
  • James Zou,斯坦福大學(xué)教授。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
新加坡已經(jīng)成功預(yù)測(cè)中美沖突,一旦爆發(fā),美稱中國(guó)不能攻打美本土

新加坡已經(jīng)成功預(yù)測(cè)中美沖突,一旦爆發(fā),美稱中國(guó)不能攻打美本土

起喜電影
2026-04-16 01:05:59
人民日?qǐng)?bào)聯(lián)合工信部緊急預(yù)警:全體iPhone用戶,請(qǐng)立刻升級(jí)系統(tǒng)!

人民日?qǐng)?bào)聯(lián)合工信部緊急預(yù)警:全體iPhone用戶,請(qǐng)立刻升級(jí)系統(tǒng)!

小柱解說(shuō)游戲
2026-04-19 20:52:59
長(zhǎng)沙火了!全球最大零食店開(kāi)業(yè)3天就被擠停售,背后真相曝光

長(zhǎng)沙火了!全球最大零食店開(kāi)業(yè)3天就被擠停售,背后真相曝光

西昆侖Bruce
2026-04-19 19:52:58
負(fù)債60億!年銷8.4萬(wàn)臺(tái)豪車的百億巨頭破產(chǎn),浙商大佬全被套牢

負(fù)債60億!年銷8.4萬(wàn)臺(tái)豪車的百億巨頭破產(chǎn),浙商大佬全被套牢

青眼財(cái)經(jīng)
2026-04-16 22:01:48
皇馬啟動(dòng)穆帥回歸談判!老佛爺約見(jiàn)門德斯,5月28日定最終結(jié)果

皇馬啟動(dòng)穆帥回歸談判!老佛爺約見(jiàn)門德斯,5月28日定最終結(jié)果

佳佳說(shuō)奇事故事
2026-04-18 21:16:18
正大光明官宣!中國(guó)艦艇編隊(duì)過(guò)航橫當(dāng)水道

正大光明官宣!中國(guó)艦艇編隊(duì)過(guò)航橫當(dāng)水道

武器縱論
2026-04-19 21:56:32
多納魯馬快哭了!爭(zhēng)冠天王山超巨失誤,奪冠27天后“致敬”凱帕

多納魯馬快哭了!爭(zhēng)冠天王山超巨失誤,奪冠27天后“致敬”凱帕

奧拜爾
2026-04-20 00:11:14
烏度卡:杜蘭特訓(xùn)練時(shí)不慎與隊(duì)友膝蓋相撞,導(dǎo)致髕腱區(qū)域受傷

烏度卡:杜蘭特訓(xùn)練時(shí)不慎與隊(duì)友膝蓋相撞,導(dǎo)致髕腱區(qū)域受傷

懂球帝
2026-04-19 08:20:27
摸景甜胸側(cè),抱李雪琴胳膊,31歲的他綜藝翻車,為何如此沒(méi)分寸感

摸景甜胸側(cè),抱李雪琴胳膊,31歲的他綜藝翻車,為何如此沒(méi)分寸感

草莓解說(shuō)體育
2026-04-15 04:23:51
男子爬上泰山“五岳獨(dú)尊”石刻拍照,景區(qū):將核查其身份進(jìn)行處理

男子爬上泰山“五岳獨(dú)尊”石刻拍照,景區(qū):將核查其身份進(jìn)行處理

揚(yáng)子晚報(bào)
2026-04-17 12:09:40
輸給湖人后,火箭揪出最大“水貨”!杰倫-格林離隊(duì)真的太冤了

輸給湖人后,火箭揪出最大“水貨”!杰倫-格林離隊(duì)真的太冤了

兵哥籃球故事
2026-04-19 15:21:32
普京訪華行程敲定,特朗普已下命令,中國(guó)向全球通告,無(wú)懼美國(guó)

普京訪華行程敲定,特朗普已下命令,中國(guó)向全球通告,無(wú)懼美國(guó)

卷史
2026-04-19 11:41:35
為了留住非洲最后一根救命稻草,賴清德拼了!結(jié)果大陸早布好了局

為了留住非洲最后一根救命稻草,賴清德拼了!結(jié)果大陸早布好了局

軒逸阿II
2026-04-20 01:05:31
113-102!尼克斯開(kāi)門紅,唐斯爆發(fā)哈特立功系列賽或變天

113-102!尼克斯開(kāi)門紅,唐斯爆發(fā)哈特立功系列賽或變天

愛(ài)情畢業(yè)了
2026-04-20 00:04:17
廣西欽州一女子后悔砌墻,多次舉報(bào)自己違建,當(dāng)事人:70多歲了上下樓吃力,想在樓后加裝電梯,但因左右建了墻,根本無(wú)法施工

廣西欽州一女子后悔砌墻,多次舉報(bào)自己違建,當(dāng)事人:70多歲了上下樓吃力,想在樓后加裝電梯,但因左右建了墻,根本無(wú)法施工

觀威海
2026-04-19 14:28:11
網(wǎng)友稱山西一酒店回訪電話暴露其行程致家庭破碎,酒店回應(yīng):正常回訪,但電話沒(méi)接通

網(wǎng)友稱山西一酒店回訪電話暴露其行程致家庭破碎,酒店回應(yīng):正常回訪,但電話沒(méi)接通

瀟湘晨報(bào)
2026-04-18 22:04:11
河南三地被曝巨額數(shù)據(jù)造假后續(xù)!河南問(wèn)責(zé)25人

河南三地被曝巨額數(shù)據(jù)造假后續(xù)!河南問(wèn)責(zé)25人

看看新聞Knews
2026-04-19 20:40:06
深大一口氣停招26個(gè)專業(yè),這些“坑”你還在踩嗎?

深大一口氣停招26個(gè)專業(yè),這些“坑”你還在踩嗎?

牛鍋巴小釩
2026-04-17 13:18:03
教育部剛通知!9月起上學(xué)新規(guī)全覆蓋,普通家庭孩子上學(xué)迎公平

教育部剛通知!9月起上學(xué)新規(guī)全覆蓋,普通家庭孩子上學(xué)迎公平

復(fù)轉(zhuǎn)這些年
2026-04-18 11:43:46
李想怒噴日產(chǎn)的背后,藏著“增程帝國(guó)”崩塌的無(wú)能為力

李想怒噴日產(chǎn)的背后,藏著“增程帝國(guó)”崩塌的無(wú)能為力

少數(shù)派報(bào)告Report
2026-04-19 09:17:16
2026-04-20 02:23:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12795文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒(méi)法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒(méi)法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂(lè)要聞

何潤(rùn)東漲粉百萬(wàn)!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬(wàn) 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

藝術(shù)
家居
房產(chǎn)
健康
軍事航空

藝術(shù)要聞

超模施特洛耶克寫真曝光,簡(jiǎn)直美到窒息,別錯(cuò)過(guò)!

家居要聞

法式線條 時(shí)光靜淌

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!海口樓市,突然殺入神秘房企!

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

軍事要聞

伊朗逼退美掃雷艇:美方求給15分鐘撤退

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版