337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Elephant走紅:AI開始為“Token浪費”算細賬

0
分享至

2026年春季,大模型行業的高燒似乎正在退去,取而代之的是一種近乎冷酷的理性。近日,《財經》報道指出,全球企業級 AI 應用中,約50%的Token正在被浪費。

浪費的原因很具體,AI應用從“對話”轉向“執行”,這些計算資源流向了較貴的大型旗艦模型,Agent在復雜多輪任務中,歷史文件、對話會不斷累積,大量無用、冗余、過期的信息會不斷產生并且重復計算,Token消耗因此指數級增長。也就是說,企業和開發者在用最貴的車跑最短的路。

OpenRouter的流量數據反映了這個轉變:過去一個季度,旗艦級模型的調用占比在下降,100B–300B區間的模型調用量則明顯上升。以近日上線的100B 模型Elephant為例,單日流量暴漲500%,沖上熱榜榜首,成為OpenClaw等 Agent 最受歡迎的選型。開發者開始按任務類型分配模型,而不是一律用最頂配。這是工程理性回歸的信號,不是對旗艦模型的否定。



為什么現在才開始算這筆賬

幾年前,"選最強的模型"是最省心的工程決策。旗艦模型幾乎在所有任務上都更好,成本問題還沒到逼人重新設計架構的程度。

現在情況變了,Agent需要“執行”大量工作。一個客服Agent處理一張工單,可能需要調用模型十幾次:理解意圖、查詢知識庫、判斷優先級、生成回復、核查格式。如果同時有幾千張工單在處理,每天的調用量輕松進入百萬級別。在這種頻率下,每次調用多付的溢價開始在賬單上顯現。

今年3月,一位名為shelvenzhou的開發者在Github進行了一項基準測試,引發了廣泛討論。他記錄自己的OpenClaw日常工作(包括代碼、郵件、PDF、圖片、搜索等)Token消耗情況——第一輪對話Token成本0.0050美元;第五輪對話Token成本0.0665美元,是第一輪的13.3倍;第10輪的Token成本達到了0.13美元,是第一輪的26倍。

根據報道,《財經》統計了GitHub上有關“Token Waste”相關Issues的數量。這一討論至少有5200個,僅2026年一季度就誕生了4150個。越來越多的開發者在實際業務中正面臨控制Token浪費的問題。


目前大多數Agent的工程實現還相當粗糙。面對Agent的多步任務,Token消耗以接近線性的速度增長,而其中大量內容對當前步驟毫無意義。這類問題催生了一個新的工程概念——Agent Harness,它不是模型本身,而是包裹在模型外部、負責管理上下文、編排工具調用、控制執行生命周期的“韁繩”和“馬具”。

Token 效率因此形成了兩條并行的壓力線,一條來自 Agent 框架側,Harness 的出現就是典型代表;另一條來自模型側,推動廠商用更精簡的參數完成同等質量的推理。


模型,向實用主義靠攏

在這場范式轉移中,一批深耕“token效率”的模型成為了舞臺中央的主角。它們不比拼參數規模,而是在單位Token成本下,比拼推理速度、指令遵循度以及長上下文的穩定性。

根據OpenRouter 的 LLM Leaderboard在4月16日的數據,模型格局呈現出明顯的“大模型控榜,小模型控場”的分化態勢。

在前20名的榜單中,傳統意義上的大尺寸旗艦模型(如Claude Opus 4.6、DeepSeek V3.2等),主要分布在榜單頭部和中上部,依然掌握著復雜任務的話語權;而主打輕量化、高性價比的小尺寸模型(如Gemini 3 Flash、Grok 4.1 Fast、GPT-5.4 Nano等),且多集中在第 8 名至第 20 名的區間,形成了不可忽視的“腰部力量”。

可以明顯看到,小尺寸模型的漲幅驚人。根據4月16日數據,排名第17位的 GPT-5.4 Nano以48%的驚人漲幅領跑增長榜,100B模型Elephant單日漲幅 38%。


從App使用情況來看,OpenClaw、Hermes Agent、Kilo Code、CLaude Code 等成為這些小尺寸模型的“最大流量貢獻”,開發者正在將小尺寸模型作為高頻、低延遲任務的首選。

在業界看來,100B-300B已然成為一個實用主義區間。GPT-5.4-Mini是目前這條路線的典型代表之一,以更低延遲和更低成本大幅縮小與旗艦模型的性能差距。

OpenAI 此前著重強調了新模型在多模型分層系統中的位置:以其自研編程助手Codex為例,GPT-5.4負責規劃、協調與最終判斷,而GPT-5.4 mini子智能體則并行處理代碼庫檢索、大文件審閱及輔助文檔處理等粒度更細的子任務。

OpenAI表示,隨著小型模型速度更快、功能更強大,開發者無需使用單一模型處理所有任務,而是可以構建系統,由大型模型負責決策,小型模型則快速大規模地執行任務。這種分層調用的模式開始變得實用而非將就。

Elephant Alpha是另一個值得關注的案例,該模型于4月13日深夜上線 Openrouter。同為100B參數,Elephant定位為“智能效率”優先,在保持256K 上下文窗口的同時,重點優化Token使用效率,適合代碼補全、快速文檔處理和輕量Agent交互等場景。由于來源匿名,其具體技術細節尚不透明,但在開發者社區已有相當的實測關注。




效率不是降級,是分工

旗艦模型不會消失。在需要跨領域深度推理、多步驟規劃、復雜代碼生成的任務上,它們仍然是必要的。沒有人認真地認為100B模型可以在所有場景下替代旗艦版。

但在日常的業務執行層——那些占據大多數調用量的任務——用旗艦模型是在為不需要的能力付費。把這部分流量遷移到效率更高的模型上,毫無疑問是更具性價比的決策。

這種分工在軟件工程里有先例。CPU發展從追求單核主頻轉向多核協作,不是因為單核不重要,而是因為在實際工作負載下,多核架構的整體吞吐遠超單純堆主頻。數據庫領域也有類似的演變:OLTP和OLAP長期共存,不同的查詢特征對應不同的存儲和計算架構。

模型選型的邏輯正在經歷類似的成熟。Token效率正在成為工程師評估模型的核心維度之一——不是因為便宜,而是因為在高頻調用的場景下,它直接關系到產品的商業可行性。那些在單位成本下能提供足夠推理質量的模型,正在成為 Agentic應用的默認底座。

一條路線日漸清晰:規模繼續重要,但效率開始定價......

*以上內容不構成投資建議,不代表刊登平臺之觀點,市場有風險,投資需謹慎,請獨立判斷和決策。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
《浪姐7》修羅場:李小冉、張月高開低走,陶昕然張慧雯注定淘汰

《浪姐7》修羅場:李小冉、張月高開低走,陶昕然張慧雯注定淘汰

小丸子的娛樂圈
2026-04-19 21:28:46
麥當勞變 "老字號粵菜館",廣州牡丹樓開業半天就被拆

麥當勞變 "老字號粵菜館",廣州牡丹樓開業半天就被拆

極目新聞
2026-04-19 22:48:07
劉大錘直播爆猛料!關曉彤王安宇私下關系,1 月就水落石出了

劉大錘直播爆猛料!關曉彤王安宇私下關系,1 月就水落石出了

橙星文娛
2026-04-18 15:30:20
章子怡這張照片真的有點嚇到我了!就是后面那些墻壁

章子怡這張照片真的有點嚇到我了!就是后面那些墻壁

動物奇奇怪怪
2026-04-20 03:22:27
山東贏8分!廣廈13分大勝!北京5分險勝,排名大變,官宣重罰山西

山東贏8分!廣廈13分大勝!北京5分險勝,排名大變,官宣重罰山西

老吳說體育
2026-04-19 21:51:59
專家警告:每天吃一根香蕉,就等于給心臟“踩剎車”?真相來了

專家警告:每天吃一根香蕉,就等于給心臟“踩剎車”?真相來了

路醫生健康科普
2026-04-05 11:20:07
劉翔近況曝光,長期在國外旅游,靠終身合同吸金,遠離鍵盤俠

劉翔近況曝光,長期在國外旅游,靠終身合同吸金,遠離鍵盤俠

梅亭談
2026-04-19 18:44:15
42歲女子頻繁胸悶心悸,心電圖和心臟彩超都正常,最后竟確診這病

42歲女子頻繁胸悶心悸,心電圖和心臟彩超都正常,最后竟確診這病

醫學原創故事會
2026-04-07 23:58:06
一張網上瘋傳的“三人合影”,其實誰也沒見過,也沒人拿得出原件

一張網上瘋傳的“三人合影”,其實誰也沒見過,也沒人拿得出原件

小椰的奶奶
2026-04-13 14:10:17
33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

阿訊說天下
2026-04-18 14:53:39
約中年女人出來玩,學會4個“不要臉”的操作,沒有搞不定的女人

約中年女人出來玩,學會4個“不要臉”的操作,沒有搞不定的女人

藝鑒在線
2026-04-17 13:47:37
真不能怪祖院長,就曾醫生這顏值、這才華和魅力,誰遭的住?

真不能怪祖院長,就曾醫生這顏值、這才華和魅力,誰遭的住?

吃瓜局
2025-11-11 16:23:49
血管要有事,眼睛先報警,出現幾種信號,再拖就是腦梗、失明了

血管要有事,眼睛先報警,出現幾種信號,再拖就是腦梗、失明了

芹姐說生活
2026-04-17 14:28:16
張豆豆曝孫楊干涉自己交友:他被好幾個朋友重創過

張豆豆曝孫楊干涉自己交友:他被好幾個朋友重創過

懂球帝
2026-04-17 10:55:07
讓她多穿點,她回懟 “再家我愿意”

讓她多穿點,她回懟 “再家我愿意”

飛娛日記
2026-03-16 09:13:20
不卑微!一新生坦誠告知室友家窮,聚餐不必叫自己,宿舍衛生全包

不卑微!一新生坦誠告知室友家窮,聚餐不必叫自己,宿舍衛生全包

火山詩話
2026-04-17 09:22:03
多家日本媒體表示:希望中國能夠放下仇恨

多家日本媒體表示:希望中國能夠放下仇恨

安安說
2026-04-19 14:57:46
普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

卷史
2026-04-19 11:41:35
什么級別的單位是武警站崗?哪些黨政部門是武警站崗?

什么級別的單位是武警站崗?哪些黨政部門是武警站崗?

袁老師說歷史
2026-04-19 18:25:03
美國終于開始害怕?比稀土更致命王牌出手了,萬斯:中國要冷靜

美國終于開始害怕?比稀土更致命王牌出手了,萬斯:中國要冷靜

混沌錄
2026-04-10 22:53:19
2026-04-20 04:08:49
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國領先的金融商業信息提供商
144809文章數 2653311關注度
往期回顧 全部

科技要聞

50分26秒破人類紀錄!300臺機器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內娛隔空掀桌第一人

財經要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態度原創

教育
房產
親子
健康
公開課

教育要聞

655家單位、1.29萬個崗位,湖南用心幫大學生找工作

房產要聞

官宣簽約最強城更!海口樓市,突然殺入神秘房企!

親子要聞

孩子總打噴嚏、起疹子,時過敏嗎?

干細胞抗衰4大誤區,90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版