337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

清華教授翟季冬:Benchmark正在「失效」,智能路由終結大模型選型亂象

0
分享至


選擇悖論”正在AI模型與算力世界里上演。

作者丨趙之齊

編輯丨包永剛

北京一月的初雪落下前,我們在清華見到了翟季冬教授。他手持保溫杯,說話很利落,即便一邊思考一邊敘述,言辭間也幾乎沒有停頓、沒有模糊地帶。

這位曾帶隊拿下15次世界超算冠軍的清華計算機系長聘教授,此刻正在拆解一個行業怪象:為什么在大模型參數狂飆、算力價格下探的當下,用戶的AI落地負擔卻越來越重?

他指出,如今Benchmark(基準測試)上的高分,在比對用戶真實需求時不一定管用,有時,同個模型在不同MaaS平臺上跑出來的效果可能差異巨大,因為部分服務商為了降低成本,會對模型進行“閹割級”量化。而面對眼花繚亂的MaaS供應商,用戶要在性能、價格與穩定性之間做取舍,往往光調研一輪市場報價,就已耗盡精力。

“把選型的主動權完全交給用戶,其實是很大的挑戰”, 翟季冬直言。這種“選擇悖論”不僅折磨著開發者,更在吞噬企業的利潤——對于企業來說,降本增效的核心可能并非追求最頂尖的模型,而是如何調度能力恰當的模型,讓昂貴的大模型處理復雜指令,讓輕量的小模型應付日常任務

洞察到這一痛點后,由翟季冬的幾位畢業學生發起的AI Infra廠商——清程極智,開發出智能路由產品AI Ping(AI 評),希望成為算力界的“大眾點評”。

他們將分散的性能數據系統性整理,并收集用戶的使用習慣,公開不同模型與供應商的測評數據,并給用戶推薦合適的、高性價比方案。翟季冬認為,這種產品形態,有助于撬動算力行業的馬太效應——他相信,當數據越集中,模型的選擇就越精準;選擇越精準,用戶需要付出的成本就越低。


翟季冬

與我們交流時,盡管判斷明確,翟季冬說話時的語氣卻始終都是溫和的。他走進會議室時,手上拎著提前為我們備好的飲用水;對話結束后,還為北京凜冽的寒潮給我們來訪帶來的困擾而“致歉”。待人的認真,也換來了學生們的真心相待——在許多博士生習慣將導師稱為“老板”的當下,他的博士生們仍堅持稱呼他為“老師”。

這份溫和的師者風范背后,是他對算力行業叢林法則的洞察。當大模型從實驗室走向萬千企業,性能數據與用戶體驗之間的信息差該如何填平?在國內“重硬輕軟”的ToB市場中,AI Infra團隊又應該如何定位自己的存在?(關于AI Infra生存路徑的探討,歡迎添加作者微信Ericazhao23交流)

這些問題的答案,都藏在他的娓娓道來里。

01
模型選型的隱形賬本:

位置、定價與被閹割的精度

更多的自由和選擇,并不意味著更大的幸福,有限且可比較的選項,反而能提升決策效率與滿意度——這一“選擇悖論”,正在AI模型與算力的世界里上演。

大模型井噴式發展,每個人手里都握著好幾款“AI助手”。但翟季冬捕捉到一個痛點:現在很多用戶上網挑選模型,能參考的只有很標準的Benchmark(基準測試),不少人直接沖著跑分最高的模型去——但最牛的不一定是最合適的。他直言:“模型刷了多少分,并不一定能匹配用戶的真實需求。”

究其原因,除了純粹的性能,還有很多因素會影響模型使用體驗。

供給側上,各家模型供應商的服務響應效果有所差別。以DeepSeek-v3.2模型為例,翟季冬團隊調研發現,國內提供這一API服務的廠商就有幾十家,但他們的API服務吞吐卻覆蓋從15~200 token/s,相差10倍以上;而其支持的輸入輸出長度,也從8k~160k不等,相差了20倍

用戶對此其實早有體感:去年初DeepSeek爆火后,一眾服務商紛紛接入其API,很多人用過一輪后卻發現,同樣調用DeepSeek模型、問出相同問題,不同供應商的輸出效果卻天差地別。

答案很快浮出水面:即便接入同個模型,有的廠商會對模型做激進的量化處理,例如從FP8變成INT4,輸出的表現自然隨之改變。

服務商的算力部署位置,也會左右模型的調用體驗:同款模型,如果用戶在北京調用,MaaS提供方在上海或深圳,體驗都會有很大差異。

此外,各玩家定價策略各異,不同階段的促銷活動還會導致成本相差甚遠

用戶的需求本身就是多維度的:有的更看重性價比,有的追求穩定性,有的則更在意響應速度。而不同的任務場景,也對應著不同的大模型最優解——

對于需求是“寫小說”的用戶,模型擅長寫調研報告的能力就毫無意義;而日常查天氣、問穿搭,一個輕量級的小模型也足夠用;可要是解一道復雜的科學難題,就得大參數的模型出馬。

把選型的主動權完全交給用戶,其實是很大的挑戰”,翟季冬指出。雖然對個人免費用戶而言影響可能甚微,但對企業級用戶來說,會直接引發巨大的成本鴻溝

同樣的預算,調用大模型可能僅能支持十萬次請求,換成小模型卻能達到百萬次量級。

理想的情況是:如果能對需求做精細化拆分,讓復雜問題匹配大模型、簡單問題對接小模型,就能實現算力成本的最優解。

而這些,都是翟季冬和清程極智團隊想解決的問題。

02
做算力界的“大眾點評”,

終結大模型選型亂象

瞄準這些行業痛點,清程極智團隊打造出智能路由產品AI Ping(AI評)。

“AI評的‘評’,就是評測,清程對國內MaaS供應商持續測試——既測同款模型在不同廠商手中的延遲、帶寬表現,也對比不同模型在各家平臺的吞吐效率與價格成本差異”,翟季冬介紹說。

拆解來看,智能路由的能力分為兩層:一是服務商路由,在眾多API服務提供者中選擇最佳的服務;二是模型路由,在眾多大模型中選擇最佳的模型。

回顧技術的研發,翟季冬感慨,服務商路由的搭建不算是最難的事,真正難啃的硬骨頭,是如何為用戶精準匹配模型。

“要給企業的問題精準匹配模型,前提是積累他們的海量歷史數據”,但在初期,數據儲備往往不足、用戶行為畫像模糊,模型的精準選擇很難。

這個難點,在AI Ping的目標市場——個人開發者和中小企業這個群體里,被進一步放大

AI Ping團隊發現,這類用戶對產品質量的要求幾乎是要“超出預期”,八十分的水準,在他們眼里幾乎等同于不合格,這讓產品打磨的難度陡增。

因此,在起初的冷啟動階段,團隊選擇用“笨辦法”突圍:一邊給供應商測試大量數據,用Benchmark測試準確性、延遲帶寬、價格;一邊聯合上下游企業拓展市場,在真實場景中積累用戶、沉淀數據。

解決了這個問題,另一重考驗隨即出現:面對企業的高吞吐剛需,單一供應商的算力儲備往往難以滿足。這就對平臺提出了兩大要求——強大的算力整合能力,以及國產算力接入通道的打通能力。

對此,清程極智就在AI Infra上做了大量工作,把“赤兔”推理引擎與AI Ping對接,完成了算力資源的整合調度。


截圖來自AI Ping網站

在翟季冬看來,AI Ping很像算力行業的“大眾點評”,給用戶打造一套垂直領域的解決方案

這本質上也是一種團購邏輯:聚合海量用戶需求后,清程極智能以更大的體量與算力廠商議價。畢竟,大模型選型的核心命題,始終是成本與效率的平衡。

“這本身也會形成一種馬太效應”,翟季冬指出,“聚合的用戶越多、收集的數據越豐富,模型匹配的精準度就越高;既能幫助用戶省去更多錢,也能幫算力廠商盤活資源,我們的軟件能力也能借此賦能”。

從2025年春夏之交籌備至今,歷時近一年,AI Ping終于迎來了正式面市的時刻。

這種中立的評測甚至成了行業“裁判”:硅基流動創始人袁進輝此前在朋友圈提及,有的用戶分不清其基于國產卡的非pro版與基于國際算力的Pro版的指標差異,于是直接拋出AI Ping的測評結果作佐證。

“可以去這個網站看各項指標,很靠譜”,袁進輝這樣寫道。

來自同行的反饋,已側面印證出AI Ping作為風向標的價值。不過,一個更現實的問題也隨之浮現:對于清程極智而言,如何把這種數據影響力在商業上變現?

03
AI Ping商業解法:整機與算力雙管齊下

對話剛開場,被問及“如今Infra行業的普遍焦慮是什么”時,翟季冬的回應直指核心:

“怎么讓國內AI Infra賺到更多錢?”

在他看來,商業化的核心邏輯正在逐漸明晰:算力需求是一個非常真實的市場,怎么通過服務軟件把算力有效整合提供給用戶,會是AI Infra行業未來的重要發展方向。

這一判斷,也支撐起了清程極智的產品布局——大模型訓練智能軟件棧“八卦爐”、被譽為國產算力部署神器的“赤兔”大模型推理引擎和一站式大模型API評測和調用平臺AI Ping,本質上都是底層算力到用戶端的一個個“出口”。其中,AI Ping便通過整合模型和供應商,把軟件能力賦能到算力上,給用戶提供token和算力

這也是清程在這兩年沉淀出來的解法。

翟季冬評論道,清程極智的核心競爭力是中間軟件層,包括編譯、通信庫、并行加速等技術,基于此,他們逐漸找到了自己的定位:和芯片廠商合作,做其系統軟件之上增量的部分,讓大模型在這些芯片上發揮出極致的效率

圍繞這一定位,清程也在探索多種不同的商業化路徑:

一方面,將軟件與硬件打包為整機服務,針對“買了國產卡卻難落地”的痛點,讓裸機用戶也能做訓練與微調;另一方面,是通過AI Ping等平臺與算力廠商合作,提升國產算力的易用性。

而在最近與國產芯片公司的廠商交流中,翟季冬也感受到,大家對軟硬件高效協同的重要性已形成共識,“剩下的問題,無非就是這些軟件由誰去做”。

清程極智聯合創始人師天麾,也觀察到了這種行業認知的轉變。他此前向雷峰網表示:

“DeepSeek能用極少的算力卡和極低的成本,訓練出如此大規模的模型,主要依靠的是模型架構設計和Infra軟件技術,尤其是他們把大量算力加速類Infra軟件開源后,大家才真正意識到Infra的重要性。”

一個顯著標識是,以前他還需要和投資人解釋什么是Infra,進入2025年之后,這一步已經可以省略了。

但在當下,行業內也流傳著一種擔憂:

“AI Infra的價值,只存在于國產算力群雄逐鹿階段,一旦算力架構定型、大模型技術收斂,Infra的必要性也會大打折扣。”

這也是擺在所有Infra從業者面前共同的問題:下一個能證明自己價值的“地盤”會在哪里?未來如果國產算力逐漸同構,AI Infra還有存在的必要嗎?

04
Infra的生命力:

架構演進不止,軟件迭代不息

此前,AI Infra已在架構適配、算子生成、并行通信等領域初試鋒芒,不過,這遠非終點。

在翟季冬看來,Infra的生命力源于底層架構與上層軟件的雙重迭代:“只要模型還在演進、算力架構還在融合發展,Infra的需求就會持續存在”。

他指出,即便是英偉達的CUDA生態,底層芯片同構,但由于模型側還沒有完全收斂,推理、后訓練的復雜度仍在提升:

文生圖、文生視頻等多模態模型還在興起,即將推出的DeepSeek V4,還將引入更多稀疏性相關的技術難題;AI for Science、AI for Engineering等新的應用領域迸發,也在倒逼AI Infra的底層需求發生變革。

同時,國內算力不僅廠商多,各自的架構也并不統一,這更決定了AI Infra的不可替代性。

翟季冬分析,海外算力市場的架構相對統一:英偉達與AMD占主導地位,二者的GPU架構均屬于SIMT(單指令多線程),有很強的相似性。

反觀國內,有的廠商選擇對標英偉達的SIMT架構,有的則主攻SIMD(單指令流多數據流)架構。

并且,在這幾年里,這兩種架構并非一方絕對壓倒另一方:很多芯片廠商如今都在走架構融合的路線,通過取長補短提升性能,比如華為,開始在SIMD架構里融入SIMT的設計思路;英偉達則正好相反。

在此基礎上,即便已有比較成熟的Infra項目,例如開源圈里炙手可熱的Triton——這款由OpenAI為英偉達芯片開發的算子生成工具,在適配不同架構的國產芯片時,也必須經過大量本土化改造。

而未來,隨著推理場景的全面爆發,AI Infra還將迎來新一輪的挑戰。

翟季冬直言,行業現在普遍面臨一個痛點:芯片的峰值算力與實際利用率之間存在巨大鴻溝。一塊標稱300TFLOPS算力的芯片,在大模型訓練或推理中,實際利用率往往只有10%-20%;即便是英偉達這樣的巨頭,預訓練場景下的算力利用率也僅能達到50%上下。

進入推理階段后,文字、圖像、視頻等不同任務的算力需求差異顯著,再加上對時延的極高要求,如何針對不同推理場景實現硬件性能的最大化釋放,將是AI Infra未來的核心攻堅方向

除了這些看得見的產業機遇,翟季冬還在默默探索那些“冷賽道”,比如AI for Science等短期內難見商業價值、但對科技發展至關重要的領域。

他還與我們分享了一段近期的交流經歷:一位歸國的天文系老師告訴他,射電望遠鏡每天都會產生海量觀測數據,他們需要高效的解決方案,來完成數據的實時處理與算法分析——這無疑對AI Infra的軟硬件協同能力,提出了更高的要求。

這些眼下難見回報的探索,正藏著AI Infra的本真價值。在翟季冬眼中,這也是Infra行業可以穿越周期、走向未來的底氣。

作者長期關注AI算力上下游等方向,歡迎添加微信Ericazhao23交流。

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
阿根廷2025年經濟增長4.4%

阿根廷2025年經濟增長4.4%

新華社
2026-03-21 12:19:11
伊戈達拉:現在球員不想贏球,只想刷高分,這樣就能拿大合同

伊戈達拉:現在球員不想贏球,只想刷高分,這樣就能拿大合同

愛體育
2026-03-21 23:55:35
秒空、售罄!二手市場被炒到8100元,票務方工作人員回應

秒空、售罄!二手市場被炒到8100元,票務方工作人員回應

都市快報橙柿互動
2026-03-21 13:17:25
深度分析:誰在惡意保護長春惡意別車路虎車主?

深度分析:誰在惡意保護長春惡意別車路虎車主?

社會日日鮮
2026-03-21 11:44:19
金價真的一夜變天了!3月21日最新報價,全國金價竟然差這么多?

金價真的一夜變天了!3月21日最新報價,全國金價竟然差這么多?

次元君情感
2026-03-21 14:19:47
快訊!中國這邊傳來一個令特朗普眉頭緊皺的消息!

快訊!中國這邊傳來一個令特朗普眉頭緊皺的消息!

達文西看世界
2026-03-21 14:04:16
最慘簽約!場均3.3分+5300萬,妥妥合同年詐騙犯啊,火箭被坑慘

最慘簽約!場均3.3分+5300萬,妥妥合同年詐騙犯啊,火箭被坑慘

球童無忌
2026-03-21 00:53:34
宇樹機器人IPO,最核心8家企業梳理

宇樹機器人IPO,最核心8家企業梳理

風風順
2026-03-21 15:21:15
“我的部長同學進去了”

“我的部長同學進去了”

深度報
2026-03-21 22:32:10
3年才1億美元!這是對病秧子的懲罰!

3年才1億美元!這是對病秧子的懲罰!

籃球大圖
2026-03-21 22:14:27
西部排名又亂了:開拓者創NBA奇跡,火箭收大禮,7隊排名互換

西部排名又亂了:開拓者創NBA奇跡,火箭收大禮,7隊排名互換

籃球大視野
2026-03-21 14:08:28
鬧大了!路虎別車事件再反轉!當事人信息遭泄露,警方再發通報!

鬧大了!路虎別車事件再反轉!當事人信息遭泄露,警方再發通報!

奇思妙想草葉君
2026-03-20 14:45:59
朝鮮造潛艇被擊沉!

朝鮮造潛艇被擊沉!

烽火觀天下
2026-03-20 11:41:26
東莞一鞋材廠起火,大火吞沒廠房燃起沖天黑煙,當地應急:已經撲滅,未造成人員傷亡

東莞一鞋材廠起火,大火吞沒廠房燃起沖天黑煙,當地應急:已經撲滅,未造成人員傷亡

瀟湘晨報
2026-03-21 17:49:38
中紀委:四川醫療系統500余位“一把手”被查處!

中紀委:四川醫療系統500余位“一把手”被查處!

梅斯醫學
2026-03-21 07:53:46
伊朗軍方消息人士:若美國“侵略”哈爾克島將面臨“前所未有的反擊”

伊朗軍方消息人士:若美國“侵略”哈爾克島將面臨“前所未有的反擊”

澎湃新聞
2026-03-22 00:24:02
難怪咸豐帝31歲去世,你看他逃往熱河干了啥?每天都做4件致命事

難怪咸豐帝31歲去世,你看他逃往熱河干了啥?每天都做4件致命事

銘記歷史呀
2026-03-21 17:44:21
丟人!超微創始人走私25億英偉達GPU,美股直接嚇崩12%

丟人!超微創始人走私25億英偉達GPU,美股直接嚇崩12%

老馬拉車莫少裝
2026-03-21 13:57:44
陵水縣一輛觀光車發生事故,應急局工作人員:導致2死5傷

陵水縣一輛觀光車發生事故,應急局工作人員:導致2死5傷

極目新聞
2026-03-21 10:48:57
“晚打不如早打,小打不如大打,打一個,不如拉日本一起打”。

“晚打不如早打,小打不如大打,打一個,不如拉日本一起打”。

安安說
2026-03-14 18:50:59
2026-03-22 01:08:49
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7134文章數 20742關注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機器人出貨量第一!

頭條要聞

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

頭條要聞

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩寧終于涼了?出軌風波影響惡劣

財經要聞

通脹警報拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態度原創

教育
親子
旅游
手機
房產

教育要聞

高考地理中的湖岸沉積

親子要聞

教育部發布通知,幼兒園將迎來大變動,家長:幸福來得太突然!

旅游要聞

【花Young貴陽】春日限定!十里河灘海棠花盛開引客來

手機要聞

終端市場集體喊“漲” 手機面板持續走“跌”

房產要聞

全城狂送1000杯咖啡!網易房產【早C計劃】,即刻啟動!

無障礙瀏覽 進入關懷版