網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI的命門，決定了大模型公司的未來(lái)

2025-09-03 13:21:44　來(lái)源: 直面派

北京舉報(bào)

分享至

如果Scaling Law是指導(dǎo)大模型能力提升最重要的標(biāo)尺，那么“算力成本控制”就是大模型行業(yè)發(fā)展和商業(yè)化的基石。

年初DeepSeek在國(guó)外開(kāi)源社區(qū)首先爆火，一個(gè)很重要的原因就是，DeepSeek幾乎將同性能模型的推理算力和訓(xùn)練算力成本都降到了10%以內(nèi)。MoE架構(gòu)也在GPT-4發(fā)布之后，逐漸取代了稠密架構(gòu)，成為了幾乎所有大模型開(kāi)發(fā)商的默認(rèn)選項(xiàng)，最核心的原因也是能夠有效降低模型推理的算力成本。

而OpenAI伴隨著GPT-5發(fā)布第一次與用戶見(jiàn)面的“路由（routing）”功能，設(shè)計(jì)本意也是代替用戶來(lái)把簡(jiǎn)單問(wèn)題匹配到低消耗模型，復(fù)雜問(wèn)題匹配到能力和算力消耗高的推理模型，從而有效提升用戶體驗(yàn)和算力效率，但卻變成AI圈最知名的“降本增笑”事件。

即便是GPT-5發(fā)布接近了一個(gè)月，OpenAI還是沒(méi)有能讓所有用戶滿意，網(wǎng)友依然還在吐槽，GPT-5沒(méi)有辦法解決一些很簡(jiǎn)單的問(wèn)題。雖然隨著OpenAI回滾了GPT-4o，還讓用戶能夠手動(dòng)在推理模型和基本模型間切換，讓大多數(shù)用戶開(kāi)始同意OpenAI宣稱的“GPT-5性能明顯強(qiáng)于之前的模型”，但是Sam Altman自己也沒(méi)有辦法否認(rèn)，GPT-5的發(fā)布確實(shí)是漏洞百出。

而造成翻車最直接的原因，就是他們強(qiáng)推的路由功能沒(méi)有能夠?qū)⒂脩舻念A(yù)期和相應(yīng)的模型能力匹配好。

那么問(wèn)題來(lái)了，為什么OpenAI要冒著GPT-5“發(fā)布即翻車”的風(fēng)險(xiǎn)，也要強(qiáng)推路由功能？

第一個(gè)最直接的原因就是，在GPT-5發(fā)布之前，OpenAI并行推出了5個(gè)以上的模型，讓用戶能夠根據(jù)自己需求來(lái)選擇合適的模型。隨著模型越來(lái)越多，別說(shuō)普通用戶了，就是ChatGPT的重度用戶，有時(shí)候也很難決定使用哪個(gè)模型是最合適自己當(dāng)前任務(wù)的。

對(duì)于立志于將ChatGPT打造成為AI時(shí)代超級(jí)APP的OpenAI，不可能允許這樣的情況持續(xù)存在。特別是對(duì)于大量沒(méi)有接觸過(guò)大模型的普通用戶，替他們針對(duì)不同的任務(wù)選擇合適的模型，是OpenAI在某一個(gè)時(shí)間點(diǎn)必須要做的事情。

而另一個(gè)更深層次的原因在于，從算力成本的角度出發(fā)，自從推理模型出現(xiàn)之后，每一次對(duì)于大模型的詢問(wèn)，都需要在推理模式和非推理模式之間進(jìn)行一次選擇。而這種調(diào)配“深度思考”能力的效率，決定了大模型產(chǎn)品對(duì)于算力的使用效率。

根據(jù)學(xué)術(shù)界對(duì)于推理模型和非推理模型的研究結(jié)果，推理模型和飛推理模型的算力差異巨大，可能達(dá)到5-6倍。對(duì)于復(fù)雜問(wèn)題，通過(guò)思維鏈等技術(shù)進(jìn)行推理后內(nèi)部消耗的推理token數(shù)可能高達(dá)上萬(wàn)個(gè)。

而在延遲上，推理過(guò)程和非推理過(guò)程的差異就更加巨大了，根據(jù)OpenAI自己發(fā)布的數(shù)據(jù)，使用推理模型回答復(fù)雜問(wèn)題所需要的時(shí)間，可能是使用非推理模型的60倍以上。

而就算對(duì)于很多需要復(fù)雜推理的任務(wù)在消耗了巨大的算力以及大量的時(shí)間之后，之后給出的結(jié)果和準(zhǔn)確性差異往往就在5%左右。為了這5%的性能提升，消耗多大的算力合適呢？

做一個(gè)簡(jiǎn)單的算術(shù)題，如果OpenAI將所有任務(wù)都默認(rèn)使用推理模型來(lái)完成，路由功能能夠幫助OpenAI識(shí)別出10%的問(wèn)題可以通過(guò)簡(jiǎn)單的非推理模型完成，就可能將算力成本降低8%（推理非推理算力比值為5:1）。

如果將這個(gè)比例進(jìn)一步提高，能夠降低的算力成本將更加可觀。對(duì)于OpenAI這樣一個(gè)需要服務(wù)數(shù)億用戶，而且算力供應(yīng)依然非常緊張的公司來(lái)說(shuō)，路由功能是否能發(fā)揮作用可以說(shuō)關(guān)系到自身商業(yè)模式是否可持續(xù)的核心能力。

在行業(yè)層面，第三方平臺(tái)（如 OpenRouter）把“自動(dòng)路由與回退（fallback）”做成基建能力：當(dāng)主模型擁塞、限流或內(nèi)容拒絕時(shí)，按策略自動(dòng)切換到次優(yōu)模型，以穩(wěn)定用戶體驗(yàn)。微軟的Azure這樣的AI算力云供應(yīng)商，也將不同模型之間的路由能力作為AI云計(jì)算的一大賣點(diǎn)。

也許，GPT-5發(fā)布之后，對(duì)于OpenAI來(lái)說(shuō)最重要的事情就是在“質(zhì)量-延遲-成本”的三角中尋找每條請(qǐng)求的最優(yōu)平衡點(diǎn)。而目前官方對(duì) GPT-5 的定位與“內(nèi)置思考（built-in thinking）”敘事，實(shí)際上就是把“路由+推理強(qiáng)度”做成默認(rèn)能力，并在 ChatGPT 端通過(guò)“Auto/Fast/Thinking”給了用戶一定程度的可見(jiàn)與可控性。

為大模型打造一個(gè)高效的路由功能到底有多難？

這個(gè)問(wèn)題，外媒在一篇報(bào)道中向UIUC的一名計(jì)算機(jī)專業(yè)的助理教授求證，得到的回答是“可能是一個(gè)亞馬遜推薦系統(tǒng)級(jí)別的問(wèn)題，需要大量專家努力工作數(shù)年時(shí)間才能獲得一個(gè)滿意的結(jié)果。”模型系統(tǒng)層面的路由功能本質(zhì)是“多目標(biāo)+強(qiáng)約束”的工程問(wèn)題。路由不是只拼準(zhǔn)確率，還要在質(zhì)量、延遲、成本、配額/峰值容量、成功率之間做實(shí)時(shí)優(yōu)化。

而且從理論上來(lái)說(shuō)，語(yǔ)義級(jí)別的路由功能在效率上來(lái)看，遠(yuǎn)遠(yuǎn)不是這問(wèn)題的最優(yōu)解。DeepSeek在上周放出的DeepSeek V3.1就在嘗試將推理模型和非推理模型混合起來(lái)，在一個(gè)更深層次上打造出一個(gè)效率更高的路由系統(tǒng)，從而從根本上提高大模型的“推理-非推理”的選擇效率。

根據(jù)網(wǎng)友體驗(yàn)之后的感受，新的混合推理模型相比之前R1有著更快的思考速度：相較于 DeepSeek-R1-0528，DeepSeek-V3.1-Think 能在更短的時(shí)間內(nèi)得出答案。

并且在回答性能相似的前提下，輸出長(zhǎng)度有明顯的下降：新的推理模型在簡(jiǎn)單問(wèn)題上，推理過(guò)程有約10%以上的縮短。正式輸出的部分，新模型大幅精簡(jiǎn)，平均僅有1000字，比R1 0528的平均2100字的水平提高了接近一倍。

但是另一方面，新的混合推理模型也爆出了一些不太穩(wěn)定的問(wèn)：比如會(huì)不時(shí)的在很多輸出中出現(xiàn)莫名其妙的“極”bug：答案中出現(xiàn)很多完全不相關(guān)的“極”

而且在R1上就存在的中英夾雜的情況似乎變得更加嚴(yán)重了，就像一個(gè)剛回國(guó)不久的留學(xué)生，在很多中文任務(wù)中會(huì)顯得很出戲。

即使像DeepSeek這樣的國(guó)內(nèi)最頂尖的大模型團(tuán)隊(duì)，將“推理-非推理”選擇功能內(nèi)置到模型內(nèi)部，模型的穩(wěn)定性上也會(huì)出現(xiàn)一定程度的問(wèn)題。而OpenAI和DeepSeek在自己各自首個(gè)推出的試圖高效調(diào)度“深度思考”能力的模型上都出現(xiàn)了不同程度的翻車，側(cè)面反應(yīng)出要處理好這個(gè)問(wèn)題的難度。

提高效率的另一面，是OpenAI依然處于對(duì)于算力的“極度渴求”的狀態(tài)中。

年初DeepSeekV3和R1的推出引發(fā)的全世界對(duì)于英偉達(dá)等算力供應(yīng)商未來(lái)前景的擔(dān)憂，在短短幾個(gè)月之后就演變成了“AI成本悖論”——token單價(jià)下降但是模型的性能不斷成長(zhǎng)，使得原本交由模型處理本來(lái)會(huì)顯得不經(jīng)濟(jì)的任務(wù)也能交給大模型處理，模型能夠處理的任務(wù)將更多樣與復(fù)雜，從而會(huì)進(jìn)一步推高token總量的需求。

OpenAI 正在推進(jìn)代號(hào)Stargate的基礎(chǔ)設(shè)施擴(kuò)張計(jì)劃：2025 年 7 月，OpenAI 與 Oracle 宣布在美國(guó)新增 4.5 GW 數(shù)據(jù)中心能力。

昨天，外媒也報(bào)道OpenAI 正物色印度當(dāng)?shù)睾献骰锇椋⒂?jì)劃在新德里設(shè)立辦公室，把印度（其第二大用戶市場(chǎng)）的用戶增長(zhǎng)與本地算力配置對(duì)接起來(lái)，在印度建設(shè)至少1Gw規(guī)模的數(shù)據(jù)中心。

“AI成本悖論”一方面不斷推高英偉達(dá)和AI云服務(wù)商的業(yè)績(jī)，同時(shí)也對(duì)像能夠有效降低模型算力需求的“路由”功能提出了更高的要求。

Sam Altman 反復(fù)強(qiáng)調(diào)“2025 年底上線的GPU 超過(guò) 100 萬(wàn)片”的目標(biāo)，且把長(zhǎng)遠(yuǎn)愿景瞄準(zhǔn)“一億 GPU 量級(jí)”。這類表態(tài)從側(cè)面說(shuō)明：即便推理單價(jià)在下降，更復(fù)雜的任務(wù)與更高的調(diào)用量讓大模型的“總賬單”并不會(huì)自動(dòng)下降——必須靠路由把昂貴的推理時(shí)段“留給更需要的人”。

如果從大模型的第一性原理出發(fā)，所有大模型公司追求的最終極標(biāo)準(zhǔn)，就是不斷提升“算力兌換智力”的效率。而高效調(diào)度“深度思考”的能力，在推理大模型時(shí)代某種程度決定了大模型公司能否在系統(tǒng)和商業(yè)效率以及用戶體驗(yàn)上領(lǐng)先全行業(yè)。

歡迎在評(píng)論區(qū)留言~
如需開(kāi)白請(qǐng)加小編微信：dongfangmark

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.