網易首頁 > 網易號 > 正文申請入駐

給大模型排名！兩個博士一年干出17億美金AI獨角獸

2026-01-15 19:41:36　來源: 硅基觀察Pro

北京舉報

分享至

AI模型能力爭議從2025吵到2026，一家靠“給模型打分”的公司率先跑成了獨角獸。

本月，隨著一筆1.5億美元融資的落定，AI大模型評測機構LMArena，估值沖至17億美元。

這個起源于伯克利校園的項目，看似偶然，實則精準命中了AI時代一個日益尖銳的痛點：當傳統的考試框架被模型反復“刷題”、逐漸失靈，我們該如何判斷一個模型是否真正有用？

LMArena的答案簡潔而顛覆：把裁決權交給用戶，讓每一次點擊成為投票。日均上千場對戰、數萬次匿名比拼在此上演，也成為所有大廠不敢缺席的“試金石”。

在爭議與流量齊飛中，LMArena在2025年9月完成了關鍵一躍：將數千萬次人類偏好數據，封裝成B端評估服務。產品僅上線4個月，其年化經常性收入突破3000萬美元，OpenAI、Google、xAI等頭部AI企業均成為其核心付費客戶。

LMArena或許并非完美的答案，其眾包模式也始終伴隨著“不夠專業”、“易被操縱”的批評。

然而，它的迅速商業化與估值飆升，如同一面刺眼的鏡子，尖銳地揭示了舊有評估體系的失效，并將選擇權部分交還給了用戶。

當刷榜不再可信，用千萬次匿名對決選出“好用”的AI

從2025 年開始，AI 行業出現了一種微妙卻普遍的情緒變化。

模型還在發布，榜單還在刷新，但興奮感正在快速衰減。一次次參數升級、一次次排行榜登頂，越來越像一場成本高昂卻回報有限的表演。

產品落地節奏跟不上模型宣傳節奏，甚至連微軟內部的研究人員，也公開談到自己正在經歷“AI 疲勞”。

更深層的問題在于，榜單正在塑造一種并不健康的激勵機制。

當模型能力被壓縮進有限的基準測試中，優化目標就會迅速收斂。

面對開放式問題，不同模型的回答在結構、措辭、推理路徑上高度相似，看似穩健，實則趨同。創造力下降并不是因為模型不夠強，而是因為它們被訓練成了“會考試的學生”。

華盛頓大學教授朱邦華曾指出，這正是當前評測體系的核心缺陷。

基準測試數量有限、覆蓋場景狹窄，模型極易產生過擬合。它們學會的并非理解與推理，而是如何針對題庫進行“應試準備”。靜態測試的存在，本身就在引導模型向固定解法靠攏。

在這一背景下，行業開始重新討論一個更現實的問題：如何評估模型的真實能力？

答案正在從排行榜遷移。比起分數高低，人們開始關心更具體的維度：模型是否容易集成進真實系統？在專業場景中是否穩定可靠？能否在長期使用中保持一致表現？以及，它是否真的理解業務語境，而不是給出看似正確的通用答案。

也正是在這種集體焦慮中，一個“匿名選手”的走紅，提供了另一種可能性。

2025 年 8 月，一個名為 nano-banana 的模型，悄然出現在 LMArena 的圖像編輯競技場。沒有發布會，沒有技術白皮書，甚至連模型名稱都是匿名的。平臺采用完全盲測機制，用戶只能看到結果，通過對比投票來判斷優劣。

短短兩周，這個模型累計獲得超過500 萬次社區投票，其中直接勝出票達到 250 萬張，以明顯優勢登頂榜首。

流量隨之涌入。LMArena 的整體訪問量在當月增長了 10 倍，月活用戶突破 300 萬。隨后，谷歌正式認領了這位“匿名選手”，其真實身份是 Gemini 2.5 Flash Image。

回頭看，這并非一次偶然事件。

最早的擴散來自Andrej Karpathy 的轉發，隨后 OpenAI、Anthropic 等頭部廠商的模型陸續接入。原本只是一個對比工具的平臺，逐漸演變為一場圍繞真實用戶體驗展開的“模型對決”。

連思維鏈CoT 的提出者 Jason Wei 也參與了討論。他指出，好的評估體系應當聚焦智能的核心能力，比如語言理解、數學推理和問題解決，并且需要足夠大的樣本規模與清晰的判斷標準，而不是不斷疊加復雜但脫離實際的指標。

某種程度上，LMArena 恰好踩中了這一共識。

它的核心設計并不復雜，用戶每次提問，系統隨機抽取兩個匿名模型同時作答，結果并排展示為“回答 1”和“回答 2”。用戶從有用性、準確性、貼合度、安全性等角度投票，也可以選擇平局或都不滿意。甚至連用戶的提問本身，也會被納入評估數據。

這種機制天然貼近真實使用場景。編程、寫作、邏輯分析、法律解讀、多輪對話、多模態生成，都不是被拆分成單項能力測試，而是在完整任務中直接對比。

例如，在測試代碼能力時，用戶可能要求編寫一個函數，用于提取網頁中的h1 到 h3 標簽。一個模型給出結構完整、包含異常處理、可直接運行的代碼，另一個卻遺漏依賴或存在邏輯錯誤。投票結果不需要解釋，勝負自然分明。

當類似對比累積到數萬、數十萬次，模型在特定能力維度上的穩定差異，開始顯現。

排名并非主觀印象，而是通過類似國際象棋排位賽的Elo 評級系統計算得出。每一次勝負都會影響評分，長期來看，只有在大量用戶偏好對比中持續占優的模型，才能保持高位。

LMArena 甚至會主動拉開差距。

在Arena-Expert 模塊中，平臺刻意篩選出約 5.5% 的“專家級”提示，作為難度更高的測試樣本。這些問題往往更復雜、更偏邊緣場景，用來觀察模型在高壓情況下的表現分化。不同難度區間下的勝率變化，也成為分析模型能力上限的重要依據。

圍繞具體需求，平臺還衍生出多個專項競技場，包括Code Arena、Search Arena、Image Arena 等，將提問、生成、比較、投票整合為一個連續流程。用戶不是來“看榜單”的，而是在完成自己任務的過程中，順便完成評測。

這種評測方式的意義，在中文場景中體現得尤為明顯。

在2025 年 11 月發布的中文榜單中，國產大模型首次實現對國際模型的系統性反超。前十名中，國產模型占據八席，阿里巴巴的 Qwen3、智譜 AI 的 GLM-4.6 等模型，在真實中文任務中的勝率顯著領先。

可以說，LMArena 用一種新的方式，構建了評估模型真實能力的新基準。

從免費榜單到B端服務，模型評測市場加速商業化

在LMArena 出現之前，AI 評測并不是一個商業意味濃厚的賽道。

過去十多年里，這項工作主要由學術機構或開源社區維護。它們更像一種行業公共產品，不直接變現，而是通過提供統一、可復現的評估框架，建立學術影響力與話語權。榜單存在，但目的不是競爭，而是共識。

真正的變化，發生在大模型產業化之后。

隨著模型數量激增、應用場景外溢，評測不再只是研究工具，而成為支撐整個市場運行的基礎設施之一。模型要進入企業系統、要被采購、要被對比，評測開始承擔“決策前置”的角色，其市場空間也隨之被迅速放大。

很少有人想到，這條商業化路徑的起點，其實是一場極其樸素的學術實驗。

LMArena 最早由卡內基梅隆大學、加州大學伯克利分校以及 LMSYS 相關成員共同發起。

2023年，在加州大學伯克利分校電子工程與計算機科學系攻讀博士學位的Anastasios N. Angelopoulos和Wei?Lin Chiang創立了Chatbot Arena，這即為LMArena的前身。

項目最初的目標非常簡單：對比Vicuna 和 Alpaca 兩個模型，看看用戶更喜歡哪一個。

但這個“隨手做的對比實驗”，最終演化成了一個被行業默認采信的公共競技場。

截至目前，LMArena 的月活躍用戶已達到 500 萬，覆蓋超過 150 個國家；平臺每月產生的模型對話超過 6000 萬次，日均進行上千場實時匿名對戰。幾乎所有頭部模型廠商都已入場——從 OpenAI、Anthropic、Google、Meta，到 DeepSeek、混元、千問、xAI、Microsoft，無一缺席。

更值得注意的是，頭部公司已不再只是“參與評測”，而是主動將其作為新品試驗場。Google、OpenAI 等廠商，曾將尚未公開發布的 Nano Banana、Gemini 3.0 悄然接入 Arena 進行內測。這種行為本身，意味著 LMArena 已成為行業默認的“試金石”。

模型集中，自然也帶來注意力的集中。

根據Cohere 等機構對 2024 至 2025 年間超過2800萬條模型比較記錄的分析，在用戶投票與交互數據中，Google 與 OpenAI 兩家合計占比約 40%；而其余 83 個開源模型加在一起，僅占 29.7%。Arena 看似開放，但頭部效應依舊顯著。

隨著榜單影響力外溢，LMArena 的定位也開始發生變化。

2025 年 9 月，在完成大額種子輪融資后，團隊推出首個商業化產品“AI Evaluations”，正式進入B端市場。

該產品主打定制化評測，核心賣點在于可在企業私有、脫敏數據環境中完成測試，繞開“敏感數據無法在公開平臺評測”的長期痛點。

在具體設計上，“AI Evaluations”已能結合企業脫敏后的業務數據，在“聽不聽話、說不說胡話、合不合規、多步任務能不能一次跑通”這四項上給模型打分，最終會輸出模型在特定場景的勝率、短板、答案差距，輸出場景化勝率分析與能力短板報告。

更長遠的計劃，則指向平臺積累的核心資產——人類偏好數據。

LMArena 正嘗試利用數千萬條社區投票數據，訓練自己的 RLHF 模型，讓評測結果反向參與模型優化。這一步的意義在于，它開始走出“量尺”的定位，逐漸嵌入模型研發鏈條，成為訓練流程中的一部分。

不過，LMArena 也并非沒有隱患。

在行業內部，人們通常將LMArena 描述為一種“基于氛圍的基準”，或一個眾包評測平臺。匿名對戰、集體投票、動態排名，這種解釋直觀，也基本符合平臺自身的敘述方式。

但正是眾包機制，讓它始終站在方法論爭議的中心。

質疑主要集中在兩點：投票結果的可靠性，以及用戶偏好的傾向性。Andrej Karpathy 曾提醒，外界很容易過度迷信排行榜，把排名直接等同為模型真實能力。

Cohere 與斯坦福研究人員的進一步質疑更為尖銳：成對評估的問題在于，你并不清楚用戶究竟在比較什么——是正確性、風格，還是回答長度？不同因素在投票中的權重并不透明。

意思是，模型可能因為回答得更“啰嗦”、“討喜”而勝出，而不是因為答案更準確、更有用。

真的有人用數據佐證了這一點。Surge AI的一項抽查發現，在500組投票中，52%的獲勝回答包含事實錯誤，39%的投票結果與事實嚴重不符。用戶確實顯示出對更長、帶有emoji、格式精美回答的偏好，即使這些答案在正確性上并不占優。

更極端且諷刺的案例來自Meta。

其提交的Llama 4系列實驗性對話模型，曾憑借充滿emoji和諂媚語氣的大段回答沖至總榜第二，但公開發布版僅排32。

扎克伯格承認針對Arena投票偏好優化。后續研究披露，Meta在Llama 4發布前共提交36個私有變體反復測試“刷分”。

這意味著，歷史再次上演了。

當評測標準被固化，資源充足的科技巨頭就能像備考一樣反復刷題；而初創團隊，則被迫在有限資源中分流精力，應對“標準考試”。這恰恰是行業此前試圖擺脫的問題。

作為回應，LMArena已更新規則，所有提交模型必須可公開復現，否則下架。

但爭議并未就此消失，反而催生了新的競爭形態。

例如，Scale AI 在 2025 年 9 月推出 Seal Showdown，強調付費專家評估，由律師、教授、醫生等專業人士直接打分，試圖以“低噪聲、高專業度”與眾包模式形成區隔。

與此同時，評測范式本身也在繼續外擴。

越來越多平臺開始強調垂直化與實戰化：更深度的專家標注、更接近真實世界的挑戰任務，甚至出現像nano1.ai 推出的 Alpha Arena 這類產品，讓不同模型在同一模擬或真實的加密市場環境中，使用相同資金與提示進行交易，以收益和策略穩定性定勝負。

這類評測難以復現，卻極度貼近商業落地。

總而言之，LMArena已從一個有趣的學術實驗，成長為影響AI研發風向的基礎設施。它的興起、爭議與進化，也映射出整個行業對模型評估的理解正走向更深入、更多維的階段。

文/朗朗

PS：如果你對AI大模型領域有獨特的看法，歡迎掃碼加入我們的大模型交流群。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.