網易首頁 > 網易號 > 正文申請入駐

Arena估值17億背后：2個博士生如何成為AI行業裁判

2026-03-26 15:35:18　來源: 閃存獵手

北京舉報

分享至

7個月，從伯克利實驗室的副業項目到17億美元估值。這不是某家大模型公司的融資故事，而是一家"裁判公司"的崛起速度。

Arena（原名LM Arena）現在是大模型領域的默認 leaderboard（排行榜）。開發者用它測模型，投資人用它做決策，公關戰用它定輸贏。但它的創始團隊只有兩個人——Anastasios Angelopoulos 和 Wei-Lin Chiang，都是 UC Berkeley 的博士生。

TechCrunch 的 Equity podcast 最近專訪了這對組合。對話里有個細節很微妙：Arena 的融資方名單里，出現了 Anthropic、Google、xAI 這些被它排名的公司。裁判收運動員的錢，這比賽還公平嗎？

從"周末項目"到行業標準

2023年，Chiang 在伯克利做機器學習研究。他和 Angelopoulos 注意到一件事：大模型發布越來越快，但沒人知道哪個真的好用。

當時的評測要么太學術（看指標不看體驗），要么太主觀（博主個人偏好）。他們想做一件事：讓用戶直接盲測，A模型和B模型并排對話，投票選出更好的那個。

這個思路借鑒了早期的"盲聽測試"——音響發燒友爭論金線銀線哪個音質好，最后發現蒙上眼睛根本聽不出區別。AI 模型同理，去掉 logo 和光環，純比對話質量。

網站上線后，流量來得比預期快。開發者社區開始自發傳播，模型公司也開始關注——不是因為被 flattering（奉承），而是因為被排名刺痛了。

Chiang 在采訪里回憶："我們最開始只是想解決自己的問題。然后發現，這也是所有人的問題。"

到2024年初，Arena 的月活用戶已經超過百萬，累計投票數破千萬。它成了事實上的行業標準，盡管它一開始只是個"周末項目"。

商業模式：裁判怎么賺錢

Arena 的融資歷程很緊湊。2024年8月，他們宣布完成 A 輪融資，估值 1.7 億美元。7個月后，也就是2025年初，估值跳到 17 億美元——10倍增長。

錢從哪來？Anthropic、Google、xAI、Andreessen Horowitz（a16z）都在股東名單里。這引發了核心質疑：被排名的公司同時是投資人，利益沖突怎么解決？

Angelopoulos 的回應很直接：「我們的協議里寫了，投資人不能干預排名算法、不能提前看數據、不能要求改結果。」

他補充了一個設計細節：Arena 的投票機制是"眾包盲測"，不是內部評測。任何人都可以參與，數據集公開，算法開源。理論上，就算投資人想動手腳，也得說服成千上萬的隨機用戶配合。

但這套說辭能說服所有人嗎？Chiang 承認：「我們每天都在想這個問題。信任是唯一的資產，丟了就什么都沒了。」

目前 Arena 的收入來自兩塊：企業定制評測服務（幫公司測自己的模型），以及 API 調用（開發者用它的 benchmark 工具）。但主要成本是算力和人力，盈利還不是短期目標。

技術細節：為什么盲測比指標更難作弊

Arena 的核心機制叫" pairwise comparison（兩兩對比）"。用戶同時和兩個匿名模型對話，不知道誰是誰，然后選哪個回答更好。

這個設計有個副作用：它天然抵抗"刷分"。傳統 benchmark（比如 MMLU、HumanEval）是固定題庫，模型可以針對性訓練。但 Arena 的對話是開放的、實時的、用戶生成的，沒法提前準備。

Chiang 解釋：「我們統計過，同一個用戶連續投票的間隔平均是 4 分鐘。這意味著他們在認真對話，不是亂點。」

另一個技術點是" Elo 評分系統"——從國際象棋借來的排名算法。每個模型有基礎分，贏一場加分，輸一場扣分，對手越強加減越多。這樣長期積累下來，分數反映的是相對實力，不是絕對分數。

但 Elo 系統也有盲區。它擅長排"誰更強"，不擅長說"強多少"。兩個模型分數接近時，實際差距可能被放大或縮小。Angelopoulos 說他們在改進，比如引入置信區間、增加樣本量。

行業影響：一條曲線如何攪動千億市場

Arena 的排名現在直接影響商業決策。模型公司發布新版本前，會私下跑 Arena 測試；投資人看 AI 項目，會查它在 Arena 的位置；甚至招聘時，工程師會把自己的" Arena 對戰記錄"寫進簡歷。

這種影響力也帶來了壓力。2024年中，某家大模型公司被爆在 Arena 上"刷票"——用腳本批量生成對話并投票給自己。Arena 的應對是加強反作弊：檢測異常 IP 模式、分析對話質量分布、引入驗證碼。

Chiang 沒有點名是哪家公司，但他說：「那次事件后，我們花了兩個月重做信任系統。現在每 1000 票里大概能抓出 3-5 票可疑的。」

更深層的影響是定價權。以前模型公司自己跑分、自己宣傳，現在得等第三方認可。Anthropic 的 Claude 3.5 Sonnet 發布時，官方 PR 里直接引用了 Arena 的 Elo 分數提升。

Angelopoulos 對此有點無奈：「我們沒想過當 gatekeeper（把關人）。但市場需要信號，我們只是恰好在那個位置。」

未來變量：當裁判開始下場踢球

Arena 的下一步計劃包括兩個方向：橫向擴展（覆蓋更多模態，比如圖像、視頻、代碼），以及縱向深化（做更細分的評測，比如醫療、法律、教育場景）。

但最大的變量可能是"自營模型"。有傳言稱 Arena 在考慮訓練自己的小型模型，用于 baseline 對比。這相當于裁判親自下場踢球——哪怕只是"陪練"，也會引發利益沖突質疑。

Chiang 在采訪中沒有直接否認：「我們在探索很多可能性。但任何動作都會先考慮對中立性的影響。」

另一個變量是開源社區的反彈。Arena 的算法和數據集雖然公開，但運營本身是商業公司。部分開發者開始推動"去中心化 Arena"——用區塊鏈或聯邦學習做分布式評測。

Angelopoulos 的回應是合作而非對抗：「如果有人能做出更好的系統，我們會第一個用。這個行業需要多個獨立聲音，不是一家獨大。」

采訪結束前，Rebecca Bellan 問了最后一個問題：「如果五年后 Arena 不存在了，最可能的原因是什么？」

Chiang 想了想說：「要么是我們搞砸了信任，要么是大模型變得太同質，不需要排名了。我不知道哪個更可能發生。」

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

紐約時報：許多美國官員從未去過中國應該去中國看看

環球網資訊 2026-03-26 00:05:09
1981 跟貼 1981
千萬粉絲大V，微博賬號被禁止關注

第一財經資訊 2026-03-26 12:19:47
2031 跟貼 2031

“根本不敢上路”！深圳男子買全新百萬豪車，修了15次還是壞的！很多車主受害

南方都市報 2026-03-26 09:26:45
128 跟貼 128

上海一三甲醫院候診屏出現"照顧號"引熱議院方回應

上游新聞 2026-03-26 15:33:08
128 跟貼 128
收評：滬指跌1.09% 全市場成交額不足2萬億元

證券時報 2026-03-26 15:22:10
844 跟貼 844

生死12分鐘！廣東一男子踢球時心臟驟停一群醫生沖上前接力心肺復蘇救回一命

閃電新聞 2026-03-26 11:46:05
102 跟貼 102

泰國征兵廣告用張凌赫做海報：想像“武安侯”一樣帥氣騎馬嗎？今年四月報名參軍選擇騎兵部隊

閃電新聞 2026-03-26 17:45:38
260 跟貼 260
美媒稱美考慮將援助烏克蘭的武器轉至中東

新華社 2026-03-26 20:05:17
1691 跟貼 1691

10元/斤，最近這一口“鮮貨”正肥！杭州一攤主：一天上百斤不夠賣

環球網資訊 2026-03-25 13:22:33
432 跟貼 432
《長征組歌》響徹“上海之春”，廖昌永石倚潔同臺放歌

澎湃新聞 2026-03-26 23:04:27
2 跟貼 2
火車站“老師兒！出租車在這乘坐”標語引熱議，網友稱一看就是山東濟南，車站工作人員：在當地這是尊稱

極目新聞 2026-03-26 12:06:40
147 跟貼 147
首秀庫拉索，國足主帥邵佳一：國家隊的比賽沒有友誼賽

澎湃新聞 2026-03-26 15:58:27
420 跟貼 420
中原消費金融為催收“買”借款人手機號碼三大運營商均中標或涉買賣個人信息惹爭議

信網 2026-03-26 19:12:37
402 跟貼 402
廣東一男子買啤酒抽中電動車大獎，將中獎二維碼發網上詢問后被他人掃走核銷，網友：“這下又上了一課”

洪觀新聞 2026-03-26 10:56:49
0 跟貼 0
法系在華銷冠車型降價20%，車名叫凡爾賽

第一財經資訊 2026-03-26 10:16:14
145 跟貼 145
微信聊天反復出現“對方正在輸入”，說明對方在干什么？

學申論的談妹 2026-03-26 16:15:26
64 跟貼 64
5家快遞企業聯合調價行業告別低價“內卷”

中國能源網 2026-03-26 07:40:03
282 跟貼 282
中東局勢影響原油進口韓國多地垃圾袋緊缺，有超市每人限購10個，在韓華人：跑七八家便利店“搶到”150個垃圾袋

極目新聞 2026-03-26 19:53:02
147 跟貼 147
100只整裝待發！量產機器狼“-20℃極寒測試”現場曝光

中國網 2026-03-26 15:55:11
394 跟貼 394
“雞蛋界的LV”，安全了嗎

中國新聞周刊 2026-03-26 13:01:31
8 跟貼 8
聯大通過決議，宣布“最嚴重反人類罪”

澎湃新聞 2026-03-26 11:03:06
0 跟貼 0

閃存獵手

全網蹲好價的野生捕手，算力與羊毛都不可辜負。

211文章數 0關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

旅游

本地

家居

公開課

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

Arena估值17億背后：2個博士生如何成為AI行業裁判

從"周末項目"到行業標準

商業模式：裁判怎么賺錢

技術細節：為什么盲測比指標更難作弊

行業影響：一條曲線如何攪動千億市場

未來變量：當裁判開始下場踢球

美團發布外賣大戰后成績單：虧損超200億

特朗普：伊朗允許10艘油輪通行霍爾木茲海峽

特朗普：伊朗允許10艘油輪通行霍爾木茲海峽

申京努力了，然而杜蘭特啊

劉曉慶妹妹發聲！稱姐姐受身邊人挑撥

油價"馴服"特朗普？一到100美元就TACO

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

看看把孩子嚇得哈哈哈

河南開封萬歲山武俠城，游客買300元門票：給妻子拍照被保安阻攔

救命，這只醬板鴨已經在我手機復仇了一萬遍

傍海而居 靜觀蝴蝶海

傍海而居靜觀蝴蝶海