![]()
7個月,從伯克利實驗室的副業項目到17億美元估值。這不是某家大模型公司的融資故事,而是一家"裁判公司"的崛起速度。
Arena(原名LM Arena)現在是大模型領域的默認 leaderboard(排行榜)。開發者用它測模型,投資人用它做決策,公關戰用它定輸贏。但它的創始團隊只有兩個人——Anastasios Angelopoulos 和 Wei-Lin Chiang,都是 UC Berkeley 的博士生。
TechCrunch 的 Equity podcast 最近專訪了這對組合。對話里有個細節很微妙:Arena 的融資方名單里,出現了 Anthropic、Google、xAI 這些被它排名的公司。裁判收運動員的錢,這比賽還公平嗎?
從"周末項目"到行業標準
2023年,Chiang 在伯克利做機器學習研究。他和 Angelopoulos 注意到一件事:大模型發布越來越快,但沒人知道哪個真的好用。
當時的評測要么太學術(看指標不看體驗),要么太主觀(博主個人偏好)。他們想做一件事:讓用戶直接盲測,A模型和B模型并排對話,投票選出更好的那個。
這個思路借鑒了早期的"盲聽測試"——音響發燒友爭論金線銀線哪個音質好,最后發現蒙上眼睛根本聽不出區別。AI 模型同理,去掉 logo 和光環,純比對話質量。
網站上線后,流量來得比預期快。開發者社區開始自發傳播,模型公司也開始關注——不是因為被 flattering(奉承),而是因為被排名刺痛了。
Chiang 在采訪里回憶:"我們最開始只是想解決自己的問題。然后發現,這也是所有人的問題。"
到2024年初,Arena 的月活用戶已經超過百萬,累計投票數破千萬。它成了事實上的行業標準,盡管它一開始只是個"周末項目"。
商業模式:裁判怎么賺錢
Arena 的融資歷程很緊湊。2024年8月,他們宣布完成 A 輪融資,估值 1.7 億美元。7個月后,也就是2025年初,估值跳到 17 億美元——10倍增長。
![]()
錢從哪來?Anthropic、Google、xAI、Andreessen Horowitz(a16z)都在股東名單里。這引發了核心質疑:被排名的公司同時是投資人,利益沖突怎么解決?
Angelopoulos 的回應很直接:「我們的協議里寫了,投資人不能干預排名算法、不能提前看數據、不能要求改結果。」
他補充了一個設計細節:Arena 的投票機制是"眾包盲測",不是內部評測。任何人都可以參與,數據集公開,算法開源。理論上,就算投資人想動手腳,也得說服成千上萬的隨機用戶配合。
但這套說辭能說服所有人嗎?Chiang 承認:「我們每天都在想這個問題。信任是唯一的資產,丟了就什么都沒了。」
目前 Arena 的收入來自兩塊:企業定制評測服務(幫公司測自己的模型),以及 API 調用(開發者用它的 benchmark 工具)。但主要成本是算力和人力,盈利還不是短期目標。
技術細節:為什么盲測比指標更難作弊
Arena 的核心機制叫" pairwise comparison(兩兩對比)"。用戶同時和兩個匿名模型對話,不知道誰是誰,然后選哪個回答更好。
這個設計有個副作用:它天然抵抗"刷分"。傳統 benchmark(比如 MMLU、HumanEval)是固定題庫,模型可以針對性訓練。但 Arena 的對話是開放的、實時的、用戶生成的,沒法提前準備。
Chiang 解釋:「我們統計過,同一個用戶連續投票的間隔平均是 4 分鐘。這意味著他們在認真對話,不是亂點。」
另一個技術點是" Elo 評分系統"——從國際象棋借來的排名算法。每個模型有基礎分,贏一場加分,輸一場扣分,對手越強加減越多。這樣長期積累下來,分數反映的是相對實力,不是絕對分數。
但 Elo 系統也有盲區。它擅長排"誰更強",不擅長說"強多少"。兩個模型分數接近時,實際差距可能被放大或縮小。Angelopoulos 說他們在改進,比如引入置信區間、增加樣本量。
行業影響:一條曲線如何攪動千億市場
![]()
Arena 的排名現在直接影響商業決策。模型公司發布新版本前,會私下跑 Arena 測試;投資人看 AI 項目,會查它在 Arena 的位置;甚至招聘時,工程師會把自己的" Arena 對戰記錄"寫進簡歷。
這種影響力也帶來了壓力。2024年中,某家大模型公司被爆在 Arena 上"刷票"——用腳本批量生成對話并投票給自己。Arena 的應對是加強反作弊:檢測異常 IP 模式、分析對話質量分布、引入驗證碼。
Chiang 沒有點名是哪家公司,但他說:「那次事件后,我們花了兩個月重做信任系統。現在每 1000 票里大概能抓出 3-5 票可疑的。」
更深層的影響是定價權。以前模型公司自己跑分、自己宣傳,現在得等第三方認可。Anthropic 的 Claude 3.5 Sonnet 發布時,官方 PR 里直接引用了 Arena 的 Elo 分數提升。
Angelopoulos 對此有點無奈:「我們沒想過當 gatekeeper(把關人)。但市場需要信號,我們只是恰好在那個位置。」
未來變量:當裁判開始下場踢球
Arena 的下一步計劃包括兩個方向:橫向擴展(覆蓋更多模態,比如圖像、視頻、代碼),以及縱向深化(做更細分的評測,比如醫療、法律、教育場景)。
但最大的變量可能是"自營模型"。有傳言稱 Arena 在考慮訓練自己的小型模型,用于 baseline 對比。這相當于裁判親自下場踢球——哪怕只是"陪練",也會引發利益沖突質疑。
Chiang 在采訪中沒有直接否認:「我們在探索很多可能性。但任何動作都會先考慮對中立性的影響。」
另一個變量是開源社區的反彈。Arena 的算法和數據集雖然公開,但運營本身是商業公司。部分開發者開始推動"去中心化 Arena"——用區塊鏈或聯邦學習做分布式評測。
Angelopoulos 的回應是合作而非對抗:「如果有人能做出更好的系統,我們會第一個用。這個行業需要多個獨立聲音,不是一家獨大。」
采訪結束前,Rebecca Bellan 問了最后一個問題:「如果五年后 Arena 不存在了,最可能的原因是什么?」
Chiang 想了想說:「要么是我們搞砸了信任,要么是大模型變得太同質,不需要排名了。我不知道哪個更可能發生。」
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.