337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Arena估值17億背后:2個博士生如何成為AI行業裁判

0
分享至


7個月,從伯克利實驗室的副業項目到17億美元估值。這不是某家大模型公司的融資故事,而是一家"裁判公司"的崛起速度。

Arena(原名LM Arena)現在是大模型領域的默認 leaderboard(排行榜)。開發者用它測模型,投資人用它做決策,公關戰用它定輸贏。但它的創始團隊只有兩個人——Anastasios Angelopoulos 和 Wei-Lin Chiang,都是 UC Berkeley 的博士生。

TechCrunch 的 Equity podcast 最近專訪了這對組合。對話里有個細節很微妙:Arena 的融資方名單里,出現了 Anthropic、Google、xAI 這些被它排名的公司。裁判收運動員的錢,這比賽還公平嗎?

從"周末項目"到行業標準

2023年,Chiang 在伯克利做機器學習研究。他和 Angelopoulos 注意到一件事:大模型發布越來越快,但沒人知道哪個真的好用。

當時的評測要么太學術(看指標不看體驗),要么太主觀(博主個人偏好)。他們想做一件事:讓用戶直接盲測,A模型和B模型并排對話,投票選出更好的那個。

這個思路借鑒了早期的"盲聽測試"——音響發燒友爭論金線銀線哪個音質好,最后發現蒙上眼睛根本聽不出區別。AI 模型同理,去掉 logo 和光環,純比對話質量。

網站上線后,流量來得比預期快。開發者社區開始自發傳播,模型公司也開始關注——不是因為被 flattering(奉承),而是因為被排名刺痛了。

Chiang 在采訪里回憶:"我們最開始只是想解決自己的問題。然后發現,這也是所有人的問題。"

到2024年初,Arena 的月活用戶已經超過百萬,累計投票數破千萬。它成了事實上的行業標準,盡管它一開始只是個"周末項目"。

商業模式:裁判怎么賺錢

Arena 的融資歷程很緊湊。2024年8月,他們宣布完成 A 輪融資,估值 1.7 億美元。7個月后,也就是2025年初,估值跳到 17 億美元——10倍增長。


錢從哪來?Anthropic、Google、xAI、Andreessen Horowitz(a16z)都在股東名單里。這引發了核心質疑:被排名的公司同時是投資人,利益沖突怎么解決?

Angelopoulos 的回應很直接:「我們的協議里寫了,投資人不能干預排名算法、不能提前看數據、不能要求改結果。」

他補充了一個設計細節:Arena 的投票機制是"眾包盲測",不是內部評測。任何人都可以參與,數據集公開,算法開源。理論上,就算投資人想動手腳,也得說服成千上萬的隨機用戶配合。

但這套說辭能說服所有人嗎?Chiang 承認:「我們每天都在想這個問題。信任是唯一的資產,丟了就什么都沒了。」

目前 Arena 的收入來自兩塊:企業定制評測服務(幫公司測自己的模型),以及 API 調用(開發者用它的 benchmark 工具)。但主要成本是算力和人力,盈利還不是短期目標。

技術細節:為什么盲測比指標更難作弊

Arena 的核心機制叫" pairwise comparison(兩兩對比)"。用戶同時和兩個匿名模型對話,不知道誰是誰,然后選哪個回答更好。

這個設計有個副作用:它天然抵抗"刷分"。傳統 benchmark(比如 MMLU、HumanEval)是固定題庫,模型可以針對性訓練。但 Arena 的對話是開放的、實時的、用戶生成的,沒法提前準備。

Chiang 解釋:「我們統計過,同一個用戶連續投票的間隔平均是 4 分鐘。這意味著他們在認真對話,不是亂點。」

另一個技術點是" Elo 評分系統"——從國際象棋借來的排名算法。每個模型有基礎分,贏一場加分,輸一場扣分,對手越強加減越多。這樣長期積累下來,分數反映的是相對實力,不是絕對分數。

但 Elo 系統也有盲區。它擅長排"誰更強",不擅長說"強多少"。兩個模型分數接近時,實際差距可能被放大或縮小。Angelopoulos 說他們在改進,比如引入置信區間、增加樣本量。

行業影響:一條曲線如何攪動千億市場


Arena 的排名現在直接影響商業決策。模型公司發布新版本前,會私下跑 Arena 測試;投資人看 AI 項目,會查它在 Arena 的位置;甚至招聘時,工程師會把自己的" Arena 對戰記錄"寫進簡歷。

這種影響力也帶來了壓力。2024年中,某家大模型公司被爆在 Arena 上"刷票"——用腳本批量生成對話并投票給自己。Arena 的應對是加強反作弊:檢測異常 IP 模式、分析對話質量分布、引入驗證碼。

Chiang 沒有點名是哪家公司,但他說:「那次事件后,我們花了兩個月重做信任系統。現在每 1000 票里大概能抓出 3-5 票可疑的。」

更深層的影響是定價權。以前模型公司自己跑分、自己宣傳,現在得等第三方認可。Anthropic 的 Claude 3.5 Sonnet 發布時,官方 PR 里直接引用了 Arena 的 Elo 分數提升。

Angelopoulos 對此有點無奈:「我們沒想過當 gatekeeper(把關人)。但市場需要信號,我們只是恰好在那個位置。」

未來變量:當裁判開始下場踢球

Arena 的下一步計劃包括兩個方向:橫向擴展(覆蓋更多模態,比如圖像、視頻、代碼),以及縱向深化(做更細分的評測,比如醫療、法律、教育場景)。

但最大的變量可能是"自營模型"。有傳言稱 Arena 在考慮訓練自己的小型模型,用于 baseline 對比。這相當于裁判親自下場踢球——哪怕只是"陪練",也會引發利益沖突質疑。

Chiang 在采訪中沒有直接否認:「我們在探索很多可能性。但任何動作都會先考慮對中立性的影響。」

另一個變量是開源社區的反彈。Arena 的算法和數據集雖然公開,但運營本身是商業公司。部分開發者開始推動"去中心化 Arena"——用區塊鏈或聯邦學習做分布式評測。

Angelopoulos 的回應是合作而非對抗:「如果有人能做出更好的系統,我們會第一個用。這個行業需要多個獨立聲音,不是一家獨大。」

采訪結束前,Rebecca Bellan 問了最后一個問題:「如果五年后 Arena 不存在了,最可能的原因是什么?」

Chiang 想了想說:「要么是我們搞砸了信任,要么是大模型變得太同質,不需要排名了。我不知道哪個更可能發生。」

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
萬斯決定“急流勇退”?美國下屆總統已無懸念?對華態度更強硬

萬斯決定“急流勇退”?美國下屆總統已無懸念?對華態度更強硬

愛看劇的阿峰
2026-03-27 00:44:34
理解城市 | 開封文旅原來這樣“火”

理解城市 | 開封文旅原來這樣“火”

澎湃新聞
2026-03-26 12:58:34
遲遲等不到中企復工,巴拿馬強援出山!已正式介入?中方要警惕

遲遲等不到中企復工,巴拿馬強援出山!已正式介入?中方要警惕

小冠說娛
2026-03-25 22:54:52
現役巨星出勤率:詹姆斯87%,庫里79%,哈登91%,他8年100%太強了

現役巨星出勤率:詹姆斯87%,庫里79%,哈登91%,他8年100%太強了

大西體育
2026-03-26 14:20:38
伊朗拒絕美國停戰方案并提出伊方5項條件

伊朗拒絕美國停戰方案并提出伊方5項條件

新京報
2026-03-25 23:58:14
被同學爺爺砍成重傷幼童母親再發聲:班主任把孩子“嬉鬧”誤傳為“毆打”,導致激化對方家長情緒失控

被同學爺爺砍成重傷幼童母親再發聲:班主任把孩子“嬉鬧”誤傳為“毆打”,導致激化對方家長情緒失控

大象新聞
2026-03-25 21:45:11
記者:利物浦把40萬鎊周薪給錯了人,他們本應該留下阿諾德

記者:利物浦把40萬鎊周薪給錯了人,他們本應該留下阿諾德

懂球帝
2026-03-26 15:47:08
剛在佛州用郵寄方式完成投票,特朗普轉頭稱郵寄投票是“作弊”

剛在佛州用郵寄方式完成投票,特朗普轉頭稱郵寄投票是“作弊”

呼呼歷史論
2026-03-27 00:23:13
我跟你說,男人最好的春藥,壓根就不是什么枸杞海參,全是扯淡。

我跟你說,男人最好的春藥,壓根就不是什么枸杞海參,全是扯淡。

不甜的李子
2026-03-20 13:00:35
柯文哲被判重刑,黃國昌蔣萬安回應,賴清德又盯上鄭麗文?

柯文哲被判重刑,黃國昌蔣萬安回應,賴清德又盯上鄭麗文?

DS北風
2026-03-26 17:58:06
有關薄一波的十個冷知識

有關薄一波的十個冷知識

深度報
2026-02-13 22:45:30
菲律賓國家命脈出了大問題!馬科斯終于開口求中國:中國幫過我們

菲律賓國家命脈出了大問題!馬科斯終于開口求中國:中國幫過我們

小噎論事
2026-03-25 15:35:52
突發大利好!重大利好!光模塊傳來重大利好!周四這概念要起飛嗎

突發大利好!重大利好!光模塊傳來重大利好!周四這概念要起飛嗎

Thurman在昆明
2026-03-26 01:53:49
普京:越南是俄羅斯的可靠伙伴和朋友

普京:越南是俄羅斯的可靠伙伴和朋友

財聯社
2026-03-26 10:32:05
毛新宇少將擔任副部長!妻子劉濱擔任扇子協會會長

毛新宇少將擔任副部長!妻子劉濱擔任扇子協會會長

李昕言溫度空間
2025-11-09 14:50:17
普京智囊做出預言:下1個爆發戰爭的地方不是臺海,也不是南海

普京智囊做出預言:下1個爆發戰爭的地方不是臺海,也不是南海

悅心知足
2026-03-12 15:26:09
強闖中國駐日使館不法之徒照片曝光,3月15日剛晉升三等陸尉

強闖中國駐日使館不法之徒照片曝光,3月15日剛晉升三等陸尉

澎湃新聞
2026-03-26 14:34:04
翻車了!鐘麗緹替小女兒發聲,拍到如廁的是女同學,網友:更糟了

翻車了!鐘麗緹替小女兒發聲,拍到如廁的是女同學,網友:更糟了

妙知
2026-03-24 15:51:50
這就是赤裸裸的真相!南方電網的退休工資,應該是一般人天花板了

這就是赤裸裸的真相!南方電網的退休工資,應該是一般人天花板了

復轉這些年
2026-03-16 15:45:16
能救張雪峰的,不是速效救心丸

能救張雪峰的,不是速效救心丸

不正確
2026-03-26 18:48:56
2026-03-27 02:28:49
閃存獵手
閃存獵手
全網蹲好價的野生捕手,算力與羊毛都不可辜負。
211文章數 0關注度
往期回顧 全部

科技要聞

美團發布外賣大戰后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發聲!稱姐姐受身邊人挑撥

財經要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

親子
旅游
本地
家居
公開課

親子要聞

看看把孩子嚇得哈哈哈

旅游要聞

河南開封萬歲山武俠城,游客買300元門票:給妻子拍照被保安阻攔

本地新聞

救命,這只醬板鴨已經在我手機復仇了一萬遍

家居要聞

傍海而居 靜觀蝴蝶海

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版