網易首頁 > 網易號 > 正文申請入駐

Arena平臺如何成為大語言模型權威評測標準

2026-03-19 22:20:09　來源: 至頂AI實驗室

北京舉報

分享至

人工智能模型正在快速增長，競爭異常激烈。面對如此多的參與者涌入這一領域，哪一個將成為最佳選擇，又由誰來決定這一點？Arena平臺（前身為LM Arena）已成為前沿大語言模型事實上的公共排行榜，影響著資金投入、產品發布和公關周期。僅僅七個月時間，這家初創公司就從加州大學伯克利分校的博士研究項目發展為估值17億美元的企業。

Equity節目主持人Rebecca Bellan與Arena聯合創始人Anastasios Angelopoulos和Wei-Lin Chiang進行了深入對話，探討他們的平臺如何成為前沿AI模型的首選排行榜，以及在OpenAI、谷歌和Anthropic等公司支持該項目的情況下，他們如何努力建立中立的基準測試。

Arena的工作原理及其獨特性

他們詳細解釋了Arena的運作機制，以及為什么它比靜態基準測試更難以操控。Arena采用動態評估方式，通過真實用戶的對比測試來評判模型性能，這種方法比傳統的固定測試集更能反映實際使用效果。

結構性中立的真正含義

創始人們闡述了"結構性中立"的實際意義。盡管獲得了多家大型科技公司的資金支持，Arena仍致力于保持評測的客觀性和公正性，確保排行榜結果不受投資方影響。

Claude在專業領域的突出表現

目前，Claude在法律和醫療用例的專家排行榜中名列前茅。這反映了不同模型在特定專業領域的性能差異，也展示了Arena平臺在細分領域評測方面的價值。

業務拓展與企業級產品

公司正在將業務范圍擴展到聊天功能之外，開始對智能體、編程能力和現實世界任務進行基準測試，并推出了新的企業級產品。這一擴展策略旨在為更廣泛的AI應用場景提供評測服務。

Q&A

Q1：Arena平臺是什么？它與傳統AI評測有什么不同？

A：Arena是前沿大語言模型的公共排行榜平臺，前身為LM Arena。與靜態基準測試不同，Arena采用動態評估方式，通過真實用戶的對比測試來評判模型性能，這種方法更難被操控，也更能反映實際使用效果。

Q2：Arena如何在獲得大公司投資的情況下保持中立性？

A：Arena通過"結構性中立"來保持評測的客觀性和公正性。盡管獲得了OpenAI、谷歌和Anthropic等公司的資金支持，平臺仍致力于確保排行榜結果不受投資方影響，維護評測標準的獨立性。

Q3：Arena平臺目前有哪些新的發展方向？

A：Arena正在將業務范圍從聊天功能擴展到更廣泛的AI應用場景，包括對智能體、編程能力和現實世界任務進行基準測試，同時推出了新的企業級產品，為不同類型的AI應用提供專業評測服務。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.