![]()
人工智能模型正在快速增長,競爭異常激烈。面對如此多的參與者涌入這一領域,哪一個將成為最佳選擇,又由誰來決定這一點?Arena平臺(前身為LM Arena)已成為前沿大語言模型事實上的公共排行榜,影響著資金投入、產品發布和公關周期。僅僅七個月時間,這家初創公司就從加州大學伯克利分校的博士研究項目發展為估值17億美元的企業。
Equity節目主持人Rebecca Bellan與Arena聯合創始人Anastasios Angelopoulos和Wei-Lin Chiang進行了深入對話,探討他們的平臺如何成為前沿AI模型的首選排行榜,以及在OpenAI、谷歌和Anthropic等公司支持該項目的情況下,他們如何努力建立中立的基準測試。
Arena的工作原理及其獨特性
他們詳細解釋了Arena的運作機制,以及為什么它比靜態基準測試更難以操控。Arena采用動態評估方式,通過真實用戶的對比測試來評判模型性能,這種方法比傳統的固定測試集更能反映實際使用效果。
結構性中立的真正含義
創始人們闡述了"結構性中立"的實際意義。盡管獲得了多家大型科技公司的資金支持,Arena仍致力于保持評測的客觀性和公正性,確保排行榜結果不受投資方影響。
Claude在專業領域的突出表現
目前,Claude在法律和醫療用例的專家排行榜中名列前茅。這反映了不同模型在特定專業領域的性能差異,也展示了Arena平臺在細分領域評測方面的價值。
業務拓展與企業級產品
公司正在將業務范圍擴展到聊天功能之外,開始對智能體、編程能力和現實世界任務進行基準測試,并推出了新的企業級產品。這一擴展策略旨在為更廣泛的AI應用場景提供評測服務。
Q&A
Q1:Arena平臺是什么?它與傳統AI評測有什么不同?
A:Arena是前沿大語言模型的公共排行榜平臺,前身為LM Arena。與靜態基準測試不同,Arena采用動態評估方式,通過真實用戶的對比測試來評判模型性能,這種方法更難被操控,也更能反映實際使用效果。
Q2:Arena如何在獲得大公司投資的情況下保持中立性?
A:Arena通過"結構性中立"來保持評測的客觀性和公正性。盡管獲得了OpenAI、谷歌和Anthropic等公司的資金支持,平臺仍致力于確保排行榜結果不受投資方影響,維護評測標準的獨立性。
Q3:Arena平臺目前有哪些新的發展方向?
A:Arena正在將業務范圍從聊天功能擴展到更廣泛的AI應用場景,包括對智能體、編程能力和現實世界任務進行基準測試,同時推出了新的企業級產品,為不同類型的AI應用提供專業評測服務。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.