![]()
人工智能模型正在快速增長,競爭激烈。面對如此多的參與者涌入這一領域,哪個模型將是最好的,又由誰來決定呢?Arena(前身為LM Arena)已經成為前沿大語言模型事實上的公共排行榜,影響著融資、產品發布和公關周期。在短短七個月內,這家初創公司從加州大學伯克利分校的博士研究項目發展到估值17億美元。
在TechCrunch的Equity播客這一集中,Rebecca Bellan與Arena聯合創始人Anastasios Angelopoulos和Wei-Lin Chiang進行了深入交流,探討像他們這樣的團隊如何在給他們提供資金支持的公司同時也是他們排名對象的情況下,構建一個中性的基準測試平臺。
Arena的實際運作機制及其獨特優勢
Arena的工作原理與靜態基準測試不同,其創始人表示你無法像操縱傳統基準測試那樣操縱Arena。Arena采用動態評估方式,通過真實用戶的對比選擇來評判模型性能,這種方法更難被人為操控,能夠提供更加客觀的評估結果。
結構性中立的含義與資金來源爭議
關于"結構性中立"的真正含義,以及接受OpenAI、谷歌和Anthropic等公司資金是否構成利益沖突的問題,Arena團隊認為他們建立了有效的機制來確保評估的公正性。盡管接受了這些AI公司的投資,但Arena通過透明的評估流程和多元化的資金來源來維護其中立地位。
從聊天模型評估向企業級產品擴展
Arena正在將其評估范圍從聊天功能擴展到智能體、編程和現實世界任務的基準測試,推出了新的企業級產品。這一擴展反映了AI應用場景的多樣化需求,也為Arena開辟了新的商業機會。
Claude在專業領域的領先表現
目前在專家排行榜上,Claude在法律和醫療用例方面表現突出。這表明不同的大語言模型在特定專業領域可能各有優勢,Arena的評估體系能夠識別出這些細分領域的差異化表現。
對后大語言模型時代的展望
Arena對大語言模型之后的發展趨勢進行了預測,認為智能體將是排行榜上的下一個重點。隨著AI技術的演進,評估標準也需要相應調整,以適應新興技術形態的特點和應用需求。
Q&A
Q1:Arena是什么?它是如何工作的?
A:Arena是一個AI模型評估平臺,前身為LM Arena,現在是前沿大語言模型的主要公共排行榜。它通過讓真實用戶對不同AI模型的回答進行對比選擇,而不是使用靜態基準測試,這種動態評估方式更難被操控,能提供更客觀的模型性能排名。
Q2:Arena接受AI公司投資會影響評估公正性嗎?
A:盡管Arena接受了OpenAI、谷歌、Anthropic等AI公司的投資,但團隊聲稱通過"結構性中立"機制和透明的評估流程來確保公正性。他們建立了多元化的資金來源和有效機制來避免利益沖突,維護評估結果的客觀性。
Q3:Arena未來會評估哪些AI技術?
A:Arena正在從單純的聊天模型評估擴展到智能體、編程能力和現實世界任務的基準測試,并推出了企業級產品。團隊認為智能體將是大語言模型之后的下一個重點,Arena的排行榜也會相應調整以適應新興AI技術的評估需求。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.