Arena(原 LMArena)是一個開放的人工智慧模型基準測試平台。它主要提供一個「競技場」,讓使用者可以匿名對比不同 AI 模型(如 GPT、Claude)的回答,並透過投票機制產生反映模型實際表現的綜合排行榜。
在 Battle Mode 中,使用者輸入問題或指令後,系統會隨機選擇兩個匿名 AI 模型同時產生回答。使用者需要根據回答的品質投票選擇較佳的一方,投票結果會影響模型的 ELO 分數與排行榜名次。
根據公開資訊,Arena 平台的核心評測與對比功能目前免費向使用者開放。使用者可以透過平台體驗與測試整合的眾多 AI 模型。
平台採用匿名對戰機制,使用者在投票前不知道模型身份,以降低品牌偏見。同時使用 ELO 評分系統處理海量使用者投票數據,且所有評測數據與排名公開可查。
Arena 提供多領域的專項評測,包含文字對話、視覺理解、圖像生成、影片生成、程式設計、網頁開發、搜尋增強等,涵蓋當前主流 AI 模型能力維度。
根據平台聲明,使用者輸入的對話內容將由第三方 AI 模型處理,並可能被揭露給相應的 AI 提供商並公開分享,以支持社群發展與 AI 研究。因此建議使用者避免提交敏感或個人隱私資訊。
排行榜基於持續的社群使用者投票動態更新。各專項榜單(如文字榜、視覺榜)通常顯示最近的更新時間,例如「1 天前更新」,表明排名資料具有高度的時效性。
傳統的基準測試多使用固定的標準化試題。Arena 則強調以真實使用情境任務與主觀判斷為基礎的評估,透過大量使用者的匿名投票與對比,呈現模型在實際應用情境中的表現。

OverallGPT Compare AI 是一個 AI 大模型性能對比平台,支援使用者將不同 AI 模型的回應結果進行並排可視化對比。該平台旨在協助使用者、開發者與技術選型者透過直觀的比較,評估並選擇適合其特定需求的 AI 模型。