LMSYS Arena (LMSYS Chatbot Arena)
▼ ざっくり言うと
人間がブラインドで2つのLLMを比較投票するベンチマークサイトです。
▼ もうちょっと詳しく
UC Berkeley系のLMSYSが運営する、ユーザーが匿名のAI同士をペア比較して投票するWebサイトです。「こっちのほうがいい答えだった」を集めて、Eloレーティング(チェス式)でLLMをランク付けします。
各モデルの真の人気と実用性の指標として、業界で一番信頼されてるリーダーボードのひとつ。ベンチマークでは出ない『生っぽい感触』を測れるのがウリです。
▼ ちょっとだけ深い話
モデルの素性は投票後に明かされるので、ブランドに引きずられない採点ができます。「結局Claudeの方が好きだった」「実は無名の中国モデルだった」みたいな番狂わせがしばしば起きます。
投票結果を見ると、SNSの評判とけっこう違うことがあって面白いです。
あなたの読了: 0 / 388 語

