LMSYS Arenaエルエムシスアリーナ (LMSYS Chatbot Arena)

▼ ざっくり言うと

人間がブラインドで2つのLLMを比較投票するベンチマークサイトです。

▼ もうちょっと詳しく

UC Berkeley系のLMSYSが運営する、ユーザーが匿名のAI同士をペア比較して投票するWebサイトです。「こっちのほうがいい答えだった」を集めて、Eloレーティング(チェス式)でLLMをランク付けします。

各モデルの真の人気と実用性の指標として、業界で一番信頼されてるリーダーボードのひとつ。ベンチマークでは出ない『生っぽい感触』を測れるのがウリです。

▼ ちょっとだけ深い話

モデルの素性は投票後に明かされるので、ブランドに引きずられない採点ができます。「結局Claudeの方が好きだった」「実は無名の中国モデルだった」みたいな番狂わせがしばしば起きます。

投票結果を見ると、SNSの評判とけっこう違うことがあって面白いです。

あなたの読了: 0 / 388