HELM (Holistic Evaluation of Language Models)
▼ ざっくり言うと
LLMを多面的に評価するスタンフォード発の評価フレームワークです。
▼ もうちょっと詳しく
スタンフォード発、2022年公開。精度だけでなく、公平性・頑健性・効率性・有害性などを総合的に測ろう、という野心的なベンチマーク群。「Holistic(全体的)」を名乗るだけあって、評価軸が16以上もあります。
各LLMをHELMで評価したリーダーボードがあり、「学力だけじゃないAIの優劣」を見るのに使われます。研究界では権威だが、商業的な話題性ではLMSYS Arena などに少し押されてます。
「総合学力テスト」と「面白さテスト」は別物、というのを業界が認め始めた現れです。
あなたの読了: 0 / 388 語

