HELMヘルム (Holistic Evaluation of Language Models)

▼ ざっくり言うと

LLMを多面的に評価するスタンフォード発の評価フレームワークです。

▼ もうちょっと詳しく

スタンフォード発、2022年公開。精度だけでなく、公平性・頑健性・効率性・有害性などを総合的に測ろう、という野心的なベンチマーク群。「Holistic(全体的)」を名乗るだけあって、評価軸が16以上もあります。

各LLMをHELMで評価したリーダーボードがあり、「学力だけじゃないAIの優劣」を見るのに使われます。研究界では権威だが、商業的な話題性ではLMSYS Arena などに少し押されてます。

「総合学力テスト」と「面白さテスト」は別物、というのを業界が認め始めた現れです。

あなたの読了: 0 / 388