データ・ベンチマーク (32件)

アノテーション (Annotation / Labeling)
データに「これは何か」のラベルを人が手作業で付ける工程のことです。
AlpacaEval (AlpacaEval)
LLMの「会話のうまさ」をAIに判定させる定番ベンチマークです。
ARC-AGI (ARC-AGI)
「本当の知能」に近いかを測ろうとしている、いまもAIが苦戦中のベンチマークです。
ImageNet (ImageNet)
1400万枚以上のラベル付き画像を集めた、画像認識界の伝説的データセットです。
SWE-Bench (SWE-Bench)
実際のGitHubのバグを直せるかでLLMの「ソフトウェアエンジニア力」を測るベンチマークです。
F1スコア (F1 Score)
適合率と再現率を1つの数字にまとめた、分類モデルの定番評価指標です。
MMLU (Massive Multitask Language Understanding)
LLMの「総合学力」を測るための定番ベンチマークです。
MT-Bench (MT-Bench)
LLMの対話能力を「強力なAIに採点させる」方式で評価する、定番ベンチマークです。
MNIST (MNIST)
手書き数字の画像データセット、機械学習の「Hello World」です。
LMSYS Arena (LMSYS Chatbot Arena)
人間がブラインドで2つのLLMを比較投票するベンチマークサイトです。
LLM-as-a-judge (LLM-as-a-judge)
LLMの出力を別のLLMに採点させる評価手法のことです。
AIME (American Invitational Mathematics Examination)
アメリカの高校数学コンテスト、LLMの数学力ベンチマークとしても使われます。
学習 (Training)
モデルにデータを食わせて賢くする工程のことです。
学習データ (Training Data)
AIに学ばせる素材になるデータのことです。
GLUE / SuperGLUE (General Language Understanding Evaluation / SuperGLUE)
言語モデルの文章理解力を、9〜10種類のタスクで総合採点するベンチマーク群です。
COCO (COCO Dataset)
物体検出やセグメンテーションの定番データセットです。
Common Crawl (Common Crawl)
ウェブを定期的にクロールして公開している、LLMの主食材です。
合成データ (Synthetic Data)
AI自身や他の手段で「人工的に作り出した」学習データのことです。
The Pile (The Pile)
825GBの学術系テキストを集めた、初期LLM学習データの古典的存在です。
SimpleBench (SimpleBench)
「人間なら当たり前にできるのにLLMが意外と落とす」問題を集めた変わり種ベンチマークです。
GPQA (Graduate-level Google-Proof Q&A)
「Googleで検索しても解けない」博士レベルの難問ベンチマークです。
DVC (Data Version Control)
Gitのデータ版、機械学習のデータセットやモデルをバージョン管理するツールです。
データ拡張 (Data Augmentation)
元データを加工して「水増し」する技です。
データキュレーション (Data Curation)
学習に使うデータを「選んで、整えて、品質を担保する」工程のことです。
HumanEval (HumanEval)
LLMの「プログラミング能力」を測る定番ベンチマークです。
BIG-bench (Beyond the Imitation Game)
200種類以上のタスクでLLMを試す巨大ベンチマーク群です。
BLEU (BLEU)
機械翻訳の出力を「お手本訳とどれくらい似てるか」で点数化する古典的指標です。
HELM (Holistic Evaluation of Language Models)
LLMを多面的に評価するスタンフォード発の評価フレームワークです。
ベンチマーク (Benchmark)
AIの性能を測るための「共通テスト」のことです。
干し草の山から針を探すテスト (Needle in a Haystack)
超長文の途中に紛れ込ませた「針」をLLMが見つけられるか、を試す評価方法です。
LAION (LAION-5B)
50億超の画像-テキストペアを収録した、画像生成AIの代表的データセットです。
ROUGE (ROUGE)
要約や翻訳の出来を「お手本との単語かぶり」で点数化する指標です。