データ・ベンチマーク (32件)
カテゴリ一覧へ戻る
- アノテーション (Annotation / Labeling)
- データに「これは何か」のラベルを人が手作業で付ける工程のことです。
- AlpacaEval (AlpacaEval)
- LLMの「会話のうまさ」をAIに判定させる定番ベンチマークです。
- ARC-AGI (ARC-AGI)
- 「本当の知能」に近いかを測ろうとしている、いまもAIが苦戦中のベンチマークです。
- ImageNet (ImageNet)
- 1400万枚以上のラベル付き画像を集めた、画像認識界の伝説的データセットです。
- SWE-Bench (SWE-Bench)
- 実際のGitHubのバグを直せるかでLLMの「ソフトウェアエンジニア力」を測るベンチマークです。
- F1スコア (F1 Score)
- 適合率と再現率を1つの数字にまとめた、分類モデルの定番評価指標です。
- MMLU (Massive Multitask Language Understanding)
- LLMの「総合学力」を測るための定番ベンチマークです。
- MT-Bench (MT-Bench)
- LLMの対話能力を「強力なAIに採点させる」方式で評価する、定番ベンチマークです。
- MNIST (MNIST)
- 手書き数字の画像データセット、機械学習の「Hello World」です。
- LMSYS Arena (LMSYS Chatbot Arena)
- 人間がブラインドで2つのLLMを比較投票するベンチマークサイトです。
- LLM-as-a-judge (LLM-as-a-judge)
- LLMの出力を別のLLMに採点させる評価手法のことです。
- AIME (American Invitational Mathematics Examination)
- アメリカの高校数学コンテスト、LLMの数学力ベンチマークとしても使われます。
- 学習 (Training)
- モデルにデータを食わせて賢くする工程のことです。
- 学習データ (Training Data)
- AIに学ばせる素材になるデータのことです。
- GLUE / SuperGLUE (General Language Understanding Evaluation / SuperGLUE)
- 言語モデルの文章理解力を、9〜10種類のタスクで総合採点するベンチマーク群です。
- COCO (COCO Dataset)
- 物体検出やセグメンテーションの定番データセットです。
- Common Crawl (Common Crawl)
- ウェブを定期的にクロールして公開している、LLMの主食材です。
- 合成データ (Synthetic Data)
- AI自身や他の手段で「人工的に作り出した」学習データのことです。
- The Pile (The Pile)
- 825GBの学術系テキストを集めた、初期LLM学習データの古典的存在です。
- SimpleBench (SimpleBench)
- 「人間なら当たり前にできるのにLLMが意外と落とす」問題を集めた変わり種ベンチマークです。
- GPQA (Graduate-level Google-Proof Q&A)
- 「Googleで検索しても解けない」博士レベルの難問ベンチマークです。
- DVC (Data Version Control)
- Gitのデータ版、機械学習のデータセットやモデルをバージョン管理するツールです。
- データ拡張 (Data Augmentation)
- 元データを加工して「水増し」する技です。
- データキュレーション (Data Curation)
- 学習に使うデータを「選んで、整えて、品質を担保する」工程のことです。
- HumanEval (HumanEval)
- LLMの「プログラミング能力」を測る定番ベンチマークです。
- BIG-bench (Beyond the Imitation Game)
- 200種類以上のタスクでLLMを試す巨大ベンチマーク群です。
- BLEU (BLEU)
- 機械翻訳の出力を「お手本訳とどれくらい似てるか」で点数化する古典的指標です。
- HELM (Holistic Evaluation of Language Models)
- LLMを多面的に評価するスタンフォード発の評価フレームワークです。
- ベンチマーク (Benchmark)
- AIの性能を測るための「共通テスト」のことです。
- 干し草の山から針を探すテスト (Needle in a Haystack)
- 超長文の途中に紛れ込ませた「針」をLLMが見つけられるか、を試す評価方法です。
- LAION (LAION-5B)
- 50億超の画像-テキストペアを収録した、画像生成AIの代表的データセットです。
- ROUGE (ROUGE)
- 要約や翻訳の出来を「お手本との単語かぶり」で点数化する指標です。