ベンチマーク (Benchmark)

▼ ざっくり言うと

AIの性能を測るための「共通テスト」のことです。

▼ もうちょっと詳しく

新しいモデルが出ると、「このベンチマークで何点」「あのベンチマークで何点」と数字を並べて自慢します。これがベンチマーク。全国共通模試の点数で誇る、あれと同じです。

ただ、ベンチマークの点数が高い=実用で強い、とは限りません。テストに最適化しすぎて、本番の質問にはイマイチ、というモデルもあります。模試はトップなのに、面接で詰む現象がAIにも起きます。

▼ 気をつけること

最近は「ベンチマークを意識して学習させすぎている」という疑いも持たれていて、点数を素直に信じられない雰囲気もあります。実際に自分のユースケースで試してみるのが、結局いちばん確実です。

高得点だからすごい、と短絡できない、というのは人間の試験と同じです。

あなたの読了: 0 / 390