ベンチマーク (Benchmark)
▼ ざっくり言うと
AIの性能を測るための「共通テスト」のことです。
▼ もうちょっと詳しく
新しいモデルが出ると、「このベンチマークで何点」「あのベンチマークで何点」と数字を並べて自慢します。これがベンチマーク。全国共通模試の点数で誇る、あれと同じです。
ただ、ベンチマークの点数が高い=実用で強い、とは限りません。テストに最適化しすぎて、本番の質問にはイマイチ、というモデルもあります。模試はトップなのに、面接で詰む現象がAIにも起きます。
▼ 気をつけること
最近は「ベンチマークを意識して学習させすぎている」という疑いも持たれていて、点数を素直に信じられない雰囲気もあります。実際に自分のユースケースで試してみるのが、結局いちばん確実です。
高得点だからすごい、と短絡できない、というのは人間の試験と同じです。
あなたの読了: 0 / 390 語

