干し草の山から針を探すテスト (Needle in a Haystack)
▼ ざっくり言うと
超長文の途中に紛れ込ませた「針」をLLMが見つけられるか、を試す評価方法です。
▼ もうちょっと詳しく
コンテキスト長が伸びたLLM(数十万トークン入るやつ)に対し、「本当にその長さを全部活かせているか?」を試すテスト。例えば、普通の長文の真ん中に「私の好きな食べ物はモンブランです」みたいな文を1個だけ差し込んでおき、最後に「私の好きな食べ物は?」と聞く、というやり方。
AIは長文の末尾近くは覚えていても、真ん中を忘れがち(Lost in the Middle 現象)、というのが知られていて、これを検出するために使われます。「コンテキスト長が長くても、本当の意味で全部使えてるとは限らない」ことが業界で広く認識される契機になった評価方法。
「広い倉庫の真ん中に置いた針」が見えるかどうか、という比喩、シンプルすぎてかわいいです。
あなたの読了: 0 / 388 語

