干し草の山から針を探すテストホシクサノヤマカラハリ (Needle in a Haystack)

▼ ざっくり言うと

超長文の途中に紛れ込ませた「針」をLLMが見つけられるか、を試す評価方法です。

▼ もうちょっと詳しく

コンテキスト長が伸びたLLM(数十万トークン入るやつ)に対し、「本当にその長さを全部活かせているか?」を試すテスト。例えば、普通の長文の真ん中に「私の好きな食べ物はモンブランです」みたいな文を1個だけ差し込んでおき、最後に「私の好きな食べ物は?」と聞く、というやり方。

AIは長文の末尾近くは覚えていても、真ん中を忘れがち(Lost in the Middle 現象)、というのが知られていて、これを検出するために使われます。「コンテキスト長が長くても、本当の意味で全部使えてるとは限らない」ことが業界で広く認識される契機になった評価方法。

「広い倉庫の真ん中に置いた針」が見えるかどうか、という比喩、シンプルすぎてかわいいです。

あなたの読了: 0 / 388