投機的デコードトウキテキデコード (Speculative Decoding)

▼ ざっくり言うと

小さいモデルが先に予測して、大きいモデルが確認する高速化手法です。

▼ もうちょっと詳しく

大きなLLMで毎トークン推論するのは遅い。そこで、小さな高速モデルが先に「次の数トークン」を予想し、大きなモデルがそれを一気に確認(=ハズれてなければ採用、ハズれてたら作り直し)する、という賢いやり方です。

うまくいくと2〜3倍の高速化が達成できます。研修中の新人が先に下書き、上司がチェックみたいな分業。ChatGPTやClaudeの応答が地味に速くなっている裏には、この技がいたりします。

「先に予想 → 後でチェック」というスタイルは、人間社会でもよく使う知恵です。

あなたの読了: 0 / 388