投機的デコード (Speculative Decoding)
▼ ざっくり言うと
小さいモデルが先に予測して、大きいモデルが確認する高速化手法です。
▼ もうちょっと詳しく
大きなLLMで毎トークン推論するのは遅い。そこで、小さな高速モデルが先に「次の数トークン」を予想し、大きなモデルがそれを一気に確認(=ハズれてなければ採用、ハズれてたら作り直し)する、という賢いやり方です。
うまくいくと2〜3倍の高速化が達成できます。研修中の新人が先に下書き、上司がチェックみたいな分業。ChatGPTやClaudeの応答が地味に速くなっている裏には、この技がいたりします。
「先に予想 → 後でチェック」というスタイルは、人間社会でもよく使う知恵です。
あなたの読了: 0 / 388 語

