BPE (Byte-Pair Encoding)
▼ ざっくり言うと
単語を「よく一緒に出る部品」に切り分ける、トークナイザーの定番アルゴリズムです。
▼ もうちょっと詳しく
元はデータ圧縮の手法でしたが、LLMのトークナイザーに転用されたら大ヒット。「よく一緒に出る文字ペアを1つの単位にまとめる」を繰り返して、よく使う組み合わせを1トークンに統合します。
例えば「re + ing」がよく出れば「reing」を1トークンに。これによって、よく使う単語は短く、レアな単語は文字単位、というバランスの良い切り分けができます。GPT、Llama などの主要LLMで使われている標準。
「圧縮アルゴリズムを言語処理に転用したら大ヒット」、技術の転用は面白いです。
あなたの読了: 0 / 390 語

