トークナイザー (Tokenizer)
▼ ざっくり言うと
文章をトークンに刻む装置のことです。
▼ もうちょっと詳しく
AIは文章をそのまま読まずに、まず小さい単位に切り分けてから処理します。その切り分け係がトークナイザー。漢字1文字、英単語1語、複合語の一部、など、モデルごとに切り方の流儀があります。
日本語は切り分けが英語より細かくなりがちで、その結果同じ意味の文章でも日本語のほうがトークン数が多くなる(=料金も時間もかかる)、という事情があります。地理的に課金で不利、というのが地味につらいところ。
切り分け係、という地味な仕事ですが、これが下手だとAI全体の性能に響きます。
あなたの読了: 0 / 390 語

