レート制限レートセイゲン (Rate Limit)

▼ ざっくり言うと

AI APIに「短時間に呼べる回数」の上限が決められていることです。

▼ もうちょっと詳しく

AIサービスのAPIには、たいてい「1分あたり◯回まで」「1分あたり◯トークンまで」みたいな上限が設定されています。これがレート制限。サーバーが落ちないようにする防衛策でもあり、ユーザー間で公平に分けるためでもあります。

本番運用していると、ピーク時にこれに引っかかって「お客さんに返事を返せない」事故になることがあります。お金を払えば上限が上がるプランも各社用意していて、ここでも結局お財布が物を言います。

▼ ちょっとだけ深い話

新しいモデルが出た直後は、ユーザーが殺到してレート制限が厳しい、というのが定例の風景です。お祭りの後の数日を覚悟しましょう。

並んで待つしかない、というのは、デジタルの世界でも結局起きます。

あなたの読了: 0 / 390