推論サーバ (Inference Server)
▼ ざっくり言うと
AIモデルを大量のユーザーに効率よく配るためのサーバソフトです。
▼ もうちょっと詳しく
AIモデルをWebサービスとして公開するとき、ただ動かすだけだとリクエスト1個ずつ順番に処理することになって遅い。推論サーバは複数のリクエストを束ねて並列に処理するなどの工夫で、効率を最大化してくれます。
vLLM、TGI(Text Generation Inference)、Triton、SGLangなどが代表選手。LLMサービスの裏でひっそり頑張ってる地味な存在ですが、コストと速度を決めるレイヤーとして超重要です。
サーバ屋さんがLLMサーバ屋さんに転生する例が、近年急増しています。
あなたの読了: 0 / 390 語

