推論サーバスイロンサーバ (Inference Server)

▼ ざっくり言うと

AIモデルを大量のユーザーに効率よく配るためのサーバソフトです。

▼ もうちょっと詳しく

AIモデルをWebサービスとして公開するとき、ただ動かすだけだとリクエスト1個ずつ順番に処理することになって遅い。推論サーバは複数のリクエストを束ねて並列に処理するなどの工夫で、効率を最大化してくれます。

vLLM、TGI(Text Generation Inference)、Triton、SGLangなどが代表選手。LLMサービスの裏でひっそり頑張ってる地味な存在ですが、コストと速度を決めるレイヤーとして超重要です。

サーバ屋さんがLLMサーバ屋さんに転生する例が、近年急増しています。

あなたの読了: 0 / 390