Triton Inference Serverトライトン (Triton Inference Server)

▼ ざっくり言うと

NVIDIAが提供する、本番運用向けのAI推論サーバソフトです。

▼ もうちょっと詳しく

NVIDIA公式のAIモデル推論サーバ。PyTorch、TensorFlow、ONNX、TensorRT などのモデルを乗せると、バッチ処理・複数モデルの同居・GPU効率最大化を自動でやってくれます。

NVIDIA純正の高速サーバとして、エンタープライズで多用されています。Triton という名前が混乱を呼ぶこともあり(OpenAIにも"Triton"というGPUコード生成ライブラリがあって別物)、業界用語の被りで苦労する子。

技術用語の名前が被ると、毎回「あ、別物の方ね」と注釈が必要になります。

あなたの読了: 0 / 388