vLLM (vLLM)
▼ ざっくり言うと
オープンソースLLMの推論を爆速で動かすためのライブラリです。
▼ もうちょっと詳しく
UC Berkeley発のオープンソース推論エンジン。PagedAttentionという独自の工夫で、LLMのスループットをぐっと上げることに成功。Together AI、Fireworks AI、Anyscale など、多くの推論サービスの裏で動いています。
ローカルLLMを自前で動かしたい人にとっても定番。「LLM推論の縁の下の力持ち」として、業界の存在感は地味だが大きい。
オープンソースのインフラが裏で世界を支える、というIT業界のロマンの典型例です。
あなたの読了: 0 / 390 語

