LLaVA (Large Language and Vision Assistant)
▼ ざっくり言うと
オープンソースで動かせる、画像も理解するマルチモーダルLLMです。
▼ もうちょっと詳しく
2023年公開。Llama を土台に、CLIP の画像理解を組み合わせて作られたマルチモーダルLLM。完全にオープンソースで、誰でもダウンロードしてローカルで動かせます。
「画像を見て質問に答えるAI」を自前で動かしたい人にとっての事実上の標準。学術界・個人開発者を中心に広く使われる、地味だが重要な存在。
名前のローマ字綴り(LLaVA)、最初に正確に書ける人は意外と少ないです。
あなたの読了: 0 / 388 語

