LLaVAラヴァ (Large Language and Vision Assistant)

▼ ざっくり言うと

オープンソースで動かせる、画像も理解するマルチモーダルLLMです。

▼ もうちょっと詳しく

2023年公開。Llama を土台に、CLIP の画像理解を組み合わせて作られたマルチモーダルLLM。完全にオープンソースで、誰でもダウンロードしてローカルで動かせます。

画像を見て質問に答えるAI」を自前で動かしたい人にとっての事実上の標準学術界・個人開発者を中心に広く使われる、地味だが重要な存在。

名前のローマ字綴り(LLaVA)、最初に正確に書ける人は意外と少ないです。

あなたの読了: 0 / 388