VLMブイエルエム (Vision-Language Model)

▼ ざっくり言うと

画像と言語を同時に理解できる、マルチモーダルLLMの総称です。

▼ もうちょっと詳しく

Vision-Language Model の略。画像とテキストの両方を入力として受け取り、テキストで答えられるAIの総称です。GPT-4 with vision、Claude 3.5 Sonnet、Gemini、LLaVA など、最近のLLMはほぼVLM対応になりました。

画像のスクショを貼って『これ何?』と聞く」「領収書の画像から経費入力」「手書きメモを清書」みたいな日常用途が、いきなり当たり前になりました。「LLM + 目」の時代の主役技術。

AIが「見える」ようになっただけで、できることが2倍くらいに増えた印象です。

あなたの読了: 0 / 388