VLM (Vision-Language Model)
▼ ざっくり言うと
画像と言語を同時に理解できる、マルチモーダルLLMの総称です。
▼ もうちょっと詳しく
Vision-Language Model の略。画像とテキストの両方を入力として受け取り、テキストで答えられるAIの総称です。GPT-4 with vision、Claude 3.5 Sonnet、Gemini、LLaVA など、最近のLLMはほぼVLM対応になりました。
「画像のスクショを貼って『これ何?』と聞く」「領収書の画像から経費入力」「手書きメモを清書」みたいな日常用途が、いきなり当たり前になりました。「LLM + 目」の時代の主役技術。
AIが「見える」ようになっただけで、できることが2倍くらいに増えた印象です。
あなたの読了: 0 / 388 語

