マルチモーダル (Multimodal)
▼ ざっくり言うと
テキスト・画像・音声などを同時に扱えるAIの呼び名です。
▼ もうちょっと詳しく
昔のAIは「文章だけ」「画像だけ」と専門領域が決まっていました。マルチモーダルAIは、これらをまとめて扱えるやつです。「この画像、何が写ってる?」「この音声、なんて言ってる?」「この動画の3秒目を説明して」みたいな、種類をまたいだ質問に答えられる。
最近のGPTもClaudeもGeminiも、ふつうに画像を読んでくれるようになりました。専門職から、なんでも屋への進化、という流れがここに来ています。
▼ ちょっとだけ深い話
「モーダル(modal)」は「様式・形式」みたいな意味。だからマルチモーダルは「複数の形式」というだけの英単語なのですが、急に専門用語っぽくなる例の現象が、ここでも起きています。
なんでも屋になると、何が一番得意か分かりにくくなる、というのは人間と同じ問題です。
あなたの読了: 0 / 390 語

