マルチモーダル (Multimodal)

▼ ざっくり言うと

テキスト・画像・音声などを同時に扱えるAIの呼び名です。

▼ もうちょっと詳しく

昔のAIは「文章だけ」「画像だけ」と専門領域が決まっていました。マルチモーダルAIは、これらをまとめて扱えるやつです。「この画像、何が写ってる?」「この音声、なんて言ってる?」「この動画の3秒目を説明して」みたいな、種類をまたいだ質問に答えられる。

最近のGPTもClaudeもGeminiも、ふつうに画像を読んでくれるようになりました。専門職から、なんでも屋への進化、という流れがここに来ています。

▼ ちょっとだけ深い話

「モーダル(modal)」は「様式・形式」みたいな意味。だからマルチモーダルは「複数の形式」というだけの英単語なのですが、急に専門用語っぽくなる例の現象が、ここでも起きています。

なんでも屋になると、何が一番得意か分かりにくくなる、というのは人間と同じ問題です。

あなたの読了: 0 / 390