CLIP (Contrastive Language-Image Pretraining)
▼ ざっくり言うと
画像と文章を「同じ意味空間に並べる」ように学習させた、画像生成AIの土台です。
▼ もうちょっと詳しく
2021年にOpenAIが公開。「『犬の写真』と『犬』という単語が、内部で近い場所にいる」ような巨大モデルを訓練しました。これによって、文章で画像を検索したり、画像で文章を検索したりできる。
Stable Diffusion などの画像生成AIは、CLIPの「言葉と画像を結ぶ仕組み」を土台に使っています。画像AI時代の縁の下の力持ちで、地味だけど超重要。
地味な裏方が画像AI時代を成立させていた、というのは美しい話です。
あなたの読了: 0 / 388 語

