CLIPクリップ (Contrastive Language-Image Pretraining)

▼ ざっくり言うと

画像と文章を「同じ意味空間に並べる」ように学習させた、画像生成AIの土台です。

▼ もうちょっと詳しく

2021年にOpenAIが公開。「『犬の写真』と『犬』という単語が、内部で近い場所にいる」ような巨大モデルを訓練しました。これによって、文章で画像を検索したり、画像で文章を検索したりできる。

Stable Diffusion などの画像生成AIは、CLIPの「言葉と画像を結ぶ仕組み」を土台に使っています。画像AI時代の縁の下の力持ちで、地味だけど超重要。

地味な裏方が画像AI時代を成立させていた、というのは美しい話です。

あなたの読了: 0 / 388