画像・動画AI (41件)

IP-Adapter (IP-Adapter)
「この画像っぽい雰囲気で生成して」を画像生成AIに伝える追加パーツです。
Imagen (Imagen)
Googleが開発した画像生成AIモデルです。
ImageNet (ImageNet)
1400万枚以上のラベル付き画像を集めた、画像認識界の伝説的データセットです。
インペインティング (Inpainting)
画像の一部を消したり、別のものに置き換えたりする画像編集技です。
OCR (Optical Character Recognition)
画像の中の文字を読み取って、テキストに変換する技術のことです。
顔認識 (Face Recognition)
顔の特徴から「これは誰か」を当てるAI技術です。
拡散モデル (Diffusion Model)
ノイズから少しずつ画像を浮かび上がらせるタイプの生成AIです。
Gaussian Splatting (Gaussian Splatting)
NeRFの後継、写真から超リアルな3Dシーンを高速で作る手法です。
画像生成AI (Image Generation AI)
文章で説明するとそれに合った画像を作ってくれるAIのことです。
CLIP (Contrastive Language-Image Pretraining)
画像と文章を「同じ意味空間に並べる」ように学習させた、画像生成AIの土台です。
COCO (COCO Dataset)
物体検出やセグメンテーションの定番データセットです。
ControlNet (ControlNet)
画像生成AIに「ポーズや構図」を細かく指示する仕組みです。
SAM (Segment Anything Model)
Metaが公開した「画像内の何でも切り抜ける」万能セグメンテーションモデルです。
Gemini (Gemini)
Googleが作っているLLMの名前です。
Gemini Omni (Gemini Omni)
GeminiアプリでVeoの後継として導入された、Googleの最新動画生成・編集モデルです。
GAN (Generative Adversarial Network)
「贋作師」と「鑑定士」を競わせて画像を作らせる仕組みです。
Stable Diffusion (Stable Diffusion)
2022年に登場した、オープンソースの画像生成AIです。
セグメンテーション (Segmentation)
画像の中の各ピクセルが「何に属するか」を塗り分けるタスクです。
潜在空間 (Latent Space)
AIが内部で「意味」を表現している多次元の数字の海のことです。
Sora (Sora)
OpenAIが2024年に発表した、衝撃的なリアリティの動画生成AIです。
畳み込みニューラルネットワーク (Convolutional Neural Network (CNN))
画像を扱うのが得意なニューラルネットの構造です。
DALL-E (DALL-E)
OpenAIが作っている、テキストから画像を生成するAIです。
チューリング賞 (Turing Award)
計算機科学界における「ノーベル賞級」の最高峰の賞です。
Textual Inversion (Textual Inversion)
数枚の画像からその「概念」を表す新しい単語をAIに覚えさせる手法です。
ディープフェイク (Deepfake)
AIで作る「本物そっくりの偽動画・偽画像」のことです。
動画生成AI (Video Generation AI)
文章で説明すると短い動画を作ってくれるAIのことです。
DreamBooth (DreamBooth)
数枚の写真から「その人」「その物」を覚えさせて、画像生成AIに登場させる手法です。
NeRF (Neural Radiance Fields)
数枚の写真から3Dシーンを再構築する、革新的な手法です。
Vision Transformer (Vision Transformer (ViT))
画像認識にTransformerを持ち込んだ、新世代のビジョンモデルです。
Firefly (Adobe Firefly)
Adobe が提供する、商用利用に強い画像生成AIです。
FLUX (FLUX)
Stable Diffusion の元開発者が独立して作った、新世代の画像生成モデルです。
VLM (Vision-Language Model)
画像と言語を同時に理解できる、マルチモーダルLLMの総称です。
物体検出 (Object Detection)
画像の中の「どこに何が写ってるか」を四角で囲って当てるタスクです。
BLIP (BLIP / BLIP-2)
画像を見て文章で説明できる、Salesforce発のマルチモーダルモデルです。
Veo (Veo)
Google DeepMindが開発している動画生成AIです。
Midjourney (Midjourney)
2022年に登場した、アート寄りの絵が得意な画像生成AIサービスです。
U-Net (U-Net)
画像のどこに何があるかを画素単位で塗り分ける、セグメンテーションの定番アーキテクチャです。
YOLO (You Only Look Once)
画像を一度見るだけで物体検出を済ませる、速さで有名なモデルです。
LAION (LAION-5B)
50億超の画像-テキストペアを収録した、画像生成AIの代表的データセットです。
Runway (Runway)
動画編集・生成AIで映像クリエイターに支持されているサービスです。
LLaVA (Large Language and Vision Assistant)
オープンソースで動かせる、画像も理解するマルチモーダルLLMです。