画像・動画AI (41件)
カテゴリ一覧へ戻る
- IP-Adapter (IP-Adapter)
- 「この画像っぽい雰囲気で生成して」を画像生成AIに伝える追加パーツです。
- Imagen (Imagen)
- Googleが開発した画像生成AIモデルです。
- ImageNet (ImageNet)
- 1400万枚以上のラベル付き画像を集めた、画像認識界の伝説的データセットです。
- インペインティング (Inpainting)
- 画像の一部を消したり、別のものに置き換えたりする画像編集技です。
- OCR (Optical Character Recognition)
- 画像の中の文字を読み取って、テキストに変換する技術のことです。
- 顔認識 (Face Recognition)
- 顔の特徴から「これは誰か」を当てるAI技術です。
- 拡散モデル (Diffusion Model)
- ノイズから少しずつ画像を浮かび上がらせるタイプの生成AIです。
- Gaussian Splatting (Gaussian Splatting)
- NeRFの後継、写真から超リアルな3Dシーンを高速で作る手法です。
- 画像生成AI (Image Generation AI)
- 文章で説明するとそれに合った画像を作ってくれるAIのことです。
- CLIP (Contrastive Language-Image Pretraining)
- 画像と文章を「同じ意味空間に並べる」ように学習させた、画像生成AIの土台です。
- COCO (COCO Dataset)
- 物体検出やセグメンテーションの定番データセットです。
- ControlNet (ControlNet)
- 画像生成AIに「ポーズや構図」を細かく指示する仕組みです。
- SAM (Segment Anything Model)
- Metaが公開した「画像内の何でも切り抜ける」万能セグメンテーションモデルです。
- Gemini (Gemini)
- Googleが作っているLLMの名前です。
- Gemini Omni (Gemini Omni)
- GeminiアプリでVeoの後継として導入された、Googleの最新動画生成・編集モデルです。
- GAN (Generative Adversarial Network)
- 「贋作師」と「鑑定士」を競わせて画像を作らせる仕組みです。
- Stable Diffusion (Stable Diffusion)
- 2022年に登場した、オープンソースの画像生成AIです。
- セグメンテーション (Segmentation)
- 画像の中の各ピクセルが「何に属するか」を塗り分けるタスクです。
- 潜在空間 (Latent Space)
- AIが内部で「意味」を表現している多次元の数字の海のことです。
- Sora (Sora)
- OpenAIが2024年に発表した、衝撃的なリアリティの動画生成AIです。
- 畳み込みニューラルネットワーク (Convolutional Neural Network (CNN))
- 画像を扱うのが得意なニューラルネットの構造です。
- DALL-E (DALL-E)
- OpenAIが作っている、テキストから画像を生成するAIです。
- チューリング賞 (Turing Award)
- 計算機科学界における「ノーベル賞級」の最高峰の賞です。
- Textual Inversion (Textual Inversion)
- 数枚の画像からその「概念」を表す新しい単語をAIに覚えさせる手法です。
- ディープフェイク (Deepfake)
- AIで作る「本物そっくりの偽動画・偽画像」のことです。
- 動画生成AI (Video Generation AI)
- 文章で説明すると短い動画を作ってくれるAIのことです。
- DreamBooth (DreamBooth)
- 数枚の写真から「その人」「その物」を覚えさせて、画像生成AIに登場させる手法です。
- NeRF (Neural Radiance Fields)
- 数枚の写真から3Dシーンを再構築する、革新的な手法です。
- Vision Transformer (Vision Transformer (ViT))
- 画像認識にTransformerを持ち込んだ、新世代のビジョンモデルです。
- Firefly (Adobe Firefly)
- Adobe が提供する、商用利用に強い画像生成AIです。
- FLUX (FLUX)
- Stable Diffusion の元開発者が独立して作った、新世代の画像生成モデルです。
- VLM (Vision-Language Model)
- 画像と言語を同時に理解できる、マルチモーダルLLMの総称です。
- 物体検出 (Object Detection)
- 画像の中の「どこに何が写ってるか」を四角で囲って当てるタスクです。
- BLIP (BLIP / BLIP-2)
- 画像を見て文章で説明できる、Salesforce発のマルチモーダルモデルです。
- Veo (Veo)
- Google DeepMindが開発している動画生成AIです。
- Midjourney (Midjourney)
- 2022年に登場した、アート寄りの絵が得意な画像生成AIサービスです。
- U-Net (U-Net)
- 画像のどこに何があるかを画素単位で塗り分ける、セグメンテーションの定番アーキテクチャです。
- YOLO (You Only Look Once)
- 画像を一度見るだけで物体検出を済ませる、速さで有名なモデルです。
- LAION (LAION-5B)
- 50億超の画像-テキストペアを収録した、画像生成AIの代表的データセットです。
- Runway (Runway)
- 動画編集・生成AIで映像クリエイターに支持されているサービスです。
- LLaVA (Large Language and Vision Assistant)
- オープンソースで動かせる、画像も理解するマルチモーダルLLMです。