Vision Transformer (Vision Transformer (ViT))
▼ ざっくり言うと
画像認識にTransformerを持ち込んだ、新世代のビジョンモデルです。
▼ もうちょっと詳しく
2020年にGoogleが発表した、画像にTransformerを適用したモデル。それまでの画像認識はCNNの独壇場でしたが、ViTが「画像も小さく切ってトークン化すれば、Transformerで処理できるよね」とやってのけ、CNNの王座を脅かしました。
「言語処理で勝ったTransformerが、画像にも襲来した」という、ちょっとSF的な展開。マルチモーダルAIが現実的になった背景でもあります。
Transformerが画像にまで進出するとは、最初の論文を書いた人も思ってなかったでしょう。
あなたの読了: 0 / 388 語

