Vision Transformerビジョントランスフォーマー (Vision Transformer (ViT))

▼ ざっくり言うと

画像認識にTransformerを持ち込んだ、新世代のビジョンモデルです。

▼ もうちょっと詳しく

2020年にGoogleが発表した、画像にTransformerを適用したモデル。それまでの画像認識はCNNの独壇場でしたが、ViTが「画像も小さく切ってトークン化すれば、Transformerで処理できるよね」とやってのけ、CNNの王座を脅かしました。

「言語処理で勝ったTransformerが、画像にも襲来した」という、ちょっとSF的な展開。マルチモーダルAIが現実的になった背景でもあります。

Transformerが画像にまで進出するとは、最初の論文を書いた人も思ってなかったでしょう。

あなたの読了: 0 / 388