An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Table of Contents

Title: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Authors: Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby

Published: Oct 22 2020

Link: https://arxiv.org/abs/2010.11929

学んだこと：

Transformerアーキテクチャは、CNNsが持つ帰納的バイアスの一部を欠いています。
大規模なTransformerベースのモデルは、多くの場合2段階の戦略を持ちます：1) 事前学習、2) ファインチューニング
- BERT：ノイズ除去自己教師あり事前学習タスク
- GPT：事前学習タスクとしての言語モデリング
帰納的バイアスの違い
- CNNs：局所情報、2D近傍構造情報、平行移動同変性がモデル全体の各層に学習されます。
- ViT:
  - MLP層：局所性と平行移動同変性
  - 自己注意層：グローバル
  - パッチの作成と位置埋め込みのファインチューニング：2D近傍構造

Summary（Microsoft Copilotにより生成）：

導入：

この論文は、画像をパッチのシーケンスとして処理するVision Transformer（ViT）を提案し、画像認識へのTransformersの適用を探究しています。

課題：

Transformersは、平行移動同変性や局所性などのCNNsに固有の帰納的バイアスを欠いているため、小規模なデータセットでは効果が低くなります。

手法：

画像はパッチに分割され、線形埋め込みされてTransformerに入力されます。モデルは大規模データセットで事前学習され、小規模なベンチマークでファインチューニングされます。

新規性：

このアプローチはCNNsの必要性を排除し、画像分類に純粋なTransformerアーキテクチャを使用します。

結果：

ViTは、大規模データセットで事前学習された場合、ImageNetやCIFAR-100などのベンチマークで優れた結果を達成します。

パフォーマンス：

ViTは、大規模データセットで事前学習された場合、より少ない計算リソースで最先端のCNNsを上回ります。

制限事項：

ViTは帰納的バイアスの欠如により、小規模なデータセットではパフォーマンスが低下します。

考察：

この論文は、大規模事前学習がTransformersにおける帰納的バイアスの欠如を補い、CNNsと競争力を持たせることができることを示唆しています。今後の研究には、他のビジョンタスクへのViTの適用や自己教師あり事前学習方法の探索が含まれます。