An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
Table of Contents
Title: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
Authors: Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby
Published: Oct 22 2020
Link: https://arxiv.org/abs/2010.11929
学んだこと:
- Transformerアーキテクチャは、CNNsが持つ帰納的バイアスの一部を欠いています。
- 大規模なTransformerベースのモデルは、多くの場合2段階の戦略を持ちます:1) 事前学習、2) ファインチューニング
- BERT:ノイズ除去自己教師あり事前学習タスク
- GPT:事前学習タスクとしての言語モデリング
- 帰納的バイアスの違い
- CNNs:局所情報、2D近傍構造情報、平行移動同変性がモデル全体の各層に学習されます。
- ViT:
- MLP層:局所性と平行移動同変性
- 自己注意層:グローバル
- パッチの作成と位置埋め込みのファインチューニング:2D近傍構造
Summary(Microsoft Copilotにより生成):
導入:
- この論文は、画像をパッチのシーケンスとして処理するVision Transformer(ViT)を提案し、画像認識へのTransformersの適用を探究しています。
課題:
- Transformersは、平行移動同変性や局所性などのCNNsに固有の帰納的バイアスを欠いているため、小規模なデータセットでは効果が低くなります。
手法:
- 画像はパッチに分割され、線形埋め込みされてTransformerに入力されます。モデルは大規模データセットで事前学習され、小規模なベンチマークでファインチューニングされます。
新規性:
- このアプローチはCNNsの必要性を排除し、画像分類に純粋なTransformerアーキテクチャを使用します。
結果:
- ViTは、大規模データセットで事前学習された場合、ImageNetやCIFAR-100などのベンチマークで優れた結果を達成します。
パフォーマンス:
- ViTは、大規模データセットで事前学習された場合、より少ない計算リソースで最先端のCNNsを上回ります。
制限事項:
- ViTは帰納的バイアスの欠如により、小規模なデータセットではパフォーマンスが低下します。
考察:
- この論文は、大規模事前学習がTransformersにおける帰納的バイアスの欠如を補い、CNNsと競争力を持たせることができることを示唆しています。今後の研究には、他のビジョンタスクへのViTの適用や自己教師あり事前学習方法の探索が含まれます。