Table of Contents

概要

Paper: Li et al., Architecture-Agnostic Masked Image Modeling - From ViT back to CNN(icml2023 open accessまたはarxiv

img

(この投稿の図と表は原論文からのものです)

論文の新規性

  • パッチ間の中次相互作用の利点を強化するために「Architecture-Agnostic Masked Image Modeling」(A2MIM)と呼ばれる新しいアプローチを提案しました。
  • 既存のMIMフレームワークにおける学習可能なマスクトークンの代わりに、マスクされたパッチの平均RGB値を利用しました。
  • Focal Frequency lossに触発されたフーリエ領域損失をA2MIMに導入し、中次相互作用を扱いました。
  • A2MIMはCNNsとTransformersの両方の改善に適用できます。

パフォーマンス評価方法

  • 分類のためのファインチューニング、物体検出とセグメンテーションのための転移学習という3つの観点でA2MIMの能力を評価しました。
  • A2MIMが事前学習されたネットワークの表現パフォーマンスを向上させることができることを示しました。

img

考察

  • A2MIMを適用する際のCNNsの利点はTransformersよりも少なかったです。著者らは、中次相互作用学習がCNNsの帰納的バイアスによって制限されていると推測しました。
  • TransformersはA2MIMを用いたより長い事前学習でより高い効果を示しました。

学んだこと

  • ViTとCNNはそれぞれローパスフィルタリングとハイパスフィルタリングの特性を持ち、特定の周波数帯域を持っているため、中次相互作用をうまくモデル化することが困難です。