Table of Contents

Title: Segment Anything

Authors: Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollár, Ross Girshick

Published: Apr 5 2023

Link: https://arxiv.org/abs/2304.02643

Summary (Generated by Microsoft Copilot):

Introduction:

  • Segment Anything(SA)projectは画像segmentationのための新しいtask、model、datasetを導入し、prompt engineeringを使用して様々なタスクに汎化できるfoundation modelを作成することを目指している。

Challenges:

  • 柔軟なpromptをサポートし、リアルタイムでsegmentation maskを出力できるmodelを開発すること。
  • trainingのための大規模で多様なデータセットを収集すること。

Methods:

  • Segment Anything Model(SAM)は強力なimage encoder、prompt encoder、軽量なmask decoderを使用している。
  • 1100万枚の画像から10億を超えるmaskを収集するためにdata engineが開発された。

Novelties:

  • SAMは曖昧なpromptに対して複数の有効なmaskを予測することで対処できる。
  • SA-1Bデータセットは現在最大のsegmentationデータセットである。

Results:

  • SAMは印象的なzero-shot性能を示し、しばしばfully supervisedモデルと競合する。

Performances:

  • 23のsegmentationデータセットで評価され、SAMは高品質なmaskを生成し、様々なdownstreamタスクで優れた性能を発揮する。

Limitations:

  • より複雑なsegmentationタスクの処理において、特に改善の余地が残されている。

Discussion:

  • このprojectはcomputer visionのfoundation modelに関する研究を促進することを目的としており、SAMとSA-1Bは研究目的で利用可能である。