Table of Contents

Title: Learning Transferable Visual Models From Natural Language Supervision

Authors: Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever

Published: Feb 26, 2021

Link: https://arxiv.org/abs/2103.00020

Summary (Generated by Microsoft Copilot):

Introduction:

  • この論文は、自然言語監視から視覚モデルを学習することを探求し、固定されたオブジェクトカテゴリに依存する従来のコンピュータビジョンシステムの制限を克服することを目指す。

Challenges:

  • 従来のモデルは、新しい視覚概念のために追加のラベル付きデータを必要とし、汎用性と使いやすさが制限される。

Methods:

  • 著者らは、インターネットから収集された4億の(画像、テキスト)ペアのデータセットを使用して、どのキャプションがどの画像に一致するかを予測する事前学習タスクを提案する。

Novelties:

  • このアプローチは、自然言語を通じて学習された視覚概念を参照することで、下流タスクへのzero-shot転移を可能にする。

Results:

  • モデルは、データセット固有のトレーニングを必要とせずに、30以上の異なるコンピュータビジョンデータセットで競争力のあるパフォーマンスを発揮する。

Performances:

  • ImageNetにおけるzero-shotでResNet-50に匹敵するなど、完全教師ありモデルに匹敵する精度を達成する。

Limitations:

  • この論文では、一般的なベンチマークでのパフォーマンスが依然として代替アプローチよりも低いことを認めている。

Discussion:

  • この発見は、コンピュータビジョンにおける自然言語監視を使用したスケーラブルな事前学習手法の大きな可能性を示唆している。