BioBERT: a pre-trained biomedical language representation model for biomedical text mining

Table of Contents

Title: BioBERT: a pre-trained biomedical language representation model for biomedical text mining

Authors: Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, Jaewoo Kang

Published: Jan 25 2019

Summary (Generated by Microsoft Copilot):

Introduction:

生物医学文献の急速な成長により、生物医学テキストマイニングは極めて重要である。BioBERTは、生物医学テキストマイニングのためにBERTを適応させるために導入された。

Challenges:

Methods:

Novelties:

Results:

Performances:

Limitations:

Discussion:

BioBERTは、PubMedを含む大規模な生物医学コーパスで事前学習されている。具体的には、モデルは以下で学習された:

PubMed Abstracts: このデータセットには、PubMed要約からの約45億語が含まれている。
PMC Full-Text Articles: このデータセットには、PubMed Central（PMC）の全文記事からの約135億語が含まれている。

これらの広範なデータセットは、BioBERTが生物医学テキストをより効果的に理解し処理するのに役立ち、生物医学ドメインにおける固有表現認識、関係抽出、質問応答などのタスクに非常に適したものにしている。