Table of Contents

Title: Publicly Available Clinical BERT Embeddings

Authors: Emily Alsentzer, John R. Murphy, Willie Boag, Wei-Hung Weng, Di Jin, Tristan Naumann, Matthew B. A. McDermott

Published: Apr 6 2019

Link: https://arxiv.org/abs/1904.03323

Summary:

  • MIT x Microsoft​
  • 2 million notes in the MIMIC-III v1.4 ​
  • database (Johnson et al., 2016)​

Summary (Generated by Microsoft Copilot):

Introduction:

  • 本論文は、このドメインにおける公開された事前学習BERTモデルの欠如に対処し、臨床テキストのためのClinical BERTモデルを導入している。

Challenges:

  • 一般的なBERTモデルは、独自の言語的特徴を持つ臨床ナラティブに対して最適化されていない。

Methods:

  • MIMIC-IIIデータベースを使用して、すべての臨床ノートで学習された1つのBERTモデルと、退院サマリーで特別に学習された別のBERTモデルの2つが学習された。

Novelties:

  • 臨床テキストのためのドメイン固有BERTモデルのリリースであり、一般的なBERTとBioBERTを上回る改善を実証している。

Results:

  • Clinical BERTモデルは3つの臨床NLPタスクでパフォーマンス向上を示したが、匿名化タスクでは向上しなかった。

Performances:

  • MedNLIで最先端の精度を達成し、i2b22010および2012タスクでパフォーマンスが向上した。

Limitations:

  • テキスト分布の違いにより、モデルは匿名化タスクを改善しなかった。

Discussion:

  • 本研究は、ドメイン固有埋め込みの利点を強調し、より高度なモデルと多様なデータセットによるさらなる研究を提案している。