階層的デコーディングによる医療適応のためのSAMの潜在能力の解放 | tsuji.tech

Table of Contents

概要

論文：Cheng et al., Unleashing the Potential of SAM for Medical Adaptation via Hierarchical Decoding（cvpr2024 open accessまたはarxiv）。

（この記事の図表は元論文から引用）

論文の新規性

プロンプト不要のH-SAMアプローチを提案した。これは2段階の階層的デコーディング手順を持つsegment anything model（SAM）の一種である。
元のSAMのデコーダー（元のSAMは単一のデコーダーを持つ）の後ろに「Hierarchical Mask Decoder」と呼ばれる第2のデコーダーを追加した。
クラスバランスマスクガイド自己注意機構（CMAttn）と学習可能なマスククロスアテンションが重要な実装である。

性能評価手法

H-SAMをSTransUnet、SwinUnet、TransDeepLab、DAE-Former、MERIT、AutoSAM、SAM Adapter、SAMed、UA-MT、SASSNet、DTC、URPC、MC-Net、SS-Net、BCP、nnUnetを含む他のモデルと比較した。
この実験には3つのデータセット（Synapse Multi-Organ CT、左心房データセット、PROMISE12）が使用された。
評価指標としてDice係数と平均Hausdorff距離が利用された。

考察

H-SAMは他の手法よりも優れた性能を示した。
H-SAMが最良性能を達成するには、3つの重要なコンポーネント（学習可能なマスクアテンション、階層的ピクセルデコーダー、CM自己注意機構）すべてが必要である。