イメージセンサ製造業のDXにおけるRAGの可能性と非構造化データの課題
Table of Contents
1. はじめに
1.1 背景:製造業DXと社内技術知識の活用
イメージセンサ製造業を含む製造業において、AIを用いたデジタルトランスフォーメーション(DX)が競争力の核となりつつある。その背景には、生成AIがもたらす経済的インパクトの大きさがある。McKinsey & Companyが2023年に公表した業界レポートによれば、分析対象とした63のユースケースにわたり、生成AIは年間2.6〜4.4兆ドル相当の価値を付加しうるとされ、これは英国の2021年のGDPに匹敵する規模である。同レポートはまた、現在従業員が費やしている業務時間の60〜70%を自動化する理論的潜在性を生成AIが持つとも論じている[1]。
こうした生成AIの潜在力は、製造業の経営判断に直接反映されている。Deloitteが2025年に公表したスマート製造に関する業界調査では、製造企業の経営層の92%が、今後3年間の競争力を左右する主要因はスマート製造であると回答しており、これは2019年から6ポイントの増加にあたる。同調査はさらに、スマート製造の導入後の純効果として生産量が10〜20%、従業員の生産性が7〜20%向上したと報告し、回答企業の78%が改善予算の20%以上をスマート製造へ配分しているとする[2]。これらは業界調査に基づく値であり、回答企業の自己申告を含む点に留意が必要であるが、製造業が投資を拡大している傾向を示すものといえる。
この潮流は具体的な企業戦略としても表面化している。Samsung Electronicsは2026年3月に、2030年までに全製造拠点を「AI-Driven Factories(AI駆動型工場)」へ移行する戦略を公表した。同社は、調達物流から生産・品質検査・最終出荷までの製造バリューチェーン全体にAIを統合し、デジタルツインによるシミュレーション、品質管理・生産・物流に特化したAIエージェント、自律的に計画・実行・最適化を行うAgentic AIなどを段階的に導入するとしている[3]。これは企業の公式発表であり、将来構想や自社に有利な情報を含みうる点に留意すべきだが、製造業大手がAIによるDXを経営戦略の中核として加速させている具体例である。こうした文脈の中で、社内に蓄積された膨大な技術知識を生成AIから参照可能にし、業務に活用しようとする要請が高まっている。
1.2 課題:社内技術文章の非構造化性
社内の技術知識を生成AIに活用しようとするとき、最初に直面するのが、社内技術文章の多くが非構造化データであるという事実である。一般に、製造現場で日々生成・蓄積される技術資料は、PowerPointによる報告スライド、Excelによる測定データや管理表、JPEG等の画像、さらにはイメージセンサ製造業に特有のRAW画像のようなバイナリデータといった、多様な形式で存在する。これらの資料は、図・グラフ・表・レイアウトといった視覚的な構造の中に情報が埋め込まれていることが多く、単純にプレーンテキストとして抽出するだけでは、その意味の大部分が失われてしまう。たとえば、ある特性の経時変化を示す折れ線グラフや、複数条件を比較する表は、それ自体が論理的な主張を担っているが、文字情報だけを取り出してもその主張は再構成できない。
イメージセンサ製造業では、さらにRAW画像のようなバイナリデータも重要な知識源となりうる。RAW画像はセンサが取得した未処理の生データであり、人間が直接閲覧する画像ファイルとは異なって、そのままでは言語モデルが解釈できる形式になっていない。このように、社内技術文章を生成AIの知識源として利用するためには、それらを機械可読な構造へ変換する「構造化」という前処理の壁が立ちはだかる。
本稿が出発点とするこの問題提起は、筆者がイメージセンサ製造業の現場で実際に直面した経験に基づくものであり、必ずしも統計的な裏づけを伴う一般論として述べるものではない。しかし、後述するように、図・表・レイアウトを解釈しなければ答えられない文書質問応答の難しさや、マルチモーダル文書を扱う検索拡張生成の文脈長の壁は、学術研究においても繰り返し報告されている課題である。本稿では第4章において、この構造化の問題を技術的に正面から扱う。
1.3 本稿の目的と構成
以上を踏まえ、本稿は「社内の非構造化技術データを活用したいという製造現場の要請に対し、検索拡張生成(Retrieval-Augmented Generation、以下RAG)がどこまで応えられるか」を論じることを目的とする。
本稿の構成は次のとおりである。第2章ではRAGの定義と基本アーキテクチャ、ならびにLLM単体に対する優位性を整理し、RAGの基礎を確認する。第3章ではNaive RAGからAdvanced RAG・Modular RAG・GraphRAG・Agentic RAGへと至る発展史と、それを支える要素技術の進化を概観する。第4章では本稿の核心として、非構造化データを機械可読な構造へ変換する技術群を、レイアウト解析・表抽出・図表理解・OCR・文書RAG、そしてイメージセンサ製造業特有のRAW画像の扱いまで含めて深掘りする。第5章ではRAGをAIエージェントのツールとして組み込むための技術的基盤を述べ、第6章で産業適用の実現性・限界・残課題を他社事例とともに考察する。第7章で結論と今後の展望を示す。
2. RAGの概要
2.1 RAGの定義と基本アーキテクチャ
RAGは、外部知識源を検索する検索器(Retriever)と、検索結果を踏まえて回答を生成する生成器(Generator)を組み合わせ、両者を連携させることで知識集約型タスクに応える枠組みである。この枠組みを最初に明確に定式化したのが、Lewisらが2020年に提案したRAGである[4]。彼らの問題意識は、事前学習済みの言語モデルが世界知識をパラメータ内に暗黙的に保持しているために、知識を正確に操作・更新することが難しく、回答の判断根拠を提示することも困難であり、ハルシネーション(もっともらしい誤情報の生成)の問題も抱えている、という点にあった。
Lewisらはこの課題に対し、事前学習済みのseq2seqモデルであるBART-large(4億パラメータ)を生成器すなわちパラメトリックメモリとし、Wikipediaの密ベクトル索引を非パラメトリックメモリとして検索器に参照させる構成を提案した。そして検索器と生成器をエンドツーエンドで微調整する点に特徴がある。具体的には、回答全体を通じて同一の検索文書を条件とするRAG-Sequenceと、生成するトークンごとに異なる文書を選べるRAG-Tokenの2方式を示した。この構成により、オープンドメイン質問応答(Natural Questions、WebQuestions、CuratedTrec)で当時の最高精度を達成し、FEVERによるファクト検証でも最先端のパイプライン手法に4.3%以内まで迫る精度を示した[4]。
検索器の技術的背景として重要なのが、Karpukhinらが提案した密ベクトル検索(Dense Passage Retrieval、DPR)である[5]。従来のオープンドメイン質問応答では、TF-IDFやBM25といった疎ベクトルによる語句一致検索が主流であったが、同義語や言い換えを捉えにくいという限界があった。DPRは、質問と文章をそれぞれ別のBERTエンコーダで密ベクトルに埋め込み、その内積類似度を学習するbi-encoder型の検索器である。比較的少数の質問・文章ペアと、ミニバッチ内の負例を用いて効率的に学習し、推論時にはFAISSによる近傍探索を行う。その結果、Top-20検索精度でBM25を9〜19%絶対値で上回り、Top-5精度では65.2%対42.9%と大きく差をつけた[5]。RAGの検索器は、このような密ベクトル検索の発展の上に成り立っている。
2.2 LLM単体に対する優位性
RAGは、外部知識を参照しない大規模言語モデル(LLM)単体に対して、主に三つの点で優位性を持つ。すなわち、ハルシネーションの抑制、知識の更新性、そして出典提示による透明性である。
第一のハルシネーション抑制について考えるには、まずハルシネーションそのものを整理する必要がある。Jiらによる自然言語生成のハルシネーションに関するサーベイは、ハルシネーションを、出力が入力と矛盾する内在的(intrinsic)ハルシネーションと、入力からは検証できない外在的(extrinsic)ハルシネーションに分類し、その要因や評価指標・緩和手法を体系化した[6]。またHuangらは、LLM時代に即した分類体系として、生成内容と実世界の事実との不一致を扱う事実性(factuality)ハルシネーションと、ユーザ入力や文脈・自己一貫性からの逸脱を扱う忠実性(faithfulness)ハルシネーションへと大別し、緩和策の一つとしてのRAGとその限界を論じている[7]。これらのサーベイはいずれも定量的な指標を主目的とするものではないが、ハルシネーションが外部知識への接地(grounding)の欠如と深く関わることを示しており、検索した文書に回答を接地させるRAGが、その抑制に寄与しうることの理論的根拠となる。
第二の知識の更新性は、RAGのアーキテクチャから直接導かれる利点である。LLM単体では、知識がパラメータ内に固定されているため、新しい知識を反映するには再学習が必要となる。これに対しRAGでは、非パラメトリックメモリすなわち外部の検索索引を差し替えるだけで、生成器を再学習することなく知識を更新できる。Lewisらは、この差し替えによる知識更新が実際に可能であることを実証し、あわせてRAGがBARTベースラインよりも事実的で多様な生成を行うことを示した[4]。第三の出典提示についても、RAGは回答の根拠として検索文書を提示できるため、判断の透明性が高まる。これは社内の技術判断のように根拠の明示が求められる場面で特に重要な性質である。
2.3 RAGの系譜:検索・記憶参照型言語モデルの展開
LewisらのRAGは、突如として現れたものではなく、検索や外部記憶を言語モデルに組み込もうとする一連の先行研究の系譜の上に位置づけられる。これらの研究は、いずれも「検索をどこに、どのように組み込むか」という設計軸を切り拓いてきた。
まず、検索そのものを学習の対象とする発想の起点となったのが、LeeらのORQA(Open-Retrieval Question Answering)である。従来のオープンドメイン質問応答は、ブラックボックスの情報検索(IR)システムが返す証拠候補に依存していたが、ORQAは、別途のIRシステムを用いず、質問・解答の文字列対のみから検索器と読解器を共同で学習する初の枠組みであり、Wikipedia全体からの証拠検索を潜在変数として扱った。利用者が真に未知の答えを求める設定では、こうした学習型検索が従来のBM25をexact matchで最大19ポイント上回ることを示し、後続のDPRやLewisらのRAGへと連なる「検索自体を学習する」という流れを切り拓いた[8]。
検索を事前学習の段階から統合する流れの代表が、GuuらのREALMである。REALMは、言語モデルの事前学習に潜在的な知識検索器を組み込み、Wikipedia等の大規模コーパスから文書を検索して参照する枠組みであり、マスク言語モデリングの教師なし信号を用いて、数百万文書を対象とする検索を通じて検索器を学習する手法を初めて示した。その結果、複数のオープンドメイン質問応答ベンチマークで従来手法を4〜16%の絶対精度で上回り、解釈性とモジュール性の利点も示した[9]。一方、推論時に外部記憶を参照する流れの代表が、KhandelwalらのkNN-LMである。kNN-LMは、事前学習済み言語モデルの予測を、文脈の埋め込みをキーとするk近傍検索の結果と線形補間することで、追加学習なしに稀な事実知識を明示的に記憶・参照できることを示した。WIKITEXT-103で追加学習なしにパープレキシティ(言語モデルが次の単語をどれだけ予測しにくいかを表す指標で、値が小さいほど予測性能が高い)を2.86ポイント改善したほか、小規模なモデルが大規模なデータストアを参照することで、より大きなモデルを上回りうることも示した[10]。この「追加学習なしに知識を更新できる」という性質は、前節で述べたRAGの知識更新性の先駆けにあたる。
検索した複数の文書を生成器へ統合する手法としては、IzacardとGraveのFusion-in-Decoder(FiD)が重要である。FiDは、検索した各文書を質問とともにエンコーダで独立に処理し、デコーダがそれら全ての表現の連結に対してアテンションを行うことで、複数文書の根拠を統合して回答を生成する。エンコーダ側で文書を独立処理するため計算量が文書数に対して線形となり、検索文書数を増やす(最大100文書)ほど性能が向上することを示した[11]。さらにAtlasは、密検索器とFiD型生成器を組み合わせ、事前学習と微調整の双方で検索を用いる検索拡張言語モデルであり、各構成要素の共同事前学習が少数事例学習の性能に決定的であることを示した。110億パラメータのAtlasが、わずか64事例でNatural Questionsにおいて42.4%の精度を達成し、50倍規模の5400億パラメータのPaLMを上回ったという結果は、検索拡張が少数事例設定でも有効であることを実証するものである[12]。コーパス規模の観点では、BorgeaudらのRETROが、2兆トークン規模のデータベースから先行チャンクに類似する文書を検索し、チャンク化クロスアテンションで取り込むことで、25倍少ないパラメータでGPT-3やJurassic-1に匹敵する性能を達成した[13]。これらの先行研究は、いずれもパラメトリックメモリと非パラメトリックメモリをどう結合するかという探求であり、Lewisらの定式化したRAGへと収斂していく流れとして理解できる。
3. RAGの発展史:重要技術とトレンド
3.1 三つのパラダイム:Naive/Advanced/Modular RAG
第2章で述べたLewisらのRAGは、検索器と生成器をエンドツーエンドで共同学習するものであった。しかし、その後のRAGの発展は、必ずしもこの共同学習の路線をたどっていない。むしろ現在広く実装されているRAGの多くは、GPT-4やClaudeのような巨大な言語モデルを再学習せず、凍結(frozen)した「ブラックボックス」として扱い、検索した文書を入力プロンプトに前置(prepend)するだけの構成をとる。この方式の有効性を示したのがREPLUGである[14]。REPLUGは、言語モデルをブラックボックスのまま凍結し、検索文書を入力に前置するだけで、GPT-3(1750億パラメータ)の言語モデリングを6.3%、Codexの5-shot MMLUを5.1%改善できることを示した。さらに、言語モデルの予測を教師信号として検索器のみを微調整することで、追加の改善が得られることも示している。同様にIn-Context RALMは、言語モデルのアーキテクチャを一切変更せず、検索文書を入力プレフィクスの前に連結するだけで、モデルのパラメータ数を2〜3倍に増やすのに相当する言語モデリングの改善が、既製(off-the-shelf)の汎用言語モデルと汎用検索器の組み合わせで得られることを実証した[15]。これらの研究は、巨大な基盤モデルを再学習せずに検索で補強するという現代のRAGの実装思想を基礎づけている。以下では、こうした凍結モデルを前提とした検索・生成パイプラインが、どのように体系的に高度化してきたかを見ていく。
この発展を俯瞰する中核的なサーベイが、Gaoらによるものである[16]。彼らは100本を超えるRAG研究を調査し、RAGの発展をNaive RAG、Advanced RAG、Modular RAGという三つのパラダイムとして整理した。
Naive RAGは、文書を検索し、それを文脈として生成する「retrieve-then-generate」という線形構造を持つ素朴な枠組みである。しかしこの構造は、検索品質のばらつきや無関係な文書の混入に弱く、検索と生成の連携も最適化されていないという限界を抱える。Advanced RAGは、こうした限界に対し、検索の前処理と後処理を最適化することで対応する。具体的には、スライディングウィンドウや細粒度のセグメンテーション、メタデータの付与といったチャンキング・インデキシングの改善を導入する。さらにModular RAGは、RAGシステムを独立したモジュールとオペレータへ分解し、再構成可能な枠組みとして捉える方向性を指す。Gaoらのサーベイは、RAGと教師なしFine-tuningを比較した研究を引用し、既存知識・新規知識のいずれにおいてもRAGがFine-tuningを一貫して上回ると整理している[16]。
Modular RAGの考え方をさらに詳細化したのが、同じくGaoらによるModular RAGのフレームワークである[17]。これは、複雑化したRAGシステムを独立したモジュールと専用オペレータへ分解し、LEGOブロックのように再構成可能な高度に柔軟な枠組みとして実現するものである。従来の線形アーキテクチャを超えて、ルーティング・スケジューリング・フュージョンといった機構を統合し、線形・条件分岐・分岐・ループといった一般的なRAGのパターンを識別する。
3.2 高度化の具体例:自己反省と訂正
Advanced/Modular RAGの具体的な現れとして、検索の要否や検索結果の品質をシステム自身が制御する手法が登場した。素朴なRAGは、検索が必要かどうかや、検索した文章が本当に関連するかを問わず、一律に固定数の文書を取り込むため、無関係な文書がかえって生成品質を損なうという問題があった。
Self-RAG(Self-Reflective RAG)は、この問題に対し、単一の言語モデルをエンドツーエンドで訓練し、特殊な「リフレクショントークン」を生成させることで対応する[18]。すなわち、検索の要否を判断する検索トークンと、検索文章の関連性・支持度・出力品質を評価する批評トークンを生成し、推論時にはこれらのトークン確率の重み付き線形和をスコアとするデコーディングによって、振る舞いをタスク要件に応じて制御できる。7B・13Bという比較的小規模なSelf-RAGが、オープンドメイン質問応答・推論・事実検証のタスクでChatGPTや検索拡張版のLlama2-chatを有意に上回り、長文生成における事実性と引用精度を大幅に改善したことが報告されている。
検索結果の品質そのものを評価し訂正する手法が、Corrective RAG(CRAG)である[19]。CRAGは、軽量な検索評価器が検索文書の品質を評価して信頼度を算出し、それに基づいて{Correct, Incorrect, Ambiguous}という異なる知識取得アクションをトリガする。静的なコーパスの限界を補うために大規模Web検索を拡張として統合し、さらにdecompose-then-recomposeアルゴリズムによって文書から重要情報を選択的に抽出し、無関係な部分を除去する。これにより、標準的なRAGや先述のSelf-RAGの性能をさらに改善したと報告されている。
3.3 GraphRAG
意味的な類似度のみに依拠する素朴なRAGには、原理的な限界もある。エンティティ間の構造的・関係的な知識を捉えられないこと(関係性の無視)、プロンプトに多数の文書を連結することで中間に置かれた情報が見落とされやすくなる現象(いわゆるlost in the middle問題)、そしてコーパス全体を俯瞰する必要のある全体的な質問への対応が困難であること(Query-Focused Summarization、QFS)である。こうした限界を補うために、知識をグラフ構造で扱うGraphRAGが登場した。
Pengらは、GraphRAGに関する初の体系的なサーベイを著し、そのワークフローをグラフベースのインデキシング(G-Indexing)、グラフに導かれた検索(G-Retrieval)、グラフで強化された生成(G-Generation)の3段階に形式化した[20]。これは手法の分類・整理を主目的とするサーベイであり、定量指標を主眼とするものではないが、GraphRAGという領域の全体像を与えるものである。具体的な代表手法としては、Microsoftの研究者らによるGraphRAGがある[21]。これは、通常のベクトル検索型RAGが「データセットの主要なテーマは何か」といったグローバルな問い(sensemaking)に対応できないという課題に対し、LLMを用いて2段階のグラフ索引を構築する。第1段階でソース文書からエンティティ知識グラフを導出し、密接に関連するエンティティ群(コミュニティ)ごとに要約を事前生成する。質問に対しては、各コミュニティ要約から部分応答を生成し(mapステップ)、それらを統合して最終的なグローバル回答を得る(reduceステップ)という、map-reduce型の回答生成を行う。100万トークン規模のデータセット上のグローバルな質問群において、GPT-4を用いた場合に従来のベクトル検索型RAGを回答の包括性と多様性の両面で大幅に上回ることが、LLMを評価者とする手法によって示された[21]。
全体俯瞰型の質問への対応は、知識をグラフ構造に変換せずとも実現しうる。Sarthiらが提案したRAPTORは、チャンクを埋め込み・クラスタリング・要約する操作を再帰的に繰り返し、抽象度の異なる要約をボトムアップに積み上げた木構造を索引として構築する手法である[22]。素朴なRAGが短く連続したチャンクのみを検索するために文書全体の文脈を俯瞰できないのに対し、RAPTORは推論時にこの木の複数の階層から検索することで、細部と全体像の双方を要する質問に答えられる。複雑な多段推論を要する読解ベンチマークQuALITYでは、RAPTORの検索とGPT-4を組み合わせることで最高性能を絶対精度で20%改善したと報告されている[22]。GraphRAGがエンティティ間の関係をグラフとして明示することで俯瞰性を得るのに対し、RAPTORは要約の階層によってそれを得る点で対照的であり、コーパス全体に関わる質問に対する二つの異なる解法を示している。
3.4 Agentic RAGへの展開
RAGは、静的で線形なパイプラインから、自律的に検索と推論を反復するAgentic RAGへと発展しつつある。従来のRAGパイプラインは、多段の推論や反復的な応答の精緻化を必要とする複雑なタスクへの適応性に欠けていた。
この発展の前段に位置づけられるのが、検索を一度きりで終えず、生成の過程で能動的に検索を起動する能動的・多段検索の手法群である。多くの検索拡張モデルは、入力に基づいて最初に一度だけ検索する方式をとるが、これは長文生成や多段の質問応答では不十分となる。Jiangらが提案したFLARE(Forward-Looking Active REtrieval)は、次に来る文を仮生成して将来の内容を先読みし、その文に確信度の低いトークンが含まれる場合に、仮生成文をクエリとして関連文書を検索し当該文を生成し直す、という反復を行う手法である[23]。彼らは、長文かつ知識集約型の四つの生成タスクにおいて、FLAREがベースラインを上回るか同等の性能を示すことを報告している。同様にTrivediらのIRCoTは、連鎖的思考(Chain-of-Thought)の各ステップと検索を交互に織り込み、思考で検索を導き、検索結果で思考を改善する反復を行う[24]。「何を検索すべきか」が「これまでに何を導いたか」に依存する多段の質問応答において、IRCoTはGPT-3で検索を最大21ポイント、下流の質問応答を最大15ポイント改善し、ハルシネーションを低減したと報告されている。これらの「いつ・何を検索するか」を動的に判断する手法は、検索の要否や対象をモデル自身が制御するAgentic RAGへの橋渡しをなす。
Singhらは、自律的なAIエージェントをRAGパイプラインに組み込むAgentic RAGを分析的に概観するサーベイを著した[25]。そこでは、リフレクション・プランニング・ツール使用・マルチエージェント協調といったエージェント設計パターンと、プロンプト連鎖・ルーティング・並列化・オーケストレータ-ワーカー・評価器-最適化器といったワークフローパターンが整理され、エージェント数や制御構造・自律性・知識表現に基づく分類体系が提示されている。また、検索と推論を相互に駆動させる枠組みを整理した研究として、RAG-Reasoningのサーベイがある[26]。これは、推論がRAGを強化する方向(Reasoning-Enhanced RAG)、RAGが推論を強化する方向(RAG-Enhanced Reasoning)、そして両者を反復的に協調させる方向(Synergized RAG-Reasoning)の3類型で手法を分類するものであり、検索が推論を支え、推論が次の検索を導くという協調の構図を描く。これらのサーベイはいずれも定量指標を主眼とするものではないため、本稿では定義・分類の出典として参照する。Agentic RAGは、RAGを単なる検索機構ではなくエージェントの一部として捉える視点を提供しており、第5章で述べるエージェント組み込みの技術的基盤へと議論を橋渡しする。
3.5 要素技術の進化
ここまで述べてきたRAGの高度化は、検索を支える要素技術、すなわち埋め込み・近似最近傍探索・リランキング・ハイブリッド検索・クエリ変換、そして文書分割(チャンキング)の進化に支えられている。
まず埋め込みについては、文を固定長のベクトルとして表現する基礎を確立したのがSentence-BERTである。従来のBERTは文ペアを毎回同時入力するクロスエンコーダ構造のため、1万文から最類似ペアを探すのに約65時間を要し、大規模検索に適用できなかった。Sentence-BERTは、siamese構造でBERTを微調整して固定長の文埋め込みを生成し、コサイン類似度で比較可能にすることで、この探索を約5秒へと短縮した[27]。その後、汎用かつ高性能な埋め込みモデルが登場する。E5は、半構造化データから精選した大規模テキストペアを用いた弱教師あり対照事前学習により、BEIRにおいて微調整なしのゼロショット設定でBM25を上回った初のモデルであり、BEIR・MTEBを含む56データセットで評価された[28]。またBGE(C-Pack)は、評価ベンチマーク・学習データ・モデル群・学習レシピを一体として整備したもので、公開時点の既存モデルを中国語ベンチマークC-MTEBで10%以上上回り、英語でも最高水準の性能を示した[29]。
埋め込みによって文書がベクトルへ変換されても、数百万から数億規模の文書集合の中から類似ベクトルを逐一厳密に探索するのは現実的でない。これを実運用規模で可能にするのが近似最近傍探索(Approximate Nearest Neighbor、ANN)であり、その代表的アルゴリズムがHNSW(Hierarchical Navigable Small World)である[30]。HNSWは、各要素を指数的に減衰する確率で多層の近接グラフへ配置し、上位の疎なグラフから探索を始めて下位の密なグラフへ降りていくことで、探索の計算量を対数的に抑える。これにより、厳密探索に近い再現率(recall)を保ちながら、大規模なベクトル集合を低遅延で検索できる。HNSWはFAISSをはじめとする主要なベクトル索引・ベクトルデータベースで広く採用されており、RAGの検索を物理的に支えるインフラ層をなしている。第6章で論じる産業適用におけるコストやスケーラビリティは、この検索インフラの効率に大きく依存する。
次にリランキングである。ColBERTは、クエリと文書を独立に文脈化埋め込み群へ符号化し、MaxSim(各クエリ語に対する最大コサイン類似度の総和)による安価な遅延相互作用(late interaction)で関連度を推定する手法である。文書埋め込みをオフラインで事前計算できるため、BERTベースの手法と競合する有効性を保ちつつ、検索全体で実行速度を2桁高速化し、特に再ランク用途では既存のBERTベース手法に対して170倍を超える高速化を実現した[31]。また、系列変換モデルT5を再ランカに適応させ、クエリと文書から「true/false」を生成させてその確率で並べ替えるmonoT5は、生成的リランキングの代表例であり、MS MARCOの開発セットでMRR@10が0.383に達し、BM25とBERT-largeの組み合わせを上回った[32]。
検索方式の融合、すなわちハイブリッド検索も重要な要素である。スパース検索の側では、確率的関連性フレームワークに基づくBM25が古典的な正典として位置づけられる[33]。これは関連性を確率的に推定する理論的枠組みであり、定量指標を主眼とする実験論文ではないが、語句一致に基づく検索の理論的基盤を与える。密検索の側には前述のDPR[5]があり、両者を統合する手法が順位融合である。Reciprocal Rank Fusion(RRF)は、各文書について各ランキングの順位rの逆数1/(k+r)を全システムにわたり総和してスコアとする単純な手法であり、定数kを60に固定することで、複数の検索結果を学習例なしに統合し、最良の個別システムを平均4〜5%上回ることが示された[34]。さらにクエリ変換の手法として、HyDEは、指示追従型LLMにクエリへの回答となる仮説文書を生成させ、それを教師なしエンコーダで埋め込んで実在文書の近傍を検索する。これにより、関連性ラベルを一切用いないゼロショット設定で、TREC DL19においてnDCG@10が61.3とBM25(50.6)やContriever(44.5)を大きく上回った[35]。
最後に、検索に先立つ前処理であるチャンキング、すなわち文書をチャンク(chunk)と呼ぶ小単位へ分割する工程を取り上げる。チャンクの粒度と境界の取り方は、埋め込み・索引化・検索の全段に波及し、検索精度と回答品質を大きく左右する。最も基本的なのは、トークン数や文字数で機械的に区切って隣接チャンク間に重複(オーバーラップ)を持たせる固定長分割と、段落・文・語といった区切りの階層に従って目標サイズへ再帰的に分割する方式であり、いずれも単独の正典的論文を持たない実装上のベースラインとして広く用いられている。前掲のGaoらのサーベイも、スライディングウィンドウや細粒度のセグメンテーションといったチャンキングの改善を、Advanced RAGの中核的な高度化策の一つに挙げている[16]。
近年は、この分割方式そのものを対象とする査読付き研究が現れている。検索単位の粒度を問い直したのがChenらのDense X Retrievalである[36]。彼らは、文書・パッセージ・文に加え、テキストを自己完結した最小の事実単位へ分解した命題(proposition)を新たな検索単位として提案し、Wikipediaを3粒度に分割したFactoidWikiを構築した。5つのオープンドメイン質問応答ベンチマークにおいて、命題単位の検索は教師なし検索器のRecall@5を平均で9〜12ポイント改善し、下流の質問応答精度(EM@500)も2.7〜4.1ポイント向上したと報告している[36]。一方、DuarteらのLumberChunkerは、固定的な規則ではなくLLMに内容の転換点を判断させ可変長で分割する動的チャンキングを提案した[37]。連続するパッセージ群をLLMに与えて意味の切れ目を反復的に特定させることで、長文文書を意味的にまとまった単位へ分割する。評価用ベンチマークGutenQAにおいて、最も競争力のあるベースラインであった再帰的分割に対し検索性能(DCG@20)を7.37%上回り、RAGパイプラインへ統合した場合もGemini 1.5 Pro等の競合を上回ったとする。
分割と埋め込みの順序を見直す工夫もある。Güntherらのlate chunking(遅延チャンキング)は、チャンクへ分割してから個別に埋め込むのではなく、長文脈埋め込みモデルでまず文書全体のトークン列を埋め込み、その後にチャンク単位でプーリングする手法である[38]。これにより各チャンク埋め込みが周辺文脈の情報を保持でき、ナイーブな分割に比べ複数の検索ベンチマークでnDCG@10が相対2.7〜3.6%改善したと報告されている。ただし本研究は企業(Jina AI)発のpreprintであり、査読を経ていない点には留意を要する。
もっとも、より高度なチャンキングが常にコストに見合うとは限らない。商用RAGベンダーであるVectara社のQuらは、文ごとの埋め込み類似度から意味の切れ目を求める意味的チャンキング(semantic chunking)が、単純な固定長分割に対して追加の計算コストに見合う一貫した性能向上をもたらすかを、文書検索・エビデンス検索・回答生成の三つのタスクで系統的に検証した[39]。その結果は明確に場面依存的であった。すなわち、複数文書を連結した話題の多様なデータセットでは意味的チャンキングが優位となる一方、エビデンス検索では固定長分割が五つのデータセット中三つで最良となるなど、意味的チャンキングの優位は一貫しなかった。彼らは、意味的チャンキングの計算コストは一貫した性能向上によっては正当化されないと結論づけている。チャンキングの選択は、ユースケースに応じて費用対効果を見極めるべき設計判断であり、製造業の実務においても、単に高度な手法を採るのではなく、対象文書の性質と求める精度・コストのバランスに照らして方式を選ぶ必要がある。
3.6 トレンド:ロングコンテキストLLMとの関係
RAGの発展史を語るうえで、近年避けて通れないのが、ロングコンテキストLLM(Long-Context LLM、以下LC)との関係である。文脈長が数十万から100万トークン規模に達するLLMが登場したことで、わざわざ文書を検索してプロンプトに与えるRAGを用いずとも、関連文書群をそのまま文脈に流し込めばよいのではないか、という問いが生じている。
この問いを体系的に検討したのが、Liらの研究である[40]。彼らは最新のLLMを用いてRAGとLC方式を複数のデータセットで比較し、計算資源を十分に与えればLC方式がほぼ全ての設定でRAGを一貫して上回ることを示した。ただし両者の予測は多くのクエリで一致しており、彼らはまずRAGで安価に処理し、RAGが自信を持てないクエリのみをLC方式へ回すハイブリッド方式(Self-Route)を提案した。これにより、LC方式と同等の品質を大幅に低いコストで達成できるとする。一方、Yuらはこれと対照的に、ロングコンテキスト時代においてもRAGが有効であることを擁護する立場をとる[41]。彼らは、検索したチャンクを関連度順ではなく元の文書中の出現順序を保って並べる順序保持型RAG(OP-RAG)を提案し、これによって全文脈をそのまま入力するLC方式よりも、はるかに少ないトークン数で高い回答品質を達成できることを示した。
これらの研究が示すのは、ロングコンテキストLLMの台頭はRAGを不要にするものではなく、両者はコストと品質のトレードオフの中で使い分けられるべきものだ、という構図である。とりわけ、社内に膨大な技術文章を抱える製造業の文脈では、全文書を毎回文脈へ流し込むことはコスト面でも機密管理の面でも非現実的であり、必要な文書だけを検索して与えるRAGの意義は依然として大きい。
4. 非構造化データの構造化技術
4.1 課題の技術的再定義
第1章で提起した「社内技術文章の非構造化性」という課題を、技術的な観点から再定義しよう。それは、図・表・レイアウトといった視覚的な構造の中に埋め込まれた情報を、機械可読な構造へ変換する問題に帰着する。
この問題の難しさは、文書の質問応答という具体的なタスクを通じて鮮明になる。Mathewらが構築したDocVQAは、実産業文書から作成された質問応答データセットであり、その回答にはテキストの読み取りだけでなく、フォーム・表・図といった文書構造の解釈が要求される。12,767枚の文書画像に対する50,000問からなるこのデータセットにおいて、既存モデルと人間の性能(ANLSで94.36%)の間には依然として大きな差が残ることが示された[42]。これは、単にテキストを抽出するだけでは文書の意味を捉えきれないことを端的に示している。
では、文書全体を画像として汎用のマルチモーダルLLMに渡せばよいかというと、ここには文脈長の壁が立ちはだかる。OCRとLLMを組み合わせる方式では構造情報が失われやすく、一方でネイティブにマルチモーダルなLLMは長い文脈を扱うのが苦手であるという、トレードオフが存在する。マルチモーダル文書RAGに関するサーベイによれば、代表的な文書RAGのベンチマークは20〜200Mのビジュアルトークンを要し、これは既存のマルチモーダルLLMの典型的な文脈長(128K〜1M)を大きく超えるという[43]。本サーベイは定量指標を主眼とするものではないが、文書をマルチモーダルに扱う際の本質的な困難を裏づけている。以下の各節では、この構造化の問題に多様な角度から取り組む技術群を見ていく。
4.2 レイアウト解析・文書理解
非構造化文書を構造化する出発点となるのが、テキストとレイアウト・視覚情報を同時にモデル化する文書AIである。従来のNLPの事前学習はテキストのみに着目し、文書理解に不可欠なレイアウトやスタイルの情報を無視していた。これに対しLayoutLMは、テキストと2次元のレイアウト(位置埋め込み)を単一のフレームワークで同時に事前学習する初のモデルであり、1100万枚を超えるスキャン文書画像で事前学習された。その結果、フォーム理解のFUNSDが70.72から79.27へ向上するなど、複数の下流タスクで新たな最高精度を達成した[44]。続くLayoutLMv2は、テキスト・視覚・レイアウトをマルチモーダルTransformerで事前学習段階から統合し、文書画像質問応答のDocVQAを0.7295から0.8672へ向上させるなど6タスクで初代を上回った[45]。さらにLayoutLMv3は、テキストと画像の統一的なマスキングに加え、対応画像パッチのマスク有無を予測するWord-Patch Alignmentによってクロスモーダルな整合を学習し、CNN系のバックボーンに依存しない初の文書AIモデルとなった。FUNSDでF1=92.08という最高精度をLARGEモデルで達成し、またBASEモデルは133Mパラメータと比較的小さな規模にとどまる[46]。
これらのLayoutLM系がOCRで得たテキストとレイアウトを併用するのに対し、OCRそのものを介さずに文書を理解しようとする流れもある。Donutは、OCRを前処理として外部に依存することの問題(計算コスト・言語柔軟性の低さ・OCR誤りの後段への伝播)に対し、生の画像から直接構造化出力を生成するエンドツーエンドのTransformerを提案した。Swin Transformerエンコーダとデコーダからなり、合成データ生成器によって多言語・多ドメインに対応する。これは、PowerPointや画像系データのようにOCRが不安定になりがちな非構造化データの扱いに対する有力なアプローチである[47]。同様にDocFormerは、空間埋め込みをモダリティ間で共有するマルチモーダル自己注意層を導入し、物体検出ネットワークやカスタムOCRに依存しないエンドツーエンドの文書理解アーキテクチャを実現した[48]。また、PDFを構造化テキストへ変換する観点ではNougatが重要である。Nougatは、文書ページの画像を軽量なマークアップ(Markdown)へ変換するVisual Transformerであり、既存のOCRが扱えなかった数式や上付き・下付き文字を含む科学文書を機械可読なテキストへ変換できる[49]。これらの技術は、社内のPowerPointやPDFといった文書を構造化テキストへ落とし込む現実的な手段を与える。
4.3 表抽出
Excelによる管理表や、PDF・画像に埋め込まれた表は、製造現場の技術文章に頻出する。こうした表データは、表構造認識の技術によって機械可読化できる。
表抽出研究の基盤を支えたのが、大規模ベンチマークの整備である。TableBankは、WordおよびLaTeX文書のソースコードから弱教師として自動的にラベルを付与することで、417,234枚規模の表データセットを構築した[50]。PubTabNetは、PubMed Central由来の大規模な表認識データセットを公開するとともに、表構造を復元する構造デコーダがセルデコーダを助けるEncoder-Dual-Decoder(EDD)を提案し、さらに木編集距離に基づく評価指標TEDS(Tree-Edit-Distance-based Similarity)を導入した[51]。このTEDSは、セルのシフトや内容の誤りを既存の隣接関係指標よりも適切に捉えるため、表構造認識の精度を測る標準的な指標となっている。表構造とセル境界を同時に予測する手法としては、TableFormerがある。これはTransformerベースで表構造とセルのバウンディングボックスをエンドツーエンドに予測するもので、TEDSにおいて単純な表を従来の91%から98.5%へ、複雑な表を88.7%から95%へと大幅に改善した[52]。さらにPubTables-1Mは、約100万表という大規模データセットを構築し、表検出・表構造認識・機能解析の3タスクにDETR(Detection Transformer)を初めて適用した。同データは、同一の表に複数の正解解釈が生じる「過分割(oversegmentation)」というアノテーションの不整合を正準化手順によって修正しており、データ品質の改善だけで表構造認識の性能が有意に向上することを示した[53]。
4.4 図表・グラフ理解
技術文章にとりわけ多い図やグラフは、構造化が最も難しい対象の一つだが、グラフを表へ変換する技術やマルチモーダルな事前学習によって理解可能になりつつある。
この分野の評価基盤を与えたのがChartQAである。これは、実世界の4つのソースから収集した20,882枚のグラフに対する質問応答ベンチマークであり、集計・比較・最大値算出といった視覚的・論理的な複合推論を含む点に特徴がある。質問の43.0%が複合的な推論を要するものであり、従来のテンプレート生成型データセットでは扱えなかった現実的な難しさを反映している[54]。手法の側では、グラフを構造化された表へ変換してからLLMで推論する二段構えのアプローチが有力である。DePlotは、プロットを線形化した表へ変換するモジュールであり、その出力をChain-of-ThoughtでプロンプトしてLLMに接続することで、数千点で微調整した当時の最高性能モデルに対し、人手作成質問でワンショットで29.4%の改善を達成した[55]。また、グラフ理解そのものを事前学習で強化したのがMatChaである。これは、グラフ画像から元のデータ表やレンダリングコードを生成する脱レンダリングと、数学的推論の2系統の事前学習タスクを導入したもので、データ表へのアクセスを仮定しない従来の最高性能を最大約20%上回った[56]。これらは、非構造化な図表をいったん構造化された表へ落とし込んでLLMで扱うという、本稿の問題意識に直結するアプローチである。
4.5 OCRとマルチモーダルLLM
文書からテキストを読み取る基盤技術であるOCR(光学文字認識)も、構造化の議論には欠かせない。その代表的なエンジンがTesseractである。連結成分解析を起点とする段階的なパイプラインを採用し、文書内のフォントに適応する分類器を組み合わせる設計によって、当時の商用エンジンが苦手とした条件でも動作する基盤的なOCRエンジンとして知られる[57]。
OCRに加えて、近年は汎用のマルチモーダルLLMが文書・図表理解の有力な手段となっている。GPT-4Vは、科学論文の専門的な図表やテキストを含む図を読み取れる能力を示す一方で、画像内で近接する別のテキストを誤って結合するなどの限界も報告されている[58]。オープンなマルチモーダルLLMの代表例であるLLaVAは、言語のみのGPT-4を用いて会話・詳細記述・複雑推論からなるマルチモーダル指示追従データを生成し、視覚エンコーダと言語デコーダを接続して学習したモデルであり、合成データに対するGPT-4比の相対スコア85.1%を達成した[59]。また、テキスト読み取りに強い視覚言語モデルとしてはQwen-VLがある。位置認識型のクロスアテンション・アダプタを導入し、グラウンディングやテキスト読み取りといった細粒度の視覚理解を備えた、計9.6Bパラメータのモデルである[60]。これらの汎用マルチモーダルLLMは強力だが、GPT-4Vの例が示すように幻覚や誤読という信頼性の課題を残しており、専門文書への適用には注意を要する。
4.6 構造化せずに扱うアプローチ:文書RAGパイプライン
ここまでは非構造化文書を機械可読な構造へ変換する技術を見てきたが、これとは対照的に、明示的な構造化を経ずに非構造化文書を扱うアプローチも有力である。すなわち、ページ画像そのものを検索対象とする方式である。
この方式を支えるのが、画像とテキストを共通のベクトル空間へ対応づけるクロスモーダル埋め込みである。その基礎を築いたのがCLIPであり、インターネットから収集した4億組の画像・テキストのペアを用い、「どのキャプションがどの画像に対応するか」を当てるという対照学習によって、画像とテキストを同一空間に埋め込む[61]。これにより、事前学習後は自然言語で視覚概念を参照でき、30以上のデータセットでタスク固有の学習なしにゼロショット転移が可能となる。例としてImageNetでは、128万枚の学習例を一切使わずにゼロショットで元のResNet-50の精度に並んだ[61]。テキストと画像を横断して類似度を測れるこの枠組みは、ページ画像をそのまま検索対象とする以下の手法の土台をなす。
ColPaliは、文書がテキストだけでなく図・レイアウト・表・フォントによって情報を伝えるにもかかわらず、既存の検索システムがOCRや脆い前処理で抽出したテキストに依存して視覚的手がかりを活用できていない、という問題意識に立つ。ColPaliは、視覚言語モデルを拡張してページ画像からColBERT型のマルチベクトル埋め込みを生成し、遅延相互作用で照合する。多ドメイン・多言語の検索ベンチマークViDoReにおいて、ColPaliはnDCG@5で平均81.3を達成し、OCRとテキストを組み合わせた強力なベースラインを大きく上回った。さらに、索引化がページあたり0.39秒と、PDFパーサ(7.22秒/ページ)よりも高速である点も実用上の利点である[62]。この方式は、OCRや前処理の脆さに依存せず、非構造化文書を構造化せずに扱える点で、本稿の課題に対する一つの有力な解となる。
4.7 RAW画像のRAG化:現像とマルチモーダル理解の二段パイプライン
ここまでの議論は一般的な文書を対象としてきたが、イメージセンサ製造業には、RAW画像という固有のデータ形式が存在する。RAW画像は、センサが取得した未処理の生データであり、本稿ではこれを直接扱うのではなく、いったん現像して8bitのRGB画像へ落とし込んだうえでマルチモーダルモデルによって意味解釈する、という二段構えのパイプラインとして扱うことを提案する。なお、RAW画像固有の扱いに関する直接的な査読文献は乏しいため、本節は筆者の実体験に基づく考察であり、現像という一般的な画像処理と、既存のマルチモーダル理解の研究とを組み合わせて論じるものである。
まず背景として、RAW画像の性質を確認する。RAW形式は、撮影後にホワイトバランスやトーンマッピングを調整できるよう、未処理のセンサデータを保持する形式である。この特性は、AdobeのDNG形式を国際標準化したISO 12234-4:2026によっても、RAW画像の標準ファイル形式の一つ(DNG)として規定されている[63]。技術的には、センサはカラーフィルタアレイ(通常はBayerフィルタ)で覆われ、各画素は部分的な色情報のみを取得するため、RAWファイルはデモザイク前のモザイク状データを通常12または14ビットという高いビット深度で保存する[64]。このように、RAW画像はそのままでは言語モデルが解釈できない形式であり、何らかの変換を要する。
第1段の現像は、デモザイクやトーンマッピングといった処理によって8bitのRGB画像を得る工程である。従来この工程はカメラのISP(画像信号処理)が個別に設計した複雑な手作りパイプラインで担っていたが、近年はこれを学習型のモデルで代替する研究が進んでいる。PyNETは、センサや光学系の事前知識なしに、RAW Bayerデータを高品質なRGB画像へ直接変換する単一のエンドツーエンド深層学習モデルであり、PSNR21.19・MS-SSIM0.8620を達成して、知覚品質の評価において対象スマートフォンの内蔵ISPを上回ったと報告されている[65]。また、Learning to See in the Darkは、極端な低照度で撮影したRAW画像を直接入力とし、従来のISPパイプライン全体をエンドツーエンドのネットワークで置き換える手法であり、RAWセンサデータを直接処理して画像化する代表例である[66]。これらは、RAWを現像して8bit RGB化する工程を、学習型モデルによって単一の処理として実現しうることを示している。
第2段では、こうして得たRGB画像を、前節までに述べたマルチモーダルモデルで意味解釈する。すなわち、OCR-freeな文書理解を行うDonut[47]、汎用的な図表理解を行うGPT-4V[58]やLLaVA[59]、あるいはページ画像を直接検索対象とするColPali[62]といった既存技術を、現像後の画像に対して適用する。この二段パイプラインによって、RAW画像という極端に非構造化されたデータも、原理的にはRAGの知識源として扱う道筋が見えてくる。これは第1章で提起した課題に対する、イメージセンサ製造業に固有の応答である。
4.8 実践面:クラウド/OSSサービス
以上で述べた構造化技術の多くは、クラウドサービスやオープンソースソフトウェア(OSS)として、実務に利用可能な形で提供されている。
文書のETL(抽出・変換・ロード)層では、OSSのUnstructuredが、25種類以上の多様な文書フォーマットを取り込み、構造化要素への分割やセマンティックチャンキングを提供する[67]。OCR・表・フォーム抽出の層では、AWSのAmazon Textractが、活字・手書き文字のOCRに加え、表やフォームの抽出、指定情報の抽出を備える[68]。マネージドRAGの層では、Amazon Bedrock Knowledge Basesが、データの取り込みから埋め込み・索引化・検索までを管理し、文書種別ごとの自動パース、マルチホップ推論を行うAgentic Retrieval、引用付き応答、さらにMCP対応エージェントからツールとして呼び出す統合に対応する[69]。Microsoftの側では、Azure AI Document Intelligenceがレイアウト・表・フォームの抽出を担い[70]、Azure AI Searchがベクトル検索とキーワード検索を組み合わせたハイブリッド検索を提供する[71]。さらにAzure AI Searchの統合ベクトル化機能は、取り込み時のチャンク化と埋め込み生成、クエリ時の自動ベクトル化を一括で行い、別個のベクトル化パイプラインの構築を不要にする[72]。Googleも、非構造化データを構造化データへ変換するDocument AIを提供しており、OCRによるデジタル化、フォーム・表の抽出、文書分類のプロセッサを備える[73]。これらのサービスは、文書ETL・OCR・レイアウト/表抽出・マネージドRAG・ベクトル検索という各層を分担しており、実務では用途に応じてこれらを組み合わせることになる。
5. AIエージェントへの組み込み技術
5.1 学術的基盤:推論・行動・ツール利用
RAGを、単なる検索機構ではなくAIエージェントが利用するツールとして統合する発想は、推論と行動を結びつける一連の学術的基盤の上に成り立っている。
その出発点の一つが、推論と行動を統合するReActである。ReActは、LLMにおける推論(chain-of-thought)と行動が別々に研究されてきたこと、そしてchain-of-thought単独の推論が外部世界に接地されず事実の幻覚を招きやすいことを問題とした。そこで、推論トレースとタスク固有の行動を交互に生成するパラダイムを提案し、推論で行動計画を立て、行動でWikipedia等の外部情報源と相互作用して知識を取り込む。これにより、HotpotQAやFeverで幻覚を抑制し、対話的意思決定のベンチマークであるALFWorldとWebShopで、模倣学習・強化学習の手法に対し成功率をそれぞれ絶対値で34%・10%上回った[74]。外部情報源と相互作用しながら推論するというこの構図は、RAGをエージェントの行動として組み込む発想の原型といえる。
LLMが自律的にツールを使うことを学習する枠組みとしては、Toolformerがある。Toolformerは、どのAPIをいつ・どのような引数で呼び出し、結果をどう取り込むかを自己教師あり学習で習得する手法であり、APIコールの候補をサンプリングして、次トークン予測の損失を実際に減らすコールだけを保持して微調整する。6.7BパラメータのGPT-Jベースのモデルが、計算タスクの97.9%で計算ツールを自発的に呼び出すなど、はるかに大きいGPT-3に匹敵するゼロショット性能を達成した[75]。さらに、こうしたエージェントを構成する要素を体系化したのが、LLMベースの自律エージェントに関するサーベイである。これは、エージェントの構築をプロファイル・記憶・計画・行動の4モジュールからなる統一フレームワークとして整理したものであり[76]、定量指標を主眼とするものではないが、RAGがこのうち「行動」あるいは外部「記憶」へのアクセス手段としてエージェントに組み込まれることを位置づける枠組みを与える。
5.2 ツール利用(function calling)の基盤
学術的な基盤を実装に落とし込む際の中核となるのが、LLMが外部ツールを呼び出すfunction callingである。これは、RAGをエージェントへ接続するための実践的な基盤を与える。
Anthropicの公式ドキュメントによれば、Claudeにおけるツール利用は、ユーザが定義した関数やAnthropicが提供する関数をモデルが呼び出し、外部ツールやAPIと連携できるようにする機能である[77]。モデルは、ユーザの要求とツールの記述に基づいて呼び出しの要否を判断し、ツールはアプリ側で実行するクライアントツールと、Anthropic側で実行するサーバツール(Web検索・コード実行・Webフェッチ等)に分かれる。実行の流れは、モデルがツール使用を要求するブロックを返し、アプリがその結果を返送するというループ(エージェントループ)として構成される。RAGによる検索も、この枠組みにおける一つのツールとして接続できる。すなわち、社内文書を検索するRAGをツールとして定義しておけば、エージェントが必要と判断した場面でそれを呼び出し、検索結果を踏まえて回答を生成する、という構成が実現する。
5.3 MCP:データソース接続の標準
RAGの知識源を含む多様なデータソースを、標準化された方法でエージェントへ接続する仕組みとして登場したのが、Model Context Protocol(MCP)である。
MCPは、Anthropicが2024年11月に公開したオープン標準であり、AIアシスタントとデータソースを安全に接続することを目的とする[78]。従来、AIアシスタントを各データソースへ接続するには、データソースごとに個別の連携を実装する必要があり、その断片化が普及の障害となっていた。MCPは、こうした個別連携を単一のプロトコルへ置き換えることを狙う。プロトコル仕様とSDKに加え、Google Drive・Slack・GitHub・PostgreSQLといった代表的なデータソース向けのプリビルトコネクタを提供することで、データソースごとの個別実装なしに標準化された接続を実現する。社内に散在する技術文章を知識源とするRAGをエージェントへ接続するうえで、このような標準化されたプロトコルは、実装と運用の負担を大きく軽減する。
5.4 Skills:ドメイン知識のパッケージ化
エージェントに、ドメイン固有の手順や知識を与える仕組みとして、AnthropicのAgent Skillsのようなモジュール型の拡張がある。
Agent Skillsは、指示・メタデータ・任意のスクリプトやテンプレートをパッケージ化し、関連する場面でClaudeが自動的にそれを用いる機能である[79]。ファイルシステムベースで提供され、まずメタデータを読み込み、必要に応じて本文の指示や付随リソースを段階的に読み込む「プログレッシブディスクロージャ」を採用することで、文脈の浪費を抑えながら必要な知識だけを参照する。注目すべきは、事前構築されたドキュメント系のSkillとして、PowerPoint・Excel・Word・PDFを扱うものが用意されている点である。これは、本稿が課題とした社内の非構造化文書の形式と正確に対応しており、ドメイン固有の文書処理手順をエージェントへ与える具体的な手段となる。
以上に述べたツール利用・MCP・Skillsという基盤の上に、RAGをエージェントのツールとして組み込むAgentic RAG(第3章の[25]、およびAmazon Bedrock Knowledge BasesのAgentic Retrieval[69])が実現する。すなわち、エージェントが自律的に検索の要否を判断し、必要に応じて社内文書のRAGを呼び出し、その結果を推論に組み込んで回答する、という運用が技術的に可能になっている。次章では、こうした技術が産業現場でどこまで実現できているかを考察する。
6. 考察
6.1 産業適用の実現性
産業現場におけるRAGの適用は、具体的な成果を上げ始めている一方で、その多くはなお実証段階・プロトタイプ段階にある。この実態を最もよく示すのが、Brehmeらによる産業実務者へのインタビュー調査である。13名の実務者への半構造化インタビューを分析したこの研究によれば、RAG実装の大半は質問応答タスクに集中しており、13件中12件が技術成熟度(TRL)7未満、すなわちプロトタイプ段階にとどまっていた。また要件の重要度としては、回答品質・機密性・プライバシーが高く評価される一方、データの前処理が品質を左右する主たる課題として挙げられた[80]。
とはいえ、製造業の具体的なユースケースでRAGが有効性を示した事例も存在する。Chenらは、産業ドメイン固有の非構造化文書から情報を検索し技術サービスや社内規程の照会に応答する対話型ナレッジ管理システムを構築した。BM25と埋め込みを併用してチャンクを取得し、リランカで再順位付けして生成する構成により、技術サービスで平均逆順位(MRR)88%・recall85%を、社内規程文書ではMRR97.97%・recall91.62%という高い精度を達成した[81]。またHerediaらは、セラミックタイル製造の品質管理を題材に、bi-encoderによる検索とcross-encoderによるリランク、そして生成を組み合わせた先進的なRAGを構築した。検索評価でJaccard類似度92.68%・F1スコア85.81%、生成評価でROUGE-Lの平均0.61を達成し、約1ドルのコストで830クエリを処理しつつ、汎用のGPT-4よりも高精度であったと報告している[82]。これらは、ドメインに特化したRAGが製造業の実務で機能しうることを示す具体例である。
なお、こうしたドメイン特化を、検索拡張(RAG)と再学習(ファインチューニング)のいずれによって実現すべきかは、産業適用における設計上の論点である。本稿がこれまで前提としてきたのは、生成器を再学習せず検索文書をプロンプトに前置する凍結型RAGであるが、両者は必ずしも二者択一ではない。Zhangらが提案したRAFT(Retrieval Augmented Fine-Tuning)は、検索文書群に正解の根拠となる文書と無関係な妨害文書(distractor)を混在させたうえで、妨害文書を無視し、関連文書から根拠箇所を逐語的に引用しながら思考連鎖(chain-of-thought)で解答するように生成器を微調整する手法であり、両者を折衷する。PubMedやHotpotQAなどのドメイン特化設定で、ドメイン特化のファインチューニングやRAG単独を一貫して上回ると報告されている[83]。製造業のように専門用語と社内固有の知識を多く含むドメインでは、こうしたRAGとファインチューニングの組み合わせも、適応手法の選択肢として視野に入る。
6.2 精度の限界と評価
産業適用が進む一方で、RAGの精度には明確な限界があり、しかもその精度を測る手法自体がなお発展途上にある。
精度の限界を定量的に示したのが、Chenらによるベンチマーク研究RGBである。これはRAGに必要な4つの基礎能力——ノイズ耐性・否定的棄却・情報統合・反事実頑健性——を測るもので、検索結果にノイズが混入した場合の精度劣化を明らかにした。ノイズ比が0.8の条件では、ChatGPTの精度が96.33%から76.00%へと大きく低下し、また回答すべきでないときに棄却する否定的棄却の成功率は、最高でも英語で45%にとどまった[84]。これは、検索ノイズの混入や、答えが存在しない場合の適切な棄却、複数文書からの情報統合といった点に、RAGが原理的な弱さを抱えていることを示している。
精度をどう測るかという評価の手法については、Esらが提案したRagasが、参照解答を必要としない自動評価の枠組みを与えた。Ragasは、回答が文脈に基づいているかを測るfaithfulness、質問に的確に答えているかを測るanswer relevance、検索された文脈が焦点を絞れているかを測るcontext relevanceという3つの軸を、LLMへのプロンプトによって自動的に測定する[85]。もっとも、前掲のインタビュー調査が報告するように、産業現場での評価は依然としてほぼ人手で行われており、自動化されていた事例は13件中2件にすぎなかった[80]。評価の自動化・標準化は、RAGの実用化における残された課題である。
6.3 機密性・コストの残課題
社内の機密データを知識源とする以上、データ漏洩のリスクと運用コストは避けて通れない残課題である。
機密性に関して深刻な問題を提起したのが、Zengらによるプライバシー研究である。彼らは、情報部分と命令部分からなる複合構造化プロンプト攻撃を提案し、RAGの検索データベースから機密情報を逐語的に抽出できることを実証した。攻撃の成功率は50%近くに達し、緩和策としての要約は、対象を絞らない攻撃のリスクを約50%低減するものの、対象を特定した攻撃に対しては効果が限定的であった[86]。社内機密データを知識源とする製造業の文脈において、これは看過できないリスクである。実際、前掲のDeloitteの調査でも、製造業のOT環境において不正アクセスを55%、知的財産の窃取を47%の企業が懸念しており、サイバーセキュリティにIT予算の平均15.74%を充てていると報告されている[2]。
他方、コストの面では、RAGがむしろ低廉でありうることを示す事例もある。前掲のHerediaらの品質管理RAGは、約1ドルのコストで830クエリを処理しており[82]、後述する他社事例でも工数削減の効果が報告されている。機密性の確保には相応の運用設計が必要となるが、コストそのものは、ユースケースによっては十分に現実的な水準に収まりうる。
6.4 論文の技術と現行サービスのギャップ
ここまで述べてきた先端技術と、実際に現場で実装・運用されるサービスとの間には、無視できないギャップがある。GraphRAGやAgentic RAG、マルチモーダル文書理解といった先端的な手法は、研究の上では目覚ましい成果を上げているが、その現場適用はなお限定的である。前掲のインタビュー調査が、データの前処理を主たる課題とし、実装の大半がプロトタイプ段階にとどまると報告していたことは、この点を端的に示している[80]。実務においては、最先端のアルゴリズムそのものよりも、データの前処理・整備、社内認証との連携、ファイル単位の権限管理といった地道な工程が、システムの成否を分ける。次節で見る他社事例も、この構図を裏づけるものである。
6.5 他社事例からの示唆
自社内データのRAG化に取り組んだ企業の公式事例は、本稿が論じてきた論点——実現性・コスト・機密性・データ整備——を実証的に裏づける。ただし、以下はいずれも企業またはベンダーの公式発表に基づくものであり、自社に有利な情報を含みうる点に留意して読む必要がある。
データ整備の重要性を当事者の言葉で裏づけるのが、パナソニックコネクトの事例である。同社は、社内向けAIアシスタント「ConnectAI」を国内全社員約12,400人に展開し、自社固有の公開情報(ウェブサイト・ウェブページ約3,700ページ、ニュースリリース495ページ、対外向けホームページ3,200ページ)に加え、2024年4月からは社外秘の品質管理文書630件・11,743ページをRAGの参照対象とした。導入1年間で全社員の労働時間を18.6万時間削減したと報告される一方、同社は、自社固有のデータを要する質問には十分に回答できず、自社データの整備が極めて重要であると当事者として明言している[87]。これは、本稿の核心である第4章(非構造化社内データの構造化)と、本章の限界の議論とを直接つなぐ、最も重要な事例である。
機密性に配慮した基盤が実現可能であることを示すのが、トヨタ自動車Advanced R&D and Engineering CompanyのAWS上での事例である。同社は、部門ごとに乱立していたRAGシステムを統合し、セマンティック検索とベクトル検索を組み合わせたハイブリッド検索、クエリ拡張、社内認証システムとの連携、ファイル単位のアクセス制御を備えたセキュアなRAG基盤を構築した。2024年12月時点で11部門・約150ユーザーが利用し、調査時間を約20%、登録済み情報を照会する場面での工数を約50%削減したと報告している[88]。社内認証連携とファイル単位のアクセス制御という機密性配慮の具体策と、定量的な効果の両方を示す好例である。
Naive RAGを超える実装の現場適用としては、パナソニックコネクトの観察駆動型AIエージェントがある。これは、RAGの参照先に文章ではなくナレッジグラフを用い、観察・行動・反省の3段階を反復することで回答精度を高める技術であり、その成果は自然言語処理のトップ国際会議ACL 2024に採択された[89]。第3章で述べたGraphRAGと、第5章で述べたAgentic RAGを組み合わせた現場の動きといえる。同様に富士通のエンタープライズ生成AIフレームワーク「Fujitsu Kozuchi」は、企業データをナレッジグラフで構造化して1,000万トークン規模を参照する「ナレッジグラフ拡張RAG」と、出力が企業規則や法令に準拠するかを検証する「生成AI監査技術」を備え、技術伝承やコンプライアンスの用途を掲げている[90]。これは、機密性・信頼性を担保しながら大量の文書を扱う方向性を示す補助的な事例である。
これらの公式事例は、前掲の産業RAG調査[80]やプライバシー研究[86]といった査読文献の知見と突き合わせて読むべきである。すなわち、公式発表が示す華々しい成果の背後には、データ整備の困難さや機密性のリスクという、査読研究が指摘する課題が依然として存在している。両者を重ね合わせることで、産業適用の実像がより正確に見えてくる。
7. おわりに
7.1 結論
本稿は、「社内の非構造化技術データを活用したいという製造現場の要請に対し、RAGがどこまで応えられるか」という問いを出発点とした。第2章から第6章までの議論を踏まえ、この問いへの回答を要約する。
RAGは、外部知識源を参照することでハルシネーションを抑制し、知識を再学習なしに更新でき、回答の根拠を提示できるという点で、LLM単体に対する明確な優位性を持つ枠組みである。その研究は、Naive RAGからAdvanced RAG・Modular RAG・GraphRAG・Agentic RAGへと体系的に発展し、埋め込み・リランキング・ハイブリッド検索といった要素技術にも支えられて、着実に高度化してきた。本稿が核心とした非構造化データの構造化についても、レイアウト解析・表抽出・図表理解・OCR・マルチモーダルLLM、さらにはページ画像を直接扱う文書RAGに至るまで、多様な技術が出揃っている。イメージセンサ製造業に固有のRAW画像についても、現像によって8bit RGB画像へ変換したうえでマルチモーダルモデルで意味解釈するという二段パイプラインによって、原理的にはRAGの知識源として扱う道筋を描くことができる。さらに、function calling・MCP・Skillsといった基盤の上に、RAGをエージェントのツールとして組み込む運用も技術的に可能になっている。
したがって、RAGはイメージセンサ製造業の非構造化データ活用にとって有望な技術である、というのが本稿の結論である。ただしそれは無条件ではない。産業適用の実態を見れば、多くの実装はなおプロトタイプ段階にあり、検索ノイズによる精度の限界、検索データベースからの機密情報漏洩のリスク、そして評価の自動化の遅れといった現場課題が残されている。とりわけ、データの構造化・整備が品質を左右する主たる課題であることは、査読研究と他社事例の双方が一致して指摘するところである。RAGの有望性は、これらの課題への現実的な対処を前提として初めて実現するものといえる。
7.2 今後の展望
最後に、今後の展望を述べる。第一に、本稿が提案したRAW画像の二段パイプライン(現像とマルチモーダル理解)は、なお筆者の考察の域にとどまっており、イメージセンサ製造業の実データに即した精緻化と検証が求められる。第二に、GraphRAGやAgentic RAGといったNaive RAGを超える手法の現場適用が、他社事例にも見られるように始まりつつあり、これらをマルチモーダルな文書理解と統合していく方向が期待される。マルチモーダル文書RAGの文脈長の壁[43]をどう克服するかは、その鍵となる論点である。第三に、本稿でも繰り返し課題として現れた精度評価について、参照不要の自動評価[85]のような手法を発展させ、産業現場で標準的に運用できる評価基盤を整えることが、RAGの実用化を支えるうえで重要となる。これらの課題に取り組むことが、社内の非構造化技術データをRAGによって真に活用するための道筋を拓くと考える。
参考文献
参考文献には種別(査読付き/preprint/ベンダー公式ドキュメント/業界レポート/標準・三次資料)を併記する。ベンダー公式ドキュメント・標準・三次資料の参照日はいずれも2026年6月19日である。各文献には、その内容を簡潔にまとめた要約を併記する。
[1] McKinsey & Company. The economic potential of generative AI: The next productivity frontier. 業界レポート, 2023. リンク (業界レポート。本体全文は未取得であり、公開要約・第三者報道で確認できた数値のみを用いた。)
McKinsey & Companyによる業界レポートで、生成AIは分析した63のユースケースにわたり年間2.6〜4.4兆ドルの価値を付加し得るとする。この価値の約75%はカスタマーオペレーション、マーケティング・営業、ソフトウェア開発、研究開発の4領域に集中する。
[2] Deloitte. 2025 Smart Manufacturing and Operations Survey. 業界レポート, 2025. リンク (業界調査。)
米国の大手製造企業の経営層600名を対象としたDeloitteの業界調査で、92%が今後3年の競争力の主要因はスマート製造と回答し、導入後は生産量が10〜20%、従業員生産性が7〜20%向上したとする。65%が運用リスクを最優先事項に挙げる。
[3] Samsung Electronics. Samsung Electronics Announces Strategy To Transition Global Manufacturing Into ‘AI-Driven Factories’ by 2030. 公式プレスリリース, 2026年3月. リンク (企業公式発表。将来構想を含む。)
Samsung Electronicsの公式プレスリリースで、2030年までに全製造拠点を「AI駆動型工場」へ移行する戦略を表明したもの。調達物流から品質検査・出荷までの製造バリューチェーン全体にAIを統合し、デジタルツインや専用AIエージェントを配備するとする。
[4] Lewis, P., Perez, E., Piktus, A., et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020. arXiv:2005.11401. 査読付き論文。
事前学習済みseq2seqモデル(パラメトリックメモリ)とDPR検索器が参照するWikipedia密ベクトル索引(非パラメトリックメモリ)を組み合わせ、検索器と生成器をエンドツーエンドで微調整するRetrieval-Augmented Generation(RAG)を提唱した。複数のオープンドメインQAで当時の最高精度を達成し、非パラメトリックメモリの差し替えで知識更新が可能なことも実証した。
[5] Karpukhin, V., Oğuz, B., Min, S., et al. Dense Passage Retrieval for Open-Domain Question Answering. EMNLP 2020. arXiv:2004.04906. 査読付き論文。
質問と文章を二つのBERTエンコーダで密ベクトルに埋め込み、内積類似度を学習するbi-encoder型のDense Passage Retrieval(DPR)を提案した。Top-20検索精度でBM25を9〜19ポイント絶対値で上回り、エンドツーエンドQAでもNatural Questionsで41.5%対33.3%とORQAを上回った。
[6] Ji, Z., Lee, N., Frieske, R., et al. Survey of Hallucination in Natural Language Generation. ACM Computing Surveys, Vol.55, No.12, 2023. DOI:10.1145/3571730(arXiv:2202.03629). 査読付き論文(サーベイ)。
深層学習ベースの自然言語生成におけるハルシネーション問題を網羅的に概観したサーベイで、出力が入力と矛盾する内在的ハルシネーションと、入力から検証不能な外在的ハルシネーションに分類した。データ由来および学習・推論由来という要因の二分類も提示し、タスク別に評価指標・緩和手法を体系化した。
[7] Huang, L., Yu, W., Ma, W., et al. A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. preprint, 2023. arXiv:2311.05232. preprint(未査読)。
LLM時代に適合したハルシネーションの分類体系を提示するサーベイで、実世界の事実との不一致を扱う事実性ハルシネーションと、ユーザ入力・文脈・自己一貫性からの逸脱を扱う忠実性ハルシネーションに大別した。データ・学習・推論の三段階で要因を整理し、緩和策としてのRAGとその限界も論じた。
[8] Lee, K., Chang, M.-W., Toutanova, K. Latent Retrieval for Weakly Supervised Open Domain Question Answering (ORQA). ACL 2019. arXiv:1906.00300. 査読付き論文。
質問・解答の文字列対のみを教師として、検索器と読解器を共同学習する初のOpen-Retrieval QAシステム(ORQA)を提案し、検索器をInverse Cloze Taskで事前学習した。利用者が真に未知の答えを求めるデータセットでは学習型検索が決定的となり、exact matchでBM25を6〜19ポイント上回った。
[9] Guu, K., Lee, K., Tung, Z., Pasupat, P., Chang, M.-W. REALM: Retrieval-Augmented Language Model Pre-Training. ICML 2020. arXiv:2002.08909. 査読付き論文。
言語モデルの事前学習に潜在的な知識検索器を組み込み、大規模テキストコーパスから文書を検索して参照するRetrieval-Augmented Language Model(REALM)を提案した。オープンドメインQAの3ベンチマークで従来手法を4〜16ポイントの絶対精度で上回り、解釈性とモジュール性の利点も示した。
[10] Khandelwal, U., Levy, O., Jurafsky, D., Zettlemoyer, L., Lewis, M. Generalization through Memorization: Nearest Neighbor Language Models. ICLR 2020. arXiv:1911.00172. 査読付き論文。
事前学習済み言語モデルの予測を、k近傍検索の結果と線形補間するkNN-LMを提案した。文脈埋め込みをキー、次トークンを値とするデータストアを構築し、追加学習なしで稀なパターンを明示的に参照できる。WIKITEXT-103でパープレキシティ15.79を達成し、当時の最高性能を更新した。
[11] Izacard, G., Grave, E. Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering (Fusion-in-Decoder). EACL 2021. arXiv:2007.01282. 査読付き論文。
検索した各文章を質問とともにエンコーダで独立処理し、デコーダがそれら全表現の連結にアテンションして回答を生成するFusion-in-Decoder(FiD)を提案した。Natural QuestionsとTriviaQAで最先端を達成し(NQ EM 51.4、TriviaQA EM 67.6)、検索文章数を最大100まで増やすほど性能が向上することを示した。
[12] Izacard, G., Lewis, P., Lomeli, M., et al. Atlas: Few-shot Learning with Retrieval Augmented Language Models. JMLR Vol.24, 2023. arXiv:2208.03299. 査読付き論文。
Contrieverベースの密検索器とFusion-in-Decoder生成器を組み合わせ、事前学習と微調整の双方で検索を用いる検索拡張言語モデルAtlasを提案した。11Bパラメータで、64事例のみを用いてNatural Questionsで42.4%の精度を達成し、50倍多い540BのPaLMを約3ポイント上回った。
[13] Borgeaud, S., Mensch, A., Hoffmann, J., et al. Improving Language Models by Retrieving from Trillions of Tokens (RETRO). ICML 2022. arXiv:2112.04426. 査読付き論文。
先行チャンクと類似する文書チャンクを大規模コーパスから検索し、チャンク化クロスアテンション機構で取り込む検索拡張自己回帰モデルRETRO(Retrieval-Enhanced Transformer)を提案した。2兆トークンのデータベースを用い、25倍少ないパラメータでGPT-3やJurassic-1に匹敵する性能をThe Pileで達成した。
[14] Shi, W., Min, S., Yasunaga, M., Seo, M., James, R., Lewis, M., Zettlemoyer, L., Yih, W.-t. REPLUG: Retrieval-Augmented Black-Box Language Models. NAACL 2024. arXiv:2301.12652. 査読付き論文。
LMをblack-boxのまま凍結し、検索文書を入力に前置するだけの検索拡張枠組みREPLUGを提案し、LMの予測を教師信号として検索器を微調整するREPLUG LSRも示した。調整済み検索器により、GPT-3(175B)の言語モデリングを6.3%、CodexのMMLUを4.5%改善した。
[15] Ram, O., Levine, Y., Dalmedigos, I., Muhlgay, D., Shashua, A., Leyton-Brown, K., Shoham, Y. In-Context Retrieval-Augmented Language Models. TACL Vol.11, 2023. arXiv:2302.00083. 査読付き論文。
LMアーキテクチャを一切変更せず、検索文書を入力プレフィクスの前に連結するだけのIn-Context RALMを提案した。既製の汎用LMと検索器を組み合わせて使え、検証した全コーパスでパラメータ数を2〜3倍に増やすのに相当する言語モデリングの改善を達成した。
[16] Gao, Y., Xiong, Y., Gao, X., et al. Retrieval-Augmented Generation for Large Language Models: A Survey. preprint, 2023/2024. arXiv:2312.10997. preprint(広く引用される中核サーベイ)。
100本超のRAG研究を調査し、その発展をNaive RAG・Advanced RAG・Modular RAGの3パラダイムに体系化したサーベイ。各段階をRetrieval・Generation・Augmentationの3要素から分析し、RAGとFine-tuningの比較ではRAGが教師なしFine-tuningを一貫して上回ると報告する。
[17] Gao, Y., Xiong, Y., Wang, M., Wang, H. Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks. preprint, 2024. arXiv:2407.21059. preprint(未査読)。
複雑化するRAGシステムを独立したモジュールと専用オペレータへ分解し、LEGOのように再構成可能とするModular RAGフレームワークを提案。従来の線形構造を超えてルーティング・スケジューリング・フュージョン機構を統合し、線形・条件分岐・分岐・ループといった一般的なRAGパターンを識別する。
[18] Asai, A., Wu, Z., Wang, Y., Sil, A., Hajishirzi, H. Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection. ICLR 2024. arXiv:2310.11511. 査読付き論文。
単一のLMをend-to-endで訓練し、検索の要否や検索文章の関連性・支持度・出力品質を評価する「reflectionトークン」を生成させるSelf-RAGを提案。7B・13BモデルがOpen-domain QA・推論・事実検証でChatGPTや検索拡張Llama2-chatを有意に上回り、長文生成の事実性と引用精度を大幅に改善した。
[19] Yan, S.-Q., Gu, J.-C., Zhu, Y., Ling, Z.-H. Corrective Retrieval Augmented Generation (CRAG). preprint, 2024. arXiv:2401.15884. preprint(未査読)。
軽量な検索評価器が検索文書の品質を評価し、その信頼度に応じてCorrect・Incorrect・Ambiguousの異なる知識取得アクションをトリガするCorrective RAG(CRAG)を提案。Web検索の統合とdecompose-then-recomposeによる情報抽出を備え、4データセットで標準RAGおよびSelf-RAGを有意に改善した。
[20] Peng, B., Zhu, Y., Liu, Y., et al. Graph Retrieval-Augmented Generation: A Survey. preprint, 2024. arXiv:2408.08921. preprint(未査読)。
GraphRAGに関する初の体系的サーベイで、ワークフローをGraph-Based Indexing・Graph-Guided Retrieval・Graph-Enhanced Generationの3段階に形式化する。意味的類似度のみでは捉えられないエンティティ間の構造的・関係的知識を扱うため、各段階のモデル選択・手法設計・強化戦略を分析する。
[21] Edge, D., Trinh, H., Cheng, N., et al. From Local to Global: A Graph RAG Approach to Query-Focused Summarization (Microsoft GraphRAG). preprint, 2024. arXiv:2404.16130. preprint(未査読)。
LLMでソース文書からエンティティ知識グラフを構築し、関連エンティティ群(コミュニティ)ごとに要約を事前生成して、map-reduce方式でグローバルな問いに答えるMicrosoft GraphRAGを提案。100万トークン規模のデータでのsensemaking質問において、GPT-4使用時に従来のvector RAGを回答の包括性と多様性の両面で大幅に上回った。
[22] Sarthi, P., Abdullah, S., Tuli, A., Khanna, S., Goldie, A., Manning, C. D. RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval. ICLR 2024. arXiv:2401.18059. 査読付き論文。
チャンクを埋め込み・クラスタリング・要約する操作を再帰的に繰り返し、抽象度の異なる要約をボトムアップに積み上げた木構造を構築するRAPTORを提案。推論時に木の複数階層から検索することで文書全体を俯瞰でき、QuALITYベンチマークでRAPTOR+GPT-4が最高性能を絶対精度で20%改善した。
[23] Jiang, Z., Xu, F. F., Gao, L., Sun, Z., Liu, Q., Dwivedi-Yu, J., Yang, Y., Callan, J., Neubig, G. Active Retrieval Augmented Generation (FLARE). EMNLP 2023. arXiv:2305.06983. 査読付き論文。
生成過程で「いつ・何を検索するか」を能動的に決める能動的検索拡張生成を一般化し、その具体手法FLAREを提案。次に来る文を仮生成して先読みし、確信度の低いトークンを含む場合に当該文をクエリとして検索し直す反復を行い、4つの長文・知識集約型生成タスクで全タスク優越または競合する性能を達成した。
[24] Trivedi, H., Balasubramanian, N., Khot, T., Sabharwal, A. Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions (IRCoT). ACL 2023. arXiv:2212.10509. 査読付き論文。
検索とCoT(連鎖的思考)の各ステップを交互に織り込み、CoTで検索を誘導し検索結果でCoTを改善する反復を行うIRCoTを提案。GPT-3でのIRCoTは4つの多段QAデータセットで検索を最大21ポイント、下流QAを最大15ポイント改善し、ハルシネーションを低減した。
[25] Singh, A., Ehtesham, A., Kumar, S., Talaei Khoei, T. Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG. preprint, 2025. arXiv:2501.09136. preprint(未査読)。
自律的AIエージェントをRAGパイプラインに組み込むAgentic RAGを分析的に概観するサーベイ。リフレクション・プランニング・ツール使用・マルチエージェント協調といった設計パターンと各種ワークフローパターンを整理し、エージェント数・制御構造・自律性・知識表現に基づく原理的な分類体系を提示する。
[26] Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs. preprint, 2025. arXiv:2507.09477. preprint(未査読)。
検索と推論を統一的な視点で整理したサーベイで、Reasoning-Enhanced RAG・RAG-Enhanced Reasoning・両者を反復的に協調させるSynergized RAG-Reasoning(agentic)の3類型に手法・データセット・課題を分類するtaxonomyを提示する。検索と推論を反復協調させる発展方向を論じる。
[27] Reimers, N., Gurevych, I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. EMNLP-IJCNLP 2019. arXiv:1908.10084. 査読付き論文。
siameseおよびtriplet構造でBERT/RoBERTaをファインチューニングし、プーリングで固定長の文埋め込みを生成してcosine類似度で比較可能にするSentence-BERTを提案。1万文の最類似ペア探索を約65時間から約5秒へ短縮し、7つのSTSタスクの平均でInferSentを11.7ポイント上回る。
[28] Wang, L., Yang, N., Huang, X., et al. Text Embeddings by Weakly-Supervised Contrastive Pre-training (E5). preprint, 2022. arXiv:2212.03533. preprint(未査読)。
一貫性ベースのフィルタで精選した大規模テキストペア(CCPairs)を用い、in-batch negativesによる弱教師あり対照事前学習で汎用埋め込みE5を学習する。BEIRやMTEBを含む56データセットで評価し、ゼロショット設定でラベルなしのままBM25を上回る初のモデルとなった。
[29] Xiao, S., Liu, Z., Zhang, P., Muennighoff, N., et al. C-Pack: Packed Resources For General Chinese Embeddings (BGE). SIGIR 2024. arXiv:2309.07597. 査読付き論文。
中国語汎用埋め込みのための資源パッケージC-Pack(評価ベンチマークC-MTEB、大規模学習データC-MTP、埋め込みモデル群BGE、三段階学習レシピ)を整備・公開する。BGEはC-MTEB上で公開時点の既存中国語埋め込みを10%超上回り、small・base・largeの3サイズを提供する。
[30] Malkov, Yu. A., Yashunin, D. A. Efficient and Robust Approximate Nearest Neighbor Search Using Hierarchical Navigable Small World Graphs (HNSW). IEEE TPAMI, Vol.42, No.4, 2020. arXiv:1603.09320. 査読付き論文。
要素を指数減衰する確率分布で各層に配置し、特性距離スケールごとにリンクを分離した多層の近接グラフを漸進的に構築する近似最近傍探索HNSWを提案。上位層から探索することで対数的な計算量スケーリングを実現し、公開時点のベクトル専用最先端手法を速度-recallのトレードオフで大きく上回る。
[31] Khattab, O., Zaharia, M. ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT. SIGIR 2020. arXiv:2004.12832. 査読付き論文。
クエリと文書を独立に文脈化埋め込み群へ符号化し、MaxSimによる安価なlate interactionで関連度を推定するColBERTを提案。BERTベース手法と競合する有効性を保ちつつ、再ランク用途で170倍超の高速化とFLOPsの4桁削減を達成した。
[32] Nogueira, R., Jiang, Z., Pradeep, R., Lin, J. Document Ranking with a Pretrained Sequence-to-Sequence Model (monoT5). Findings of EMNLP 2020. arXiv:2003.06713. 査読付き論文。
系列変換モデルT5を再ランカに適応し、クエリと文書から「true/false」を生成させそのロジットの確率で並べ替える生成的リランキングmonoT5を提案。MS MARCOでMRR@10が.383とBERT-large(.372)を上回り、学習データが希少な状況での優位も示した。
[33] Robertson, S., Zaragoza, H. The Probabilistic Relevance Framework: BM25 and Beyond. Foundations and Trends in Information Retrieval, Vol.3, No.4, 2009. DOI:10.1561/1500000019. 査読付き論文。
情報検索における関連性を確率的に推定し関連確率の降順で文書をランク付けする確率的関連性フレームワークを体系化し、二値独立モデルや適合性フィードバックから導かれる用語重み付け関数BM25およびBM25Fを統一的に提示する解説論文。ハイブリッド検索のスパース側の正典である。
[34] Cormack, G. V., Clarke, C. L. A., Büttcher, S. Reciprocal Rank Fusion Outperforms Condorcet and Individual Rank Learning Methods (RRF). SIGIR 2009, pp.758–759. DOI:10.1145/1571941.1572114. 査読付き論文。
各文書について各ランキングの順位rの逆数1/(k+r)を全システムにわたり総和してスコアとするReciprocal Rank Fusion(RRF)を提案。順位のみで学習例なしに融合でき、TREC各タスクで最良の個別システムやCombMNZ等を平均4〜5%上回った(k=60が最適)。
[35] Gao, L., Ma, X., Lin, J., Callan, J. Precise Zero-Shot Dense Retrieval without Relevance Labels (HyDE). ACL 2023. arXiv:2212.10496. 査読付き論文。
指示追従型LLMにクエリへの回答となる仮説文書を生成させ、それを教師なしエンコーダで埋め込んで実在文書の近傍を検索するHyDEを提案。ラベル不要のゼロショットで、TREC DL19のnDCG@10が61.3とContriever(44.5)やBM25(50.6)を大きく上回った。
[36] Chen, T., Wang, H., Chen, S., et al. Dense X Retrieval: What Retrieval Granularity Should We Use? EMNLP 2024. arXiv:2312.06648. 査読付き論文。
自己完結した最小の事実単位である「命題」を新たな検索単位として提案し、英語Wikipediaを3粒度に分割したFactoidWikiを構築。命題単位の検索は教師なし検索器のRecall@5を平均で+9〜12ポイント改善し、下流QAのEM@500も向上させた。
[37] Duarte, A. V., Marques, J., Graça, M., et al. LumberChunker: Long-Form Narrative Document Segmentation. Findings of EMNLP 2024. arXiv:2406.17526. 査読付き論文。
LLMに内容の転換点を判断させて可変長で文書を分割する動的チャンキングLumberChunkerを提案。検索性能(DCG@20)で最も競争力のあるベースラインを7.37%上回り、RAGパイプラインに統合した場合も他のチャンキング手法やGemini 1.5 Proより効果的であった。
[38] Günther, M., Mohr, I., Williams, D. J., Wang, B., Xiao, H. Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models. preprint, 2024. arXiv:2409.04701. preprint(未査読)。
チャンクへ分割してから埋め込むのではなく、長文脈埋め込みモデルで文書全体を先に埋め込んだ後にチャンク単位でプーリングするlate chunkingを提案。各チャンク埋め込みが文書全体の文脈を保持でき、nDCG@10をナイーブ分割に対し相対2.7〜3.6%改善した。
[39] Qu, R., Tu, R., Bao, F. S. Is Semantic Chunking Worth the Computational Cost? Findings of NAACL 2025. arXiv:2410.13070. 査読付き論文。
意味的チャンキングが追加の計算コストに見合う性能向上を一貫して得られるかを、文書検索・エビデンス検索・回答生成の3代理タスクで大規模に検証。利得は場面に強く依存して一貫せず追加コストに見合わないことが多いと結論づけ、高度なチャンキングの費用対効果に対する反証を与える。
[40] Li, Z., Li, C., Zhang, M., Mei, Q., Bendersky, M. Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach. EMNLP 2024 (Industry Track). arXiv:2407.16833. 査読付き論文。
最新LLMを用いてRAGとロングコンテキスト(LC)を体系的に比較し、まずRAGで安価に処理しRAGが自信を持てないクエリのみLCへ回すハイブリッド方式Self-Routeを提案。LCがほぼ全設定でRAGを上回る一方、Self-RouteはLCと同等性能を大幅に低いコストで達成した。
[41] Yu, T., Xu, A., Akkiraju, R. In Defense of RAG in the Era of Long-Context Language Models. preprint, 2024. arXiv:2409.01666. preprint(未査読)。
検索したチャンクを関連度順ではなく元の文書中の出現順序を保って並べる順序保持型RAG(OP-RAG)を提案。取得チャンク数に対し回答品質が逆U字を描き、長文脈LLMが全文脈を入力する方式よりはるかに少ないトークン数で高い回答品質を達成することを示した。
[42] Mathew, M., Karatzas, D., Jawahar, C. V. DocVQA: A Dataset for VQA on Document Images. WACV 2021. arXiv:2007.00398. 査読付き論文。
実産業文書から、レイアウト・表・フォーム・図といった構造を解釈しなければ答えられない抽出型QAデータセットDocVQAを構築。12,767枚の文書画像に対し50,000問を備え、既存モデルと人間性能(94.36%精度)の間に大きな差が残ることを示した。
[43] Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding. preprint, 2025. arXiv:2510.15253. preprint(未査読)。
文書理解向けマルチモーダルRAGの初の体系的サーベイで、ドメイン・検索モダリティ・粒度・グラフ統合・agentic拡張の観点で手法を分類する。代表的な文書RAGベンチマークは20〜200Mのvisual tokensを要し既存MLLMの文脈長を大きく超えること、論文数が2024年から急増したことを整理する。
[44] Xu, Y., Li, M., Cui, L., Huang, S., Wei, F., Zhou, M. LayoutLM: Pre-training of Text and Layout for Document Image Understanding. KDD 2020. arXiv:1912.13318. 査読付き論文。
テキストとレイアウト(2次元位置埋め込み)を単一フレームワークで同時事前学習する初のモデルLayoutLMを提案。フォーム理解(FUNSD)を70.72から79.27へ、文書画像分類(RVL-CDIP)を93.07から94.42へ向上させ、複数の文書理解タスクで新SOTAを達成した。
[45] Xu, Y., Xu, Y., Lv, T., Cui, L., Wei, F., et al. LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding. ACL-IJCNLP 2021. arXiv:2012.14740. 査読付き論文。
テキスト・視覚・レイアウトを事前学習段階からマルチモーダルTransformerで統合し、Text-Image AlignmentやMatchingの新タスクと空間認識自己注意機構を導入したLayoutLMv2を提案。FUNSDやDocVQA(0.7295→0.8672)など6タスクで初代を上回りSOTAを達成した。
[46] Huang, Y., Lv, T., Cui, L., Lu, Y., Wei, F. LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking. ACM MM 2022. arXiv:2204.08387. 査読付き論文。
テキストと画像を統一的なマスキング(MLM+MIM)で事前学習し、Word-Patch Alignmentでクロスモーダル整合を学習する、CNNに依存しない初の文書AIマルチモーダルモデル。FUNSDでF1=92.08、PubLayNetのレイアウト解析でmAP95.1を達成し、テキスト中心・画像中心の双方でSOTAを示した。
[47] Kim, G., Hong, T., Yim, M., et al. OCR-free Document Understanding Transformer (Donut). ECCV 2022. arXiv:2111.15664. 査読付き論文。
OCRを介さずraw画像から直接構造化出力を生成するend-to-end Transformer(Swin Transformerエンコーダ+BARTデコーダ)。OCR依存手法を精度・速度・メモリで上回ってSOTAを達成し、OCRが不安定な非構造化データを扱う有力なアプローチを示した。
[48] Appalaraju, S., Jasani, B., Urala Kota, B., Xie, Y., Manmatha, R. DocFormer: End-to-End Transformer for Document Understanding. ICCV 2021. arXiv:2106.11539. 査読付き論文。
空間埋め込みをモダリティ間で共有する新たなマルチモーダル自己注意層を備えたエンコーダのみのTransformerで、物体検出器やカスタムOCRに依存せず視覚・テキスト・空間の3モダリティを融合する文書理解モデル。4つのデータセットでSOTAを達成し、一部では約4倍規模のモデルをも上回った。
[49] Blecher, L., Cucurull, G., Scialom, T., Stojnic, R. Nougat: Neural Optical Understanding for Academic Documents. preprint, 2023. arXiv:2308.13418. preprint(未査読)。
文書ページ画像を軽量マークアップ(Markdown)へ変換するVisual Transformer(Swin Transformerエンコーダ+mBARTデコーダ)。arXiv論文から構築したデータで350Mパラメータモデルを学習し、数式を含む科学文書を構造化テキストへ変換できることを実証した。
[50] Li, M., Cui, L., Huang, S., Wei, F., Zhou, M., Li, Z. TableBank: Table Benchmark for Image-based Table Detection and Recognition. LREC 2020. arXiv:1903.01949. 査読付き論文。
WordおよびLaTeX文書のソースコードに弱教師としてマークアップを自動付与し構築した大規模表データセット。417,234枚のラベル付き表を収録し、ICDAR2013でF1=0.9625を達成して、ドメイン横断学習が表検出・認識の汎化に寄与することを示した。
[51] Zhong, X., ShafieiBavani, E., Jimeno Yepes, A. Image-based Table Recognition: Data, Model, and Evaluation (PubTabNet / EDD). ECCV 2020. arXiv:1911.10683. 査読付き論文。
PubMed Central由来の最大級の公開表認識データセットPubTabNet(約568k枚、HTML表現付き)を公開し、構造デコーダとセルデコーダから成るEncoder-Dual-Decoder(EDD)と木編集距離ベースの評価指標TEDSを提案。EDDはSOTAをTEDSで絶対9.7%上回った。
[52] Nassar, A., Livathinos, N., Lysak, M., Staar, P. TableFormer: Table Structure Understanding with Transformers. CVPR 2022. arXiv:2203.01017. 査読付き論文。
表構造とセルのバウンディングボックスを同時にend-to-endで予測するTransformerベースのモデルで、カスタムOCRの学習を回避し言語非依存で非英語の表にも対応する。TEDSで単純表を98.5%、複雑表を95%へと改善し従来SOTAを上回った。
[53] Smock, B., Pesala, R., Abraham, R. PubTables-1M: Towards Comprehensive Table Extraction From Unstructured Documents. CVPR 2022. arXiv:2110.00061. 査読付き論文。
PMCOAから構築した約100万表(948K表)の大規模データセットPubTables-1Mを提案し、表検出・構造認識・機能解析の3タスクを網羅して空セルを含む全行・列・セルを注釈する。過分割を修正する正準化手順を導入し、DETRを3タスクへ初適用してその有効性を実証した。
[54] Masry, A., Do, X. L., Tan, J. Q., Joty, S., Hoque, E. ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning. Findings of ACL 2022. arXiv:2203.10244. 査読付き論文。
棒・折れ線・円グラフへの質問応答で視覚的・論理的な複合推論を扱う大規模ベンチマークで、実世界4ソースから20,882枚のグラフに対し計32,719問を構築。視覚特徴とグラフから抽出した構造化データ表を統合するTransformerベースのQAモデルを提案した。
[55] Liu, F., Eisenschlos, J. M., Piccinno, F., et al. DePlot: One-shot Visual Language Reasoning by Plot-to-Table Translation. Findings of ACL 2023. arXiv:2212.10505. 査読付き論文。
視覚言語推論をプロット→表変換と変換済み表へのLLM推論の2段に分解し、プロットを線形化表へ変換するモジュールDePlotを提案して既存LLMにプラグアンドプレイ接続する。ワンショットで、数千点で微調整した当時のSOTAに対し人手作成質問で29.4%の改善を達成した。
[56] Liu, F., Piccinno, F., Krichene, S., et al. MatCha: Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering. ACL 2023. arXiv:2212.09662. 査読付き論文。
Pix2Structを起点に、グラフ脱レンダリングと数学的推論の2系統の事前学習タスクを導入して視覚言語事前学習を強化する手法。ChartQAとPlotQAで元データ表へのアクセスを仮定したSOTAをも上回り、データ表なしの従来SOTAを最大約20%上回った。
[57] Smith, R. An Overview of the Tesseract OCR Engine. ICDAR 2007, pp.629–633. DOI:10.1109/ICDAR.2007.4376991. 査読付き論文。
連結成分解析を起点とする段階的パイプライン(行発見、ベースライン整合、文字分割、2パス認識と適応分類器)を採用したOCRエンジン。UNLV第4回OCR精度試験で旧版比に総合文字誤り率を-7.31%、語誤り率を-5.39%改善し、非構造化文書からのテキスト抽出の基盤技術となった。
[58] OpenAI. GPT-4V(ision) System Card. ベンダー技術レポート, 2023. リンク (非査読)。
画像入力を扱えるGPT-4Vの展開にあたり、幻覚・人物同定・ジェイルブレイク等のマルチモーダル特有の安全性・限界を評価・緩和したシステムカード。人物同定要求を内部評価で98%超拒否し、画像ジェイルブレイク拒否率を拒否システム併用で100%へ到達させた一方、専門文書の読取と近接テキストの誤結合のような限界も報告した。
[59] Liu, H., Li, C., Wu, Q., Lee, Y. J. Visual Instruction Tuning (LLaVA). NeurIPS 2023. arXiv:2304.08485. 査読付き論文。
言語のみのGPT-4で生成したマルチモーダル指示追従データ(計158K件)を用い、CLIPの視覚エンコーダとVicunaを線形射影で接続してend-to-endに学習したマルチモーダルLLM。合成データでGPT-4比の相対スコア85.1%を示し、Science QAでGPT-4併用により92.53%の新SOTA精度を達成した。
[60] Bai, J., Bai, S., Yang, S., et al. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond. preprint, 2023. arXiv:2308.12966. preprint(未査読)。
Qwen-7Bを基盤にViT視覚エンコーダと画像特徴を固定長256へ圧縮する位置認識型クロスアテンション・アダプタを導入し、3段の訓練と多言語多モーダルコーパスで学習した計9.6Bの視覚言語モデル。グラウンディングとテキスト読取能力を備え、ChartQAやTextVQA等の幅広いベンチマークで同規模の汎用VL SOTAを更新した。
[61] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., et al. Learning Transferable Visual Models From Natural Language Supervision (CLIP). ICML 2021. arXiv:2103.00020. 査読付き論文。
国際標準ISO 12234-4:2026は、AdobeのDNG(Digital Negative)形式をRAW画像保存の標準ファイル形式として規定し、2026年3月に発行された。未処理のセンサデータを保持し撮影後のホワイトバランスやトーンマッピング調整を可能にする点を特徴とし、本稿ではRAW画像を非構造化データの代表例として扱う一次的技術出典に用いる。
[62] Faysse, M., Sibille, H., Wu, T., et al. ColPali: Efficient Document Retrieval with Vision Language Models. ICLR 2025. arXiv:2407.01449. 査読付き論文。
RAW画像形式を概説する三次資料で、RAWファイルがカラーフィルタアレイ(通常Bayerフィルタ)を通した未処理のモザイク状センサデータを高ビット深度(通常12または14ビット)で保存し、デモザイクやホワイトバランス等の処理を後段に委ねて調整自由度を最大化する仕組みを説明する。本稿ではRAW画像・センサフォーマットの背景説明に補助的に用いる。
[63] ISO. ISO 12234-4:2026 — Digital imaging — Image storage — Part 4: Digital negative format. 国際標準, 2026年3月. リンク (有料標準。本文はカタログ情報の範囲で参照。)
国際標準ISO 12234-4:2026は、AdobeのDNG(Digital Negative)形式をRAW画像の生成・処理・管理・アーカイブのための標準ファイル形式として規定し、2026年3月に発行された。RAW形式が未処理のセンサデータを保持し撮影後の調整を可能にする点を強調し、本稿ではRAW画像(DNG)を非構造化データの代表例として扱う一次出典に用いる。
[64] Wikipedia contributors. Raw image format. 三次資料. リンク (非査読の三次資料。背景説明に限定して使用。)
RAW画像形式を概説する三次資料で、RAWファイルがカラーフィルタアレイ(通常Bayerフィルタ)を通した未処理のモザイク状センサデータを高ビット深度(通常12または14ビット)で保存し、処理を意図的に後段へ委ねてホワイトバランスやトーンマッピング等の調整自由度を最大化する仕組みを説明する。本稿ではセンサフォーマットの背景説明に補助的に用いる。
[65] Ignatov, A., Van Gool, L., Timofte, R. Replacing Mobile Camera ISP with a Single Deep Learning Model (PyNET). CVPRW 2020. arXiv:2002.05509. 査読付き論文。
PyNETは、センサや光学系の事前知識なしにRAW BayerデータをRGB画像へ直接変換する逆ピラミッド型CNNで、デモザイク・色補正・ノイズ除去等のISP工程を単一のエンドツーエンドモデルで一括学習する。Zurich RAW to RGBデータセットでPSNR21.19・MS-SSIM0.8620を達成し、ユーザ評価ではHuawei P20の内蔵ISP(MOS 2.56)を上回る2.77を得た。
[66] Chen, C., Chen, Q., Xu, J., Koltun, V. Learning to See in the Dark. CVPR 2018. arXiv:1805.01934. 査読付き論文。
Learning to See in the Darkは、極端な低照度のRAW短露光画像を直接入力とし、増幅率を外部パラメータとして与えるエンドツーエンドの全層畳み込みネットワーク(U-Net)で従来のISPパイプライン全体を置き換える。Sony・Fujifilmで撮影した5094枚のRAW画像から成るSIDデータセットを構築し、SonyでPSNR28.88・SSIM0.787を達成、知覚評価ではBM3Dに対し92.4%の支持を得た。
[67] Unstructured Technologies. Unstructured(オープンソース文書ETLライブラリ). OSS公式ドキュメント. リンク (非査読)。
Unstructuredは、PDF・HTML・Word・画像など25種類以上の文書フォーマットを取り込み、LLM向けに整形・構造化するオープンソースの文書前処理ツールキットである。文書を構造化要素へ変換するパーティショニング、クリーニング、情報抽出、セマンティックチャンキングを提供し、本稿では非構造化データをRAG向けに整える実務工程の具体例として引用する。
[68] Amazon Web Services. Amazon Textract. ベンダー公式ドキュメント. リンク (非査読)。
Amazon Textractは、機械学習の専門知識なしに画像やPDFからテキスト・表・フォームを抽出できるAWSのマネージドサービスである。活字・手書き文字のOCR検出に加え、表・フォーム抽出、Queriesによる指定情報抽出、請求書・領収書を扱うAnalyzeExpense、本人確認書類のAnalyzeID等を備え、本稿では非構造化文書を構造化する実践的サービスの例として引用する。
[69] Amazon Web Services. Amazon Bedrock Knowledge Bases. ベンダー公式ドキュメント. リンク (非査読)。
Amazon Bedrock Knowledge Basesは、独自データを生成AIアプリケーションに統合し、RAGによって応答の関連性と正確性を高めるAWSのマネージドRAG基盤である。取り込み・埋め込み・インデックス化・検索を管理するManaged型と自前管理のSelf-managed型を提供し、文書種別ごとの自動パース、マルチホップ推論、引用付き応答、リランキングに対応する。本稿では取り込みから検索・生成までを統合する実例として引用する。
[70] Microsoft. Azure AI Document Intelligence. ベンダー公式ドキュメント. リンク (非査読)。
Azure AI Document Intelligence(旧Form Recognizer)は、フォームや文書から重要データの抽出を自動化する、機械学習ベースのOCR・インテリジェント文書処理を行うMicrosoft Azureのクラウドサービスである。印刷・手書き文字のReadモデル、テキスト・表・構造のLayoutモデル、請求書等の多数のPrebuiltモデル、独自学習のCustomモデルを備え、本稿ではTextractと並ぶクラウド文書処理の比較対象として引用する。
[71] Microsoft. Azure AI Search — Vector search overview. ベンダー公式ドキュメント. リンク (非査読)。
Azure AI Searchのベクトル検索は、コンテンツの埋め込みベクトルに対するインデックス化とクエリを支援し、意味的類似や多言語・複数コンテンツ種別をまたいだマッチングを可能にする情報検索アプローチである。類似検索に加え、ベクトル検索とキーワード検索を同一リクエストで行うハイブリッド検索やマルチモーダル検索を提供し、本稿ではRAGの検索層を担うベクトル検索基盤の実例として引用する。
[72] Microsoft. Azure AI Search — Integrated vectorization. ベンダー公式ドキュメント. リンク (非査読)。
Azure AI Searchの統合ベクトル化は、インデックス作成・クエリのパイプラインを拡張し、取り込み時とクエリ時に自動でベクトル化を行う機能である。インデクサ駆動の取り込み時にText Split skillによるチャンク化とAzureOpenAIEmbedding skillによる埋め込み生成を一括実行し、クエリ時には検索文字列を自動でベクトル化する。本稿では取り込み時の自動ベクトル化による省力化の実例として引用する。
[73] Google. Google Cloud Document AI. ベンダー公式ドキュメント. リンク (非査読)。
Google Cloud Document AIは、文書中の非構造化データをデータベースに適した構造化データへ変換するGoogle Cloudの文書処理プラットフォームである。OCRと画質判定・傾き補正を行うDigitize、フォームや表の値抽出・正規化を行うExtract(Form Parser・Layout Parser等)、文書種別の分類・分割を行うClassifyの各プロセッサを提供し、本稿ではTextractやDocument Intelligenceと並ぶ比較対象として引用する。
[74] Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., Cao, Y. ReAct: Synergizing Reasoning and Acting in Language Models. ICLR 2023. arXiv:2210.03629. 査読付き論文。
ReActは、推論トレースとタスク固有の行動を交互に生成し、推論で行動計画を誘導・更新しつつ行動でWikipedia等の外部情報源と相互作用して知識を取り込むパラダイムである。HotpotQAやFeverで幻覚を抑制し、対話的意思決定のALFWorldとWebShopではわずか1〜2個のin-context例で成功率を絶対値でそれぞれ34%・10%上回った。
[75] Schick, T., Dwivedi-Yu, J., Dessì, R., et al. Toolformer: Language Models Can Teach Themselves to Use Tools. NeurIPS 2023. arXiv:2302.04761. 査読付き論文。
Toolformerは、どのAPIをいつ・どんな引数で呼び結果をどう取り込むかを自己教師あり学習で習得するLLMで、APIコール候補をサンプリングし次トークン予測の損失を実際に減らすコールのみを保持してファインチューニングする。6.7BのGPT-Jベースでゼロショット性能が大幅に向上し、しばしばGPT-3(175B)に匹敵、LAMAでは最大18.6ポイント改善した。
[76] Wang, L., Ma, C., Feng, X., et al. A Survey on Large Language Model based Autonomous Agents. Frontiers of Computer Science, 2023. arXiv:2308.11432. 査読付き論文(サーベイ)。
LLMベースの自律エージェント研究を構築・応用・評価の3軸で包括的に整理したサーベイで、プロファイル・記憶・計画・行動の4モジュールから成る統一フレームワークを提案する。エージェントを構成する要素と応用範囲を俯瞰する出典として用いる。
[77] Anthropic. Tool use with Claude — Overview. ベンダー公式ドキュメント, 2024–2025. リンク (非査読)。
Anthropicのツール利用(function calling)機能の公式解説で、Claudeが要求とツール記述に基づいて呼び出しを判断し、クライアントツールとサーバツール(web_searchやcode_execution等)を使い分ける仕組みを示す。tool_useブロックの返却とtool_result送信によるエージェントループを構成する。
[78] Anthropic. Introducing the Model Context Protocol (MCP). ベンダー公式ドキュメント, 2024年11月. リンク (仕様: リンク )(非査読)。
Anthropicが公開したオープン標準Model Context Protocol(MCP)の公式解説で、AIアシスタントとデータソースを安全に接続し、断片化した個別連携を単一プロトコルへ置き換えることを目指す。プロトコル仕様・SDKに加え、Google DriveやSlack、GitHub、PostgreSQL等向けのプリビルトコネクタを提供する。
[79] Anthropic. Agent Skills — Overview. ベンダー公式ドキュメント, 2025年10月. リンク (非査読)。
Anthropicが提供するモジュール型のAgent Skills機能の公式解説で、指示・メタデータ・任意のスクリプトやテンプレートをパッケージ化し、関連する場面でClaudeが自動的に用いる仕組みを示す。メタデータから本文指示へ段階的に読み込むプログレッシブディスクロージャを採用し、ドメイン知識をエージェントへ与える手段となる。
[80] Brehme, L., Dornauer, B., Ströhle, T., Ehrhart, M., Breu, R. Retrieval-Augmented Generation in Industry: An Interview Study on Use Cases, Requirements, Challenges, and Evaluation. KDIR 2025. arXiv:2508.14066. 査読付き論文(会議)。
13名の産業実務者への半構造化インタビューからRAGの実践的導入(ユースケース・要件・課題・評価)を分析した査読付き研究で、実装の大半はQAタスクであり13件中12件がプロトタイプ段階にとどまる。要件としてプライバシー/データ保護が8.9と最重視される一方、評価はほぼ人手で行われ自動化は2件のみであった。
[81] Chen, L.-C., Pardeshi, M. S., Liao, Y.-X., Pai, K.-C. Application of retrieval-augmented generation for interactive industrial knowledge management via a large language model. Computer Standards & Interfaces, Vol.94, 103995, 2025. DOI:10.1016/j.csi.2025.103995. 査読付き論文(ジャーナル)。
産業ドメイン固有の非構造化文書を対象とする対話型ナレッジ管理向けに、BM25と埋め込みを併用してtop-kチャンクを取得しBAAIリランカで再順位付けしGPT-3.5 Turboで生成するカスタムRAGシステムを設計・実装した事例である。社内規程文書ではrecall91.62%・MRR97.97%・mAP91.12%を達成した。
[82] Heredia Álvaro, J. A., González Barreda, J. An advanced retrieval-augmented generation system for manufacturing quality control. Advanced Engineering Informatics, Vol.64, 103007, 2025(オンライン公開・DOIは2024年). DOI:10.1016/j.aei.2024.103007. 査読付き論文(ジャーナル)。
セラミックタイル製造の品質管理を題材に、前処理・索引・検索・後検索・生成からなる先進RAGを構築し、bi-encoderによる検索、cross-encoderによるリランク、gpt-3.5-turbo-instructによる生成で欠陥カタログと学術論文を知識源とする。検索でF1スコア85.81%、生成でROUGE-L平均0.61を達成し、一般のGPT-4より高精度であった。
[83] Zhang, T., Patil, S. G., Jain, N., Shen, S., Zaharia, M., Stoica, I., Gonzalez, J. E. RAFT: Adapting Language Model to Domain Specific RAG. COLM 2024. arXiv:2403.10131. 査読付き論文。
RAGとファインチューニングを折衷したRetrieval Augmented Fine-Tuning(RAFT)を提案し、正解に役立つ文書と無関係なdistractorを混在させて与え、distractorを無視しつつ関連文書を逐語引用してchain-of-thoughtで推論するようモデルを微調整する。PubMed・HotpotQA・GorillaでドメインFTやRAG単独に対し一貫して性能を改善した。
[84] Chen, J., Lin, H., Han, X., Sun, L. Benchmarking Large Language Models in Retrieval-Augmented Generation (RGB). AAAI 2024, Vol.38 No.16, pp.17754–17762. arXiv:2309.01431. 査読付き論文。
RAGに必要な4つの基礎能力——ノイズ耐性・否定的棄却・情報統合・反事実頑健性——を測る英中ベンチマークRGBを構築し、6種のLLMを評価する。ノイズ比0.8でChatGPTの精度は96.33%から76.00%へ低下し、否定的棄却率は最高でも英語45%にとどまるなど、RAG適用時の能力ボトルネックを定量化した。
[85] Es, S., James, J., Espinosa-Anke, L., Schockaert, S. Ragas: Automated Evaluation of Retrieval Augmented Generation. EACL 2024 (System Demonstrations). arXiv:2309.15217. 査読付き論文(デモ論文)。
参照解答を要しないRAG自動評価フレームワークRagasを提案し、faithfulness・answer relevance・context relevanceの3軸をLLMへのプロンプトで自動測定する。WikiEvalでの人手判断との一致度はfaithfulness0.95・answer relevance0.78・context relevance0.70で、GPT ScoreやGPT Rankingを上回った。
[86] Zeng, S., Zhang, J., He, P., et al. The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented Generation (RAG). Findings of ACL 2024. arXiv:2402.16893. 査読付き論文。
RAGの検索データベースと学習データ双方の漏洩リスクを検証した研究で、{information}+{command}からなる構造化プロンプト攻撃により検索データの機密抽出を実証する。Llama2-7b-ChatやGPT-3.5-turboが約50%近い成功率で検索データを逐語出力でき、要約はuntargeted攻撃のリスクを約50%低減するがtargeted攻撃には限定的であった。
[87] パナソニックコネクト. 生成AI導入1年の実績と今後の活用構想. 公式プレスリリース, 2024年6月25日. リンク (企業公式発表。非査読。)
パナソニック コネクトが、OpenAIのLLMを基盤に開発した社内向けAIアシスタント「ConnectAI」の生成AI導入1年の実績を発表したもので、約12,400人へ展開し、2024年4月からは社外秘の品質管理文書630件・11,743ページをRAGで参照する。1年で全社員の労働時間を18.6万時間削減し、アクセス回数は12ヶ月で約140万回に達した。
[88] Toyota Motor Corporation, Advanced R&D and Engineering Company; Amazon Web Services. Toyota Motor Corporation — secure RAG environment on AWS. ベンダー公式カスタマーストーリー, 2024. リンク (企業・ベンダー公式発表。非査読。)
トヨタ自動車Advanced R&D and Engineering Companyが、部門ごとに乱立していたRAGシステムを統合し、Amazon OpenSearch Serviceを用いたハイブリッド検索とクエリ拡張、社内認証連携によるファイル単位アクセス制御を備えた全社共有のセキュアなRAG基盤を構築したAWS事例である。調査時間を約20%、情報照会の工数を約50%削減した。
[89] パナソニックコネクト. 観察駆動型AIエージェントが生成AIのRAGにナレッジグラフを参照して回答する新技術を開発. 公式プレスリリース, 2024年10月3日(成果はACL 2024採択). リンク (企業公式発表。非査読。)
パナソニック コネクトが、生成AIのRAGの参照先に文章ではなくナレッジグラフを用いる観察駆動型AIエージェント技術を発表したもので、「観察」「行動」「反省」の3段階を反復して情報を取捨選択し回答精度を高める。本技術はACL2024で論文採択され、リアルタイムパフォーマンス上でBest performanceを達成した。
[90] 富士通. 世界初の技術で企業ニーズに対応した特化型生成AIを自動生成!エンタープライズ生成AIフレームワークを提供(Fujitsu Kozuchi). 公式プレスリリース, 2024年6月4日. リンク (企業公式発表。非査読。)
富士通が、企業データをナレッジグラフで構造化しLLMの参照可能データを1,000万トークン以上に拡大する「ナレッジグラフ拡張RAG」、最適モデルを自動選択する「生成AI混合技術」、回答の規則・法令準拠を検証する世界初の「生成AI監査技術」から成るエンタープライズ生成AIフレームワークを発表した。マルチホップQA(HotpotQA)で世界最高精度を達成した。