AI Engineering Notes

RAGとは

RAGを、文書分割、Embedding、検索、プロンプト注入、引用設計の流れで整理します。

検索と文脈更新日: 2026年6月15日 RAG Embedding vector search metadata

RAGの目的

RAGはRetrieval-Augmented Generationの略です。LLMにすべてを覚えさせるのではなく、必要な文書を検索し、その結果をプロンプトへ入れて回答させる設計です。

よくある目的は次の3つです。

RAGの基本は、生成より前の検索設計です。

文書
  -> 分割
  -> Embedding
  -> ベクトル検索
  -> 関連チャンクをプロンプトへ注入
  -> LLMが回答

検索結果を入れるだけなら簡単ですが、実務では「どの粒度で分割するか」「どのメタデータを持つか」「引用をどう返すか」が品質に大きく影響します。

RAGは、モデルが学習していない文書を参照する場面に向いています。たとえば社内規程、FAQ、製品仕様、運用手順、過去の議事録です。

一方で、RAGは推論力そのものを魔法のように上げる仕組みではありません。検索で誤った文書を拾えば、回答もずれます。

RAGの失敗は、LLMより前で起きることが多いです。

RAGでは、本文だけでなくメタデータが重要です。

{
  "source": "handbook/security.md",
  "title": "APIキーの管理",
  "section": "本番運用",
  "updatedAt": "2026-06-15",
  "tags": ["security", "api"]
}

このようなメタデータは、検索フィルタ、引用表示、更新検知、回答の信頼性表示に使えます。JSON Man側では、こうしたJSON構造の読みやすさやスキーマ設計へ展開できます。