构建一个基于LangChain的RAG智能体

概述

LLMs（大型语言模型）带来的最强大的应用之一是复杂的问答（Q&A）聊天机器人。这些应用能够回答关于特定信息源的问题。这些应用使用一种称为检索增强生成（RAG）的技术，或称RAG。本教程将展示如何在一个非结构化文本数据源上构建一个简单的问答应用。我们将演示：

一个使用简单工具执行搜索的RAG 智能体。这是一个很好的通用实现。
一个两步RAG 链，每个查询仅使用一次LLM调用。这是处理简单查询的一种快速有效的方法。

概念

我们将介绍以下概念：

索引：从源数据中摄取数据并对其进行索引的管道。这通常在单独的进程中发生。
检索与生成：实际的RAG过程，在运行时获取用户查询，从索引中检索相关数据，然后将这些数据传递给模型。

一旦我们索引了我们的数据，我们将使用一个智能体作为我们的编排框架来实施检索和生成步骤。

本教程的索引部分将主要遵循语义搜索教程。如果您已经可以搜索数据（即您有一个执行搜索的函数），或者您对那个教程的内容感到满意，您可以自由地跳转到检索和生成部分

预览

在本指南中，我们将构建一个应用，用于回答有关网站内容的疑问。我们将使用的特定网站是Lilian Weng撰写的LLM驱动的自主智能体博客文章，该文章允许我们就文章内容提出问题。我们可以创建一个简单的索引管道和RAG链，用大约40行代码就能完成这个任务。下面是完整的代码片段：

Expand for full code snippet

import bs4
from langchain.agents import AgentState, create_agent
from langchain_community.document_loaders import WebBaseLoader
from langchain.messages import MessageLikeRepresentation
from langchain_text_splitters import RecursiveCharacterTextSplitter

# Load and chunk contents of the blog
loader = WebBaseLoader(
    web_paths=("https://lilianweng.github.io/posts/2023-06-23-agent/",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            class_=("post-content", "post-title", "post-header")
        )
    ),
)
docs = loader.load()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
all_splits = text_splitter.split_documents(docs)

# Index chunks
_ = vector_store.add_documents(documents=all_splits)

# Construct a tool for retrieving context
@tool(response_format="content_and_artifact")
def retrieve_context(query: str):
    """Retrieve information to help answer a query."""
    retrieved_docs = vector_store.similarity_search(query, k=2)
    serialized = "\n\n".join(
        (f"Source: {doc.metadata}\nContent: {doc.page_content}")
        for doc in retrieved_docs
    )
    return serialized, retrieved_docs

tools = [retrieve_context]
# If desired, specify custom instructions
prompt = (
    "You have access to a tool that retrieves context from a blog post. "
    "Use the tool to help answer user queries."
)
agent = create_agent(model, tools, system_prompt=prompt)

query = "What is task decomposition?"
for step in agent.stream(
    {"messages": [{"role": "user", "content": query}]},
    stream_mode="values",
):
    step["messages"][-1].pretty_print()

================================ Human Message =================================

What is task decomposition?
================================== Ai Message ==================================
Tool Calls:
  retrieve_context (call_xTkJr8njRY0geNz43ZvGkX0R)
 Call ID: call_xTkJr8njRY0geNz43ZvGkX0R
  Args:
    query: task decomposition
================================= Tool Message =================================
Name: retrieve_context

Source: {'source': 'https://lilianweng.github.io/posts/2023-06-23-agent/'}
Content: Task decomposition can be done by...

Source: {'source': 'https://lilianweng.github.io/posts/2023-06-23-agent/'}
Content: Component One: Planning...
================================== Ai Message ==================================

Task decomposition refers to...

查看LangSmith跟踪记录。

安装

本教程需要以下 LangChain 依赖项：

pip install langchain langchain-text-splitters langchain-community bs4

有关详细信息，请参阅我们的安装指南。

LangSmith

许多您使用LangChain构建的应用程序将包含多个步骤和多次调用LLM。随着这些应用程序变得更加复杂，能够检查您的链或智能体内部究竟发生了什么变得至关重要。最佳方式是使用LangSmith。在您通过上述链接注册后，请确保设置环境变量以开始记录跟踪信息：

export LANGSMITH_TRACING="true"
export LANGSMITH_API_KEY="..."

或者，在Python中设置它们：

import getpass
import os

os.environ["LANGSMITH_TRACING"] = "true"
os.environ["LANGSMITH_API_KEY"] = getpass.getpass()

组件

我们需要从LangChain的集成套件中选择三个组件。选择聊天模型：

OpenAI
Anthropic
Azure
Google Gemini
AWS Bedrock

👉 Read the OpenAI chat model integration docs

pip install -U "langchain[openai]"

import os
from langchain.chat_models import init_chat_model

os.environ["OPENAI_API_KEY"] = "sk-..."

model = init_chat_model("openai:gpt-4.1")

👉 Read the Anthropic chat model integration docs

pip install -U "langchain[anthropic]"

import os
from langchain.chat_models import init_chat_model

os.environ["ANTHROPIC_API_KEY"] = "sk-..."

model = init_chat_model("anthropic:claude-sonnet-4-5")

👉 Read the Azure chat model integration docs

pip install -U "langchain[openai]"

import os
from langchain.chat_models import init_chat_model

os.environ["AZURE_OPENAI_API_KEY"] = "..."
os.environ["AZURE_OPENAI_ENDPOINT"] = "..."
os.environ["OPENAI_API_VERSION"] = "2025-03-01-preview"

model = init_chat_model(
    "azure_openai:gpt-4.1",
    azure_deployment=os.environ["AZURE_OPENAI_DEPLOYMENT_NAME"],
)

👉 Read the Google GenAI chat model integration docs

pip install -U "langchain[google-genai]"

import os
from langchain.chat_models import init_chat_model

os.environ["GOOGLE_API_KEY"] = "..."

model = init_chat_model("google_genai:gemini-2.5-flash-lite")

👉 Read the AWS Bedrock chat model integration docs

pip install -U "langchain[aws]"

from langchain.chat_models import init_chat_model

# Follow the steps here to configure your credentials:
# https://docs.aws.amazon.com/bedrock/latest/userguide/getting-started.html

model = init_chat_model(
    "anthropic.claude-3-5-sonnet-20240620-v1:0",
    model_provider="bedrock_converse",
)

选择嵌入模型：

pip install -U "langchain-openai"

import getpass
import os

if not os.environ.get("OPENAI_API_KEY"):
os.environ["OPENAI_API_KEY"] = getpass.getpass("Enter API key for OpenAI: ")

from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-3-large")

pip install -U "langchain-openai"

import getpass
import os

if not os.environ.get("AZURE_OPENAI_API_KEY"):
os.environ["AZURE_OPENAI_API_KEY"] = getpass.getpass("Enter API key for Azure: ")

from langchain_openai import AzureOpenAIEmbeddings

embeddings = AzureOpenAIEmbeddings(
    azure_endpoint=os.environ["AZURE_OPENAI_ENDPOINT"],
    azure_deployment=os.environ["AZURE_OPENAI_DEPLOYMENT_NAME"],
    openai_api_version=os.environ["AZURE_OPENAI_API_VERSION"],
)

pip install -qU langchain-google-genai

import getpass
import os

if not os.environ.get("GOOGLE_API_KEY"):
os.environ["GOOGLE_API_KEY"] = getpass.getpass("Enter API key for Google Gemini: ")

from langchain_google_genai import GoogleGenerativeAIEmbeddings

embeddings = GoogleGenerativeAIEmbeddings(model="models/gemini-embedding-001")

pip install -qU langchain-google-vertexai

from langchain_google_vertexai import VertexAIEmbeddings

embeddings = VertexAIEmbeddings(model="text-embedding-005")

pip install -qU langchain-aws

from langchain_aws import BedrockEmbeddings

embeddings = BedrockEmbeddings(model_id="amazon.titan-embed-text-v2:0")

pip install -qU langchain-huggingface

from langchain_huggingface import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2")

pip install -qU langchain-ollama

from langchain_ollama import OllamaEmbeddings

embeddings = OllamaEmbeddings(model="llama3")

pip install -qU langchain-cohere

import getpass
import os

if not os.environ.get("COHERE_API_KEY"):
os.environ["COHERE_API_KEY"] = getpass.getpass("Enter API key for Cohere: ")

from langchain_cohere import CohereEmbeddings

embeddings = CohereEmbeddings(model="embed-english-v3.0")

pip install -qU langchain-mistralai

import getpass
import os

if not os.environ.get("MISTRALAI_API_KEY"):
os.environ["MISTRALAI_API_KEY"] = getpass.getpass("Enter API key for MistralAI: ")

from langchain_mistralai import MistralAIEmbeddings

embeddings = MistralAIEmbeddings(model="mistral-embed")

pip install -qU langchain-nomic

import getpass
import os

if not os.environ.get("NOMIC_API_KEY"):
os.environ["NOMIC_API_KEY"] = getpass.getpass("Enter API key for Nomic: ")

from langchain_nomic import NomicEmbeddings

embeddings = NomicEmbeddings(model="nomic-embed-text-v1.5")

pip install -qU langchain-nvidia-ai-endpoints

import getpass
import os

if not os.environ.get("NVIDIA_API_KEY"):
os.environ["NVIDIA_API_KEY"] = getpass.getpass("Enter API key for NVIDIA: ")

from langchain_nvidia_ai_endpoints import NVIDIAEmbeddings

embeddings = NVIDIAEmbeddings(model="NV-Embed-QA")

pip install -qU langchain-voyageai

import getpass
import os

if not os.environ.get("VOYAGE_API_KEY"):
os.environ["VOYAGE_API_KEY"] = getpass.getpass("Enter API key for Voyage AI: ")

from langchain-voyageai import VoyageAIEmbeddings

embeddings = VoyageAIEmbeddings(model="voyage-3")

pip install -qU langchain-ibm

import getpass
import os

if not os.environ.get("WATSONX_APIKEY"):
os.environ["WATSONX_APIKEY"] = getpass.getpass("Enter API key for IBM watsonx: ")

from langchain_ibm import WatsonxEmbeddings

embeddings = WatsonxEmbeddings(
    model_id="ibm/slate-125m-english-rtrvr",
    url="https://us-south.ml.cloud.ibm.com",
    project_id="<WATSONX PROJECT_ID>",
)

pip install -qU langchain-core

from langchain_core.embeddings import DeterministicFakeEmbedding

embeddings = DeterministicFakeEmbedding(size=4096)

选择向量存储：

pip install -U "langchain-core"

from langchain_core.vectorstores import InMemoryVectorStore

vector_store = InMemoryVectorStore(embeddings)

pip install -U "langchain-astradb"

from langchain_astradb import AstraDBVectorStore

vector_store = AstraDBVectorStore(
    embedding=embeddings,
    api_endpoint=ASTRA_DB_API_ENDPOINT,
    collection_name="astra_vector_langchain",
    token=ASTRA_DB_APPLICATION_TOKEN,
    namespace=ASTRA_DB_NAMESPACE,
)

pip install -qU langchain-chroma

from langchain_chroma import Chroma

vector_store = Chroma(
    collection_name="example_collection",
    embedding_function=embeddings,
    persist_directory="./chroma_langchain_db",  # Where to save data locally, remove if not necessary
)

pip install -qU langchain-community

import faiss
from langchain_community.docstore.in_memory import InMemoryDocstore
from langchain_community.vectorstores import FAISS

embedding_dim = len(embeddings.embed_query("hello world"))
index = faiss.IndexFlatL2(embedding_dim)

vector_store = FAISS(
    embedding_function=embeddings,
    index=index,
    docstore=InMemoryDocstore(),
    index_to_docstore_id={},
)

pip install -qU langchain-milvus

from langchain_milvus import Milvus

URI = "./milvus_example.db"

vector_store = Milvus(
    embedding_function=embeddings,
    connection_args={"uri": URI},
    index_params={"index_type": "FLAT", "metric_type": "L2"},
)

pip install -qU langchain-mongodb

from langchain_mongodb import MongoDBAtlasVectorSearch

vector_store = MongoDBAtlasVectorSearch(
    embedding=embeddings,
    collection=MONGODB_COLLECTION,
    index_name=ATLAS_VECTOR_SEARCH_INDEX_NAME,
    relevance_score_fn="cosine",
)

pip install -qU langchain-postgres

from langchain_postgres import PGVector

vector_store = PGVector(
    embeddings=embeddings,
    collection_name="my_docs",
    connection="postgresql+psycopg://...",
)

pip install -qU langchain-postgres

from langchain_postgres import PGEngine, PGVectorStore

pg_engine = PGEngine.from_connection_string(
    url="postgresql+psycopg://..."
)

vector_store = PGVectorStore.create_sync(
    engine=pg_engine,
    table_name='test_table',
    embedding_service=embedding
)

pip install -qU langchain-pinecone

from langchain_pinecone import PineconeVectorStore
from pinecone import Pinecone

pc = Pinecone(api_key=...)
index = pc.Index(index_name)

vector_store = PineconeVectorStore(embedding=embeddings, index=index)

pip install -qU langchain-qdrant

from qdrant_client.models import Distance, VectorParams
from langchain_qdrant import QdrantVectorStore
from qdrant_client import QdrantClient

client = QdrantClient(":memory:")

vector_size = len(embeddings.embed_query("sample text"))

if not client.collection_exists("test"):
    client.create_collection(
        collection_name="test",
        vectors_config=VectorParams(size=vector_size, distance=Distance.COSINE)
    )
vector_store = QdrantVectorStore(
    client=client,
    collection_name="test",
    embedding=embeddings,
)

1. 索引

本节是语义搜索教程内容的简略版。如果您的数据已经索引并可用于搜索（即您有一个执行搜索的函数），或者如果您对文档加载器、嵌入和向量存储感到舒适，请自由跳转到下一节，关于检索和生成的内容。

索引通常按以下方式工作：

加载：首先，我们需要加载我们的数据。这通过文档加载器来完成。
分割：文本分割器将大的Documents分割成更小的块。这对于索引数据和将其传递给模型都很有用，因为大块更难搜索，而且不会适合模型有限的上下文窗口。
存储：我们需要一个地方来存储和索引我们的分割数据，以便以后可以搜索。这通常使用向量存储和嵌入模型来完成。

加载文档

我们需要首先加载博客文章内容。我们可以使用DocumentLoaders来完成这项任务，这些对象从源加载数据并返回一个Document对象的列表。在这种情况下，我们将使用 WebBaseLoader，它使用 urllib 从网络 URL 加载 HTML，并使用 BeautifulSoup 将其解析为文本。我们可以通过将参数传递给 BeautifulSoup 解析器通过 bs_kwargs 来自定义 HTML -> 文本解析（参见 BeautifulSoup 文档）。在这种情况下，只有具有类名“post-content”、“post-title”或“post-header”的 HTML 标签是相关的，因此我们将删除所有其他标签。

import bs4
from langchain_community.document_loaders import WebBaseLoader

# Only keep post title, headers, and content from the full HTML.
bs4_strainer = bs4.SoupStrainer(class_=("post-title", "post-header", "post-content"))
loader = WebBaseLoader(
    web_paths=("https://lilianweng.github.io/posts/2023-06-23-agent/",),
    bs_kwargs={"parse_only": bs4_strainer},
)
docs = loader.load()

assert len(docs) == 1
print(f"Total characters: {len(docs[0].page_content)}")

Total characters: 43131

print(docs[0].page_content[:500])

      LLM Powered Autonomous Agents

Date: June 23, 2023  |  Estimated Reading Time: 31 min  |  Author: Lilian Weng


Building agents with LLM (large language model) as its core controller is a cool concept. Several proof-of-concepts demos, such as AutoGPT, GPT-Engineer and BabyAGI, serve as inspiring examples. The potentiality of LLM extends beyond generating well-written copies, stories, essays and programs; it can be framed as a powerful general problem solver.
Agent System Overview#
In

深入探索 DocumentLoader：从源加载数据为Documents列表的对象

集成: 可选择超过160种集成。
界面: 基础界面的API参考。

分割文档

我们的加载文档超过42k个字符，这对于许多模型的上下文窗口来说太长了，无法全部容纳。即使是那些能够将整个帖子放入其上下文窗口的模型，在处理非常长的输入时也可能难以找到信息。为了处理这个问题，我们将Document分割成块以进行嵌入和向量存储。这应该有助于我们在运行时只检索博客文章中最相关的部分。如语义搜索教程中所述，我们使用一个RecursiveCharacterTextSplitter，它将递归地使用常见的分隔符（如换行符）将文档分割，直到每个块达到适当的大小。这是通用文本用例中推荐的文本分割器。

from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,  # chunk size (characters)
    chunk_overlap=200,  # chunk overlap (characters)
    add_start_index=True,  # track index in original document
)
all_splits = text_splitter.split_documents(docs)

print(f"Split blog post into {len(all_splits)} sub-documents.")

Split blog post into 66 sub-documents.

深入探索 TextSplitter：将Document对象列表分割成更小的块以进行存储和检索的对象。

集成
界面: 基础界面的API参考。

存储文档

现在我们需要对66个文本块进行索引，以便在运行时进行搜索。遵循语义搜索教程，我们的方法是嵌入每个文档分割的内容，并将这些嵌入插入到向量存储中。给定一个输入查询，然后我们可以使用向量搜索来检索相关文档。我们可以使用在教程开始时选择的向量存储和嵌入模型，通过单个命令嵌入和存储我们所有的文档拆分。

document_ids = vector_store.add_documents(documents=all_splits)

print(document_ids[:3])

['07c18af6-ad58-479a-bfb1-d508033f9c64', '9000bf8e-1993-446f-8d4d-f4e507ba4b8f', 'ba3b5d14-bed9-4f5f-88be-44c88aedc2e6']

深入探索 Embeddings：围绕文本嵌入模型的外包装，用于将文本转换为嵌入。

集成: 提供超过30种集成选项。
界面: 基础界面的API参考。

VectorStore：围绕向量数据库的包装器，用于存储和查询嵌入。

集成: 提供超过40种集成供您选择。
界面: 基础界面的API参考。

这完成了管道的索引部分。在此阶段，我们拥有一个可查询的向量存储，其中包含我们博客文章的块状内容。给定一个用户问题，我们理想上应该能够返回回答问题的博客文章片段。

2. 检索与生成

RAG应用程序通常按以下方式工作：

检索：给定用户输入，使用检索器从存储中检索相关分割。
生成：一个模型使用包含检索数据的提问提示生成答案。

现在我们来编写实际的应用逻辑。我们希望创建一个简单的应用程序，该程序接收用户问题，搜索与该问题相关的文档，将检索到的文档和初始问题传递给模型，并返回一个答案。我们将演示：

一个使用简单工具执行搜索的RAG 智能体。这是一个很好的通用实现。
一个两步RAG 链，每个查询仅使用一次LLM调用。这是处理简单查询的一种快速有效的方法。

RAG智能体

一种RAG应用的表述方式是作为一个简单的智能体，它带有检索信息的工具。我们可以通过实现一个工具来封装我们的向量存储，从而组装一个最小的RAG智能体。

from langchain.tools import tool

@tool(response_format="content_and_artifact")
def retrieve_context(query: str):
    """Retrieve information to help answer a query."""
    retrieved_docs = vector_store.similarity_search(query, k=2)
    serialized = "\n\n".join(
        (f"Source: {doc.metadata}\nContent: {doc.page_content}")
        for doc in retrieved_docs
    )
    return serialized, retrieved_docs

这里我们使用工具装饰器来配置工具，将原始文档作为工件附加到每个ToolMessage上。这样我们就可以在我们的应用程序中访问文档元数据，而无需与发送给模型的字符串表示形式混淆。

检索工具不仅限于上述示例中的单个字符串 query 参数。您可以通过添加参数来强制LLM指定额外的搜索参数——例如，一个类别：

from typing import Literal

def retrieve_context(query: str, section: Literal["beginning", "middle", "end"]):

考虑到我们的工具，我们可以构建智能体：

from langchain.agents import create_agent


tools = [retrieve_context]
# If desired, specify custom instructions
prompt = (
    "You have access to a tool that retrieves context from a blog post. "
    "Use the tool to help answer user queries."
)
agent = create_agent(model, tools, system_prompt=prompt)

让我们来测试一下。我们构建一个问题，通常需要一系列迭代检索步骤来回答：

query = (
    "What is the standard method for Task Decomposition?\n\n"
    "Once you get the answer, look up common extensions of that method."
)

for event in agent.stream(
    {"messages": [{"role": "user", "content": query}]},
    stream_mode="values",
):
    event["messages"][-1].pretty_print()

================================ Human Message =================================

What is the standard method for Task Decomposition?

Once you get the answer, look up common extensions of that method.
================================== Ai Message ==================================
Tool Calls:
  retrieve_context (call_d6AVxICMPQYwAKj9lgH4E337)
 Call ID: call_d6AVxICMPQYwAKj9lgH4E337
  Args:
    query: standard method for Task Decomposition
================================= Tool Message =================================
Name: retrieve_context

Source: {'source': 'https://lilianweng.github.io/posts/2023-06-23-agent/'}
Content: Task decomposition can be done...

Source: {'source': 'https://lilianweng.github.io/posts/2023-06-23-agent/'}
Content: Component One: Planning...
================================== Ai Message ==================================
Tool Calls:
  retrieve_context (call_0dbMOw7266jvETbXWn4JqWpR)
 Call ID: call_0dbMOw7266jvETbXWn4JqWpR
  Args:
    query: common extensions of the standard method for Task Decomposition
================================= Tool Message =================================
Name: retrieve_context

Source: {'source': 'https://lilianweng.github.io/posts/2023-06-23-agent/'}
Content: Task decomposition can be done...

Source: {'source': 'https://lilianweng.github.io/posts/2023-06-23-agent/'}
Content: Component One: Planning...
================================== Ai Message ==================================

The standard method for Task Decomposition often used is the Chain of Thought (CoT)...

请注意智能体：

生成一个查询以搜索任务分解的标准方法；
收到答案后，生成第二个查询以搜索其常见扩展；
收到所有必要上下文后，回答问题。

我们可以通过LangSmith跟踪信息看到完整的步骤序列，以及延迟和其他元数据。

您可以使用LangGraph框架直接添加更深入的控制和自定义——例如，您可以添加步骤来评估文档的相关性并重写搜索查询。查看LangGraph的Agentic RAG教程以获取更多高级用法。

RAG 链

在上面的智能体RAG公式中，我们允许LLM在生成工具调用以帮助回答用户查询时行使自主权。这是一个很好的通用解决方案，但也有一些权衡：

✅ 优点	⚠️ 缺点
仅在需要时进行搜索 – LLM 可以处理问候语、后续问题和简单查询，而不会触发不必要的搜索。	两次推理调用 – 当执行搜索时，需要一次调用生成查询，另一次调用生成最终响应。
上下文搜索查询 – 将搜索视为具有 `query` 输入的工具，LLM 将构建自己的查询，这些查询结合了对话上下文。	控制减少 – LLM 可能会跳过实际需要的搜索，或者在不需要时发起额外的搜索。
允许多次搜索 – LLM 可以执行多个搜索以支持单个用户查询。

另一种常见的方法是两步链式操作，其中我们始终运行一次搜索（可能使用原始用户查询），并将结果作为单个LLM查询的上下文。这导致每个查询仅有一个推理调用，以牺牲灵活性为代价换取了降低延迟。在这个方法中，我们不再在循环中调用模型，而是进行单次遍历。我们可以通过从智能体中移除工具，并将检索步骤整合到自定义提示中来实现这个链。

from langchain.agents.middleware import dynamic_prompt, ModelRequest

@dynamic_prompt
def prompt_with_context(request: ModelRequest) -> str:
    """Inject context into state messages."""
    last_query = request.state["messages"][-1].text
    retrieved_docs = vector_store.similarity_search(last_query)

    docs_content = "\n\n".join(doc.page_content for doc in retrieved_docs)

    system_message = (
        "You are a helpful assistant. Use the following context in your response:"
        f"\n\n{docs_content}"
    )

    return system_message


agent = create_agent(model, tools=[], middleware=[prompt_with_context])

让我们试试这个：

query = "What is task decomposition?"
for step in agent.stream(
    {"messages": [{"role": "user", "content": query}]},
    stream_mode="values",
):
    step["messages"][-1].pretty_print()

================================ Human Message =================================

What is task decomposition?
================================== Ai Message ==================================

Task decomposition is...

在 LangSmith 跟踪记录中，我们可以看到检索到的上下文被整合到模型提示中。这是一个在受限环境中进行简单查询的快速且有效的方法，在这种情况下，我们通常确实希望将用户查询通过语义搜索来获取更多上下文。

Returning source documents

上述 RAG chain 将检索到的上下文整合为该次运行的单一系统消息。与智能体RAG公式的表述类似，我们有时希望在应用程序状态中包含原始源文档，以便访问文档元数据。对于两步链的情况，我们可以通过以下方式实现：

在状态中添加一个键以存储检索到的文档
通过预模型钩子添加一个新节点以填充该键（以及注入上下文）。

from typing import Any
from langchain_core.documents import Document
from langchain.agents.middleware import AgentMiddleware, AgentState


class State(AgentState):
    context: list[Document]


class RetrieveDocumentsMiddleware(AgentMiddleware[State]):
    state_schema = State

    def before_model(self, state: AgentState) -> dict[str, Any] | None:
        last_message = state["messages"][-1]
        retrieved_docs = vector_store.similarity_search(last_message.text)

        docs_content = "\n\n".join(doc.page_content for doc in retrieved_docs)

        augmented_message_content = (
            f"{last_message.text}\n\n"
            "Use the following context to answer the query:\n"
            f"{docs_content}"
        )
        return {
            "messages": [last_message.model_copy(update={"content": augmented_message_content})],
            "context": retrieved_docs,
        }


agent = create_agent(
    llm,
    tools=[],
    middleware=[RetrieveDocumentsMiddleware()],
)

下一步

现在我们已经通过 create_agent 实现了一个简单的 RAG 应用程序，我们可以轻松地集成新功能和深入探索：

流令牌和其他信息以实现响应式用户体验
添加会话记忆以支持多轮交互
添加长期记忆以支持跨对话线程的记忆
添加结构化响应
使用LangSmith 部署部署您的应用程序

在GitHub上编辑此页面的源代码。

通过MCP将这些文档编程连接到Claude、VSCode等，以获取实时答案。

教程

概念概述

其他资源

构建一个基于LangChain的RAG智能体

概述

概念

预览

安装

安装

LangSmith

组件

1. 索引

加载文档

分割文档

存储文档

2. 检索与生成

RAG智能体

RAG 链

下一步

教程

概念概述

其他资源

​概述

​概念

​预览

​安装

​安装

​LangSmith

​组件

​1. 索引

​加载文档

​分割文档

​存储文档

​2. 检索与生成

​RAG智能体

​RAG 链

​下一步

概述

概念

预览

安装

安装

LangSmith

组件

1. 索引

加载文档

分割文档

存储文档

2. 检索与生成

RAG智能体

RAG 链

下一步