Evaluation quickstart - Docs by LangChain

title: 评估快速入门 sidebarTitle: 快速入门

评估是一种量化衡量LLM应用性能的方法。LLM的行为可能难以预测，即使是对提示、模型或输入的微小更改也可能显著影响结果。评估提供了一种结构化的方式来识别故障、比较版本并构建更可靠的AI应用。在LangSmith中运行评估需要三个关键组件：

数据集：一组测试输入（以及可选的预期输出）。
目标函数：您想要测试的应用部分——这可能是一个使用新提示的单一LLM调用、一个模块或您的整个工作流。
评估器：对目标函数输出进行评分的函数。

本快速入门将引导您使用LangSmith SDK或UI运行一个入门评估，该评估检查LLM响应的正确性。

如果您更喜欢观看关于追踪入门的视频，请参阅数据集和评估的视频指南。

先决条件

开始之前，请确保您拥有：

LangSmith账户：在smith.langchain.com注册或登录。
LangSmith API密钥：请遵循创建API密钥指南。
OpenAI API密钥：从OpenAI仪表板生成。

选择UI或SDK筛选器查看说明：

1. 设置工作区密钥

In the LangSmith UI, ensure that your OpenAI API key is set as a workspace secret.

Navigate to Settings and then move to the Secrets tab.
Select Add secret and enter the OPENAI_API_KEY and your API key as the Value.
Select Save secret.

When adding workspace secrets in the LangSmith UI, make sure the secret keys match the environment variable names expected by your model provider.

2. 创建提示

LangSmith的提示词游乐场使得可以对不同的提示词、新模型或测试不同的模型配置运行评估。

在LangSmith UI中，导航至提示词工程下的游乐场。
在提示词面板下，将系统提示词修改为：
```
请准确回答以下问题：
```
保持用户消息不变：{question}。

3. 创建数据集

点击设置评估，这将在页面底部打开一个新实验表格。
在选择或创建新数据集下拉菜单中，点击**+ 新建**按钮创建一个新数据集。
向数据集中添加以下示例：
输入参考输出
question: 乞力马扎罗山位于哪个国家？ output: 乞力马扎罗山位于坦桑尼亚。
question: 地球的最低点是什么？ output: 地球的最低点是死海。
点击保存并输入名称以保存您新创建的数据集。

输入	参考输出
question: 乞力马扎罗山位于哪个国家？	output: 乞力马扎罗山位于坦桑尼亚。
question: 地球的最低点是什么？	output: 地球的最低点是死海。

4. 添加评估器

点击 + 评估器 并从预构建评估器选项中选择正确性。
在正确性面板中，点击保存。

5. 运行评估

选择右上角的开始来运行您的评估。这将在新实验表格中创建一个带有预览的实验。您可以点击实验名称查看完整视图。

后续步骤

要了解更多关于在LangSmith中运行实验的信息，请阅读评估概念指南。

有关评估的更多详细信息，请参阅评估文档。
了解如何在UI中创建和管理数据集。
了解如何从提示词游乐场运行评估。

本指南使用来自开源 openevals 包的预构建的LLM-as-judge评估器。OpenEvals包含一组常用的评估器，如果您是评估新手，这是一个很好的起点。如果您希望对评估应用的方式有更大的灵活性，也可以定义完全自定义的评估器。

1. 安装依赖项

在终端中，为您的项目创建一个目录并在您的环境中安装依赖项：

mkdir ls-evaluation-quickstart && cd ls-evaluation-quickstart
python -m venv .venv && source .venv/bin/activate
python -m pip install --upgrade pip
pip install -U langsmith openevals openai

如果您使用 yarn 作为包管理器，您还需要手动安装 @langchain/core 作为 openevals 的对等依赖项。这对于一般的LangSmith评估不是必须的，您可以使用任意自定义代码定义评估器。

2. 设置环境变量

设置以下环境变量：

LANGSMITH_TRACING
LANGSMITH_API_KEY
OPENAI_API_KEY（或您的LLM提供商的API密钥）
（可选）LANGSMITH_WORKSPACE_ID：如果您的LangSmith API链接到多个工作区，设置此变量以指定要使用的工作区。

export LANGSMITH_TRACING=true
export LANGSMITH_API_KEY="<your-langsmith-api-key>"
export OPENAI_API_KEY="<your-openai-api-key>"
export LANGSMITH_WORKSPACE_ID="<your-workspace-id>"

如果您使用Anthropic，请使用Anthropic包装器来追踪您的调用。对于其他提供商，请使用可追踪包装器。

3. 创建数据集

创建一个文件并添加以下代码，它将：

导入 Client 以连接到LangSmith。
创建一个数据集。
定义示例输入_和_输出。
在LangSmith中将输入和输出对与该数据集关联，以便它们可以在评估中使用。

# dataset.py
from langsmith import Client

def main():
    client = Client()

    # 以编程方式在LangSmith中创建数据集
    dataset = client.create_dataset(
        dataset_name="示例数据集",
        description="LangSmith中的一个示例数据集。"
    )

    # 创建示例
    examples = [
        {
            "inputs": {"question": "乞力马扎罗山位于哪个国家？"},
            "outputs": {"answer": "乞力马扎罗山位于坦桑尼亚。"},
        },
        {
            "inputs": {"question": "地球的最低点是什么？"},
            "outputs": {"answer": "地球的最低点是死海。"},
        },
    ]

    # 将示例添加到数据集
    client.create_examples(dataset_id=dataset.id, examples=examples)
    print("已创建数据集:", dataset.name)

if __name__ == "__main__":
    main()

在终端中，运行 dataset 文件以创建您将用于评估应用的数据集：
python dataset.py
您将看到以下输出：
```
已创建数据集: 示例数据集
```

4. 创建目标函数

定义一个包含您要评估内容的目标函数。在本指南中，您将定义一个目标函数，其中包含一个单一的LLM调用来回答问题。将以下内容添加到 eval 文件中：

# eval.py
from langsmith import Client, wrappers
from openai import OpenAI

# 包装OpenAI客户端以进行LangSmith追踪
openai_client = wrappers.wrap_openai(OpenAI())

# 在目标函数内定义您要评估的应用逻辑
# SDK将自动将数据集中的输入发送到您的目标函数
def target(inputs: dict) -> dict:
    response = openai_client.chat.completions.create(
        model="gpt-5-mini",
        messages=[
            {"role": "system", "content": "请准确回答以下问题"},
            {"role": "user", "content": inputs["question"]},
        ],
    )
    return {"answer": response.choices[0].message.content.strip()}

5. 定义评估器

在此步骤中，您将告诉LangSmith如何对您的应用产生的答案进行评分。从 openevals 导入一个预构建的评估提示 (CORRECTNESS_PROMPT) 和一个将其包装成 LLM-as-judge评估器 的辅助函数，该评估器将对应用的输出进行评分。

CORRECTNESS_PROMPT 只是一个带有 "inputs"、"outputs" 和 "reference_outputs" 变量的f-string。有关自定义OpenEvals提示的更多信息，请参见此处。

评估器比较：

inputs：传递给目标函数的内容（例如，问题文本）。
outputs：目标函数返回的内容（例如，模型的答案）。
reference_outputs：您在步骤3中附加到每个数据集示例的基本事实答案。

将以下高亮显示的代码添加到您的 eval 文件中：

from langsmith import Client, wrappers
from openai import OpenAI
from openevals.llm import create_llm_as_judge
from openevals.prompts import CORRECTNESS_PROMPT

# 包装OpenAI客户端以进行LangSmith追踪
openai_client = wrappers.wrap_openai(OpenAI())

# 在目标函数内定义您要评估的应用逻辑
# SDK将自动将数据集中的输入发送到您的目标函数
def target(inputs: dict) -> dict:
    response = openai_client.chat.completions.create(
        model="gpt-5-mini",
        messages=[
            {"role": "system", "content": "请准确回答以下问题"},
            {"role": "user", "content": inputs["question"]},
        ],
    )
    return {"answer": response.choices[0].message.content.strip()}

def correctness_evaluator(inputs: dict, outputs: dict, reference_outputs: dict):
    evaluator = create_llm_as_judge(
        prompt=CORRECTNESS_PROMPT,
        model="openai:o3-mini",
        feedback_key="correctness",
    )
    return evaluator(
        inputs=inputs,
        outputs=outputs,
        reference_outputs=reference_outputs
    )

6. 运行并查看结果

要运行评估实验，您将调用 evaluate(...)，它会：

从您在步骤3中创建的数据集中拉取示例。
将每个示例的输入发送到您在步骤4中定义的目标函数。
收集输出（模型的答案）。
将输出与 reference_outputs 一起传递给您在步骤5中定义的评估器。
将所有结果作为实验记录在LangSmith中，以便您可以在UI中查看它们。

将高亮显示的代码添加到您的 eval 文件中：

from langsmith import Client, wrappers
from openai import OpenAI
from openevals.llm import create_llm_as_judge
from openevals.prompts import CORRECTNESS_PROMPT

# 包装OpenAI客户端以进行LangSmith追踪
openai_client = wrappers.wrap_openai(OpenAI())

# 在目标函数内定义您要评估的应用逻辑
# SDK将自动将数据集中的输入发送到您的目标函数
def target(inputs: dict) -> dict:
    response = openai_client.chat.completions.create(
        model="gpt-5-mini",
        messages=[
            {"role": "system", "content": "请准确回答以下问题"},
            {"role": "user", "content": inputs["question"]},
        ],
    )
    return {"answer": response.choices[0].message.content.strip()}

def correctness_evaluator(inputs: dict, outputs: dict, reference_outputs: dict):
    evaluator = create_llm_as_judge(
        prompt=CORRECTNESS_PROMPT,
        model="openai:o3-mini",
        feedback_key="correctness",
    )
    return evaluator(
        inputs=inputs,
        outputs=outputs,
        reference_outputs=reference_outputs
    )

# 运行评估后，将提供一个链接以在langsmith中查看结果
def main():
    client = Client()
    experiment_results = client.evaluate(
        target,
        data="示例数据集",
        evaluators=[
            correctness_evaluator,
            # 可以在此处添加多个评估器
        ],
        experiment_prefix="在langsmith中的第一次评估",
        max_concurrency=2,
    )
    print(experiment_results)

if __name__ == "__main__":
    main()

运行您的评估器：
python eval.py

您将收到一个查看评估结果的链接以及实验结果的元数据：

查看实验 '在langsmith中的第一次评估-00000000' 的评估结果：https://smith.langchain.com/o/6551f9c4-2685-4a08-86b9-1b29643deb3d/datasets/e5fde557-c274-4e49-b39d-000000000000/compare?selectedSessions=70b11778-6a28-4cdb-be81-000000000000

<ExperimentResults 在langsmith中的第一次评估-00000000>

按照评估运行输出中的链接访问LangSmith UI中的数据集与实验页面，并探索实验结果。这将引导您到创建的实验，其中包含一个显示输入、参考输出和输出的表格。您可以选择一个数据集以打开结果的扩展视图。

后续步骤

以下是一些您可能接下来想探索的主题：

评估概念提供了LangSmith中评估关键术语的描述。
OpenEvals README 查看所有可用的预构建评估器以及如何自定义它们。
定义自定义评估器。
Python 或 TypeScript SDK参考，包含每个类和函数的全面描述。

视频指南

在GitHub上编辑此页面的源代码。

通过MCP 将这些文档编程连接到Claude、VSCode等，以获取实时答案。

​title: 评估快速入门 sidebarTitle: 快速入门

​先决条件

​1. 设置工作区密钥

​2. 创建提示

​3. 创建数据集

​4. 添加评估器

​5. 运行评估

​后续步骤

​1. 安装依赖项

​2. 设置环境变量

​3. 创建数据集

​4. 创建目标函数

​5. 定义评估器

​6. 运行并查看结果

​后续步骤

​视频指南

title: 评估快速入门 sidebarTitle: 快速入门

先决条件

1. 设置工作区密钥

2. 创建提示

3. 创建数据集

4. 添加评估器

5. 运行评估

后续步骤

1. 安装依赖项

2. 设置环境变量

3. 创建数据集

4. 创建目标函数

5. 定义评估器

6. 运行并查看结果

后续步骤

视频指南