Skip to main content

title: 评估快速入门 sidebarTitle: 快速入门

评估是一种量化衡量LLM应用性能的方法。LLM的行为可能难以预测,即使是对提示、模型或输入的微小更改也可能显著影响结果。评估提供了一种结构化的方式来识别故障、比较版本并构建更可靠的AI应用。 在LangSmith中运行评估需要三个关键组件:
  • 数据集:一组测试输入(以及可选的预期输出)。
  • 目标函数:您想要测试的应用部分——这可能是一个使用新提示的单一LLM调用、一个模块或您的整个工作流。
  • 评估器:对目标函数输出进行评分的函数。
本快速入门将引导您使用LangSmith SDK或UI运行一个入门评估,该评估检查LLM响应的正确性。
如果您更喜欢观看关于追踪入门的视频,请参阅数据集和评估的视频指南

先决条件

开始之前,请确保您拥有: 选择UI或SDK筛选器查看说明:

1. 设置工作区密钥

In the LangSmith UI, ensure that your OpenAI API key is set as a workspace secret.
  1. Navigate to Settings and then move to the Secrets tab.
  2. Select Add secret and enter the OPENAI_API_KEY and your API key as the Value.
  3. Select Save secret.
When adding workspace secrets in the LangSmith UI, make sure the secret keys match the environment variable names expected by your model provider.

2. 创建提示

LangSmith的提示词游乐场使得可以对不同的提示词、新模型或测试不同的模型配置运行评估。
  1. LangSmith UI中,导航至提示词工程下的游乐场
  2. 提示词面板下,将系统提示词修改为:
    请准确回答以下问题:
    
    保持用户消息不变:{question}

3. 创建数据集

  1. 点击设置评估,这将在页面底部打开一个新实验表格。
  2. 选择或创建新数据集下拉菜单中,点击**+ 新建**按钮创建一个新数据集。
    游乐场界面,显示了编辑后的系统提示词以及用于创建新数据集的新实验下拉菜单。
  3. 向数据集中添加以下示例:
    输入参考输出
    question: 乞力马扎罗山位于哪个国家?output: 乞力马扎罗山位于坦桑尼亚。
    question: 地球的最低点是什么?output: 地球的最低点是死海。
  4. 点击保存并输入名称以保存您新创建的数据集。

4. 添加评估器

  1. 点击 + 评估器 并从预构建评估器选项中选择正确性
  2. 正确性面板中,点击保存

5. 运行评估

  1. 选择右上角的 开始 来运行您的评估。这将在新实验表格中创建一个带有预览的实验。您可以点击实验名称查看完整视图。
    使用示例数据集的完整实验视图结果。

后续步骤

要了解更多关于在LangSmith中运行实验的信息,请阅读评估概念指南

视频指南


通过MCP 将这些文档编程连接到Claude、VSCode等,以获取实时答案。