title: 评估快速入门 sidebarTitle: 快速入门
评估是一种量化衡量LLM应用性能的方法。LLM的行为可能难以预测,即使是对提示、模型或输入的微小更改也可能显著影响结果。评估提供了一种结构化的方式来识别故障、比较版本并构建更可靠的AI应用。 在LangSmith中运行评估需要三个关键组件: 本快速入门将引导您使用LangSmith SDK或UI运行一个入门评估,该评估检查LLM响应的正确性。先决条件
开始之前,请确保您拥有:- LangSmith账户:在smith.langchain.com注册或登录。
- LangSmith API密钥:请遵循创建API密钥指南。
- OpenAI API密钥:从OpenAI仪表板生成。
- UI
- SDK
1. 设置工作区密钥
In the LangSmith UI, ensure that your OpenAI API key is set as a workspace secret.- Navigate to Settings and then move to the Secrets tab.
- Select Add secret and enter the
OPENAI_API_KEYand your API key as the Value. - Select Save secret.
When adding workspace secrets in the LangSmith UI, make sure the secret keys match the environment variable names expected by your model provider.
2. 创建提示
LangSmith的提示词游乐场使得可以对不同的提示词、新模型或测试不同的模型配置运行评估。- 在LangSmith UI中,导航至提示词工程下的游乐场。
-
在提示词面板下,将系统提示词修改为:
保持用户消息不变:
{question}。
3. 创建数据集
- 点击设置评估,这将在页面底部打开一个新实验表格。
-
在选择或创建新数据集下拉菜单中,点击**+ 新建**按钮创建一个新数据集。

-
向数据集中添加以下示例:
输入 参考输出 question: 乞力马扎罗山位于哪个国家? output: 乞力马扎罗山位于坦桑尼亚。 question: 地球的最低点是什么? output: 地球的最低点是死海。 - 点击保存并输入名称以保存您新创建的数据集。
4. 添加评估器
- 点击 + 评估器 并从预构建评估器选项中选择正确性。
- 在正确性面板中,点击保存。
5. 运行评估
-
选择右上角的 开始 来运行您的评估。这将在新实验表格中创建一个带有预览的实验。您可以点击实验名称查看完整视图。

后续步骤
- 有关评估的更多详细信息,请参阅评估文档。
- 了解如何在UI中创建和管理数据集。
- 了解如何从提示词游乐场运行评估。



