深入分析LangSmith使用及自动化评估
使用LangSmith对AI应用进行自动化评估的核心流程可分为数据追踪、评估配置、结果分析三大阶段。以下是结合其核心功能和典型场景的具体操作指南:
一、集成与数据追踪
-
环境配置
通过设置环境变量快速接入LangSmith,支持LangChain框架的项目可自动追踪运行轨迹:import os os.environ["LANGCHAIN_ENDPOINT"] = "https://api.smith.langchain.com" os.environ["LANGCHAIN_API_KEY"] = "YOUR_API_KEY" os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_KEY" # 若使用OpenAI模型
非LangChain项目可通过Python/TypeScript SDK手动记录输入输出:
from langsmith import Client client = Client() with client.start_run(project="my-app", name="test-run") as run:input_data = {"prompt": "Translate to French: I love programming."}output = model.predict(input_data)run.log_outputs(output=output)
-
数据集构建
定义包含输入和预期输出的评估数据集,支持结构化与非结构化数据:dataset = client.create_dataset("qa-test") client.create_examples(inputs=[{"prompt": "State the year of the Declaration of Independence."}],outputs=[{"output":