【AI】AI评测入门(五):Evaluation 跑起来
在AI 评测入门前面三篇,我们了解了:
- AI评测入门(一):先搞懂你的数据集:构建了我们的数据集
- AI 评测入门(二):Prompt 迭代实战从“能跑通”到“能落地”:调试好了我们的初版 prompt
- AI评测入门(三):有什么评估器(Evaluator)-langfuse版:了解了 langfuse 里面有什么评估器
本篇,我们将把这些 dataset, prompt,evaluator 结合起来,通过一次完整的 Experiment(实验),让你能直观地评估 (Evaluate) 模型表现,完成从理论到实践的闭环。
Experiment
Experiment 定义
Experiment 就可以理解为跑批 dataset 对 prompt 进行评测,从而评估和比较其性能表现。
每个 Experiment 包含:
- 输入 Input
- 提示词(包含版本):我们之前在 prompt management 里面创建好了
- 模型(包含参数):用来评估的大模型
- 数据集:在 dataset 创建好的数据集
- 评估器:在创建过程中选择的评估器
- 预期输出 Expected Output
整体的流程就是:选择提示词版本 -> 选择模型 -> 选择要评估的数据集 -> 选择一个评估器(免费版只能1个) -> 给 experiment 取一个名称 -> 开始。
Experiment 发起位置
一个是在 prompt management 的某个 prompt 里面
一个是从 Datasets 的某个 dataset 里面
选择 prompt
有看过这篇的朋友,我在AI 评测入门(二):Prompt 迭代实战从“能跑通”到“能落地”这篇文章留了一个钩子
兼容 langfuse dataset run,在 Prompt 最下面添加
用户评价是:{