当前位置：首页 > news >正文

【AI】AI评测入门(五)：Evaluation 跑起来

news 2025/10/22 13:35:39

在AI 评测入门前面三篇，我们了解了：

AI评测入门（一）：先搞懂你的数据集：构建了我们的数据集
AI 评测入门（二）：Prompt 迭代实战从“能跑通”到“能落地”：调试好了我们的初版 prompt
AI评测入门(三)：有什么评估器(Evaluator)-langfuse版：了解了 langfuse 里面有什么评估器

本篇，我们将把这些 dataset， prompt，evaluator 结合起来，通过一次完整的 Experiment（实验），让你能直观地评估 (Evaluate) 模型表现，完成从理论到实践的闭环。

Experiment

Experiment 定义

Experiment 就可以理解为跑批 dataset 对 prompt 进行评测，从而评估和比较其性能表现。

每个 Experiment 包含：

输入 Input
提示词(包含版本)：我们之前在 prompt management 里面创建好了
模型(包含参数)：用来评估的大模型
数据集：在 dataset 创建好的数据集
评估器：在创建过程中选择的评估器
预期输出 Expected Output

整体的流程就是：选择提示词版本 -> 选择模型 -> 选择要评估的数据集 -> 选择一个评估器(免费版只能1个) -> 给 experiment 取一个名称 -> 开始。

在这里插入图片描述
Experiment 发起位置

一个是在 prompt management 的某个 prompt 里面
在这里插入图片描述
一个是从 Datasets 的某个 dataset 里面

选择 prompt

有看过这篇的朋友，我在AI 评测入门（二）：Prompt 迭代实战从“能跑通”到“能落地”这篇文章留了一个钩子

兼容 langfuse dataset run，在 Prompt 最下面添加

用户评价是：{

查看全文

http://www.dtcms.com/a/512950.html

GSFE层错能计算（DFT）

数据结构——二十八、图的基本操作(王道408)

百度分公司网站外包中文在线っと好きだった最新版

【Python OOP Diary 1.1】题目二：简单计算器，改错与优化

如何用记事本做网站php网站开发工程师

企业网站群建设的原因网站优化检查

【JVM】详解 Class类文件的结构

珠海市住房和建设局网站微网站开发 php

欧美做爰视频网站工业品一站式采购平台

中位数贪心|

红海eHR全面智能化升级，重塑全角色智慧体验

建设通网站联系电话谷歌浏览器怎么关闭2345网址导航

Xshell效率实战系列四：内置Xftp快速启动——从1分钟到10秒的传输革命

贷款做网站公众号制作教程视频

微信链接网页网站制作较好的网站建设公司

seo网站推广经理招聘黄冈seo顾问

自助网站建设哪家效益快wordpress分享跳转插件

解决Linux系统中“undeclared identifier“问题的完整指南

SAP SD客户物料批量维护功能分享

秋实网站建设成全视频免费观看在线看动漫

uniapp vue 接口传值 \\ map遍历数据\\forEach \\ splice截取分隔符 \\请求携带数据向后端请求数据

动态图片素材网站建站下载专用网站

网站建设合同用缴印花税吗珠海网站建设的公司哪家好

【GESP】C++四级真题 luogu-B4041 [GESP202409 四级] 区间排序

（七）React 条件渲染原理分析

长沙网站外包宜宾网站建设北斗网络

Consumer 和 Function 接口详解

沈阳企业定制网站建设python开发微信小程序

网站排名推广推荐中国建设银行网站简介

有什么办法做自己的网站沈阳网页设计哪家好

Experiment

选择 prompt

相关文章：