当前位置: 首页 > news >正文

【AI】AI评测入门(五):Evaluation 跑起来

在AI 评测入门前面三篇,我们了解了:

  • AI评测入门(一):先搞懂你的数据集:构建了我们的数据集
  • AI 评测入门(二):Prompt 迭代实战从“能跑通”到“能落地”:调试好了我们的初版 prompt
  • AI评测入门(三):有什么评估器(Evaluator)-langfuse版:了解了 langfuse 里面有什么评估器

本篇,我们将把这些 dataset, prompt,evaluator 结合起来,通过一次完整的 Experiment(实验),让你能直观地评估 (Evaluate) 模型表现,完成从理论到实践的闭环。

Experiment

Experiment 定义

Experiment 就可以理解为跑批 dataset 对 prompt 进行评测,从而评估和比较其性能表现。

每个 Experiment 包含:

  • 输入 Input
  • 提示词(包含版本):我们之前在 prompt management 里面创建好了
  • 模型(包含参数):用来评估的大模型
  • 数据集:在 dataset 创建好的数据集
  • 评估器:在创建过程中选择的评估器
  • 预期输出 Expected Output

整体的流程就是:选择提示词版本 -> 选择模型 -> 选择要评估的数据集 -> 选择一个评估器(免费版只能1个) -> 给 experiment 取一个名称 -> 开始。

在这里插入图片描述
Experiment 发起位置

一个是在 prompt management 的某个 prompt 里面
在这里插入图片描述
一个是从 Datasets 的某个 dataset 里面
在这里插入图片描述

选择 prompt

有看过这篇的朋友,我在AI 评测入门(二):Prompt 迭代实战从“能跑通”到“能落地”这篇文章留了一个钩子

兼容 langfuse dataset run,在 Prompt 最下面添加

用户评价是:{
http://www.dtcms.com/a/512950.html

相关文章:

  • GSFE层错能计算(DFT)
  • 数据结构——二十八、图的基本操作(王道408)
  • 百度分公司 网站外包中文在线っと好きだった最新版
  • 【Python OOP Diary 1.1】题目二:简单计算器,改错与优化
  • 如何用记事本做网站php网站开发工程师
  • 企业网站群建设的原因网站优化检查
  • 【JVM】详解 Class类文件的结构
  • 珠海市住房和建设局网站微网站开发 php
  • 欧美做爰视频网站工业品一站式采购平台
  • 中位数贪心|
  • 红海eHR全面智能化升级,重塑全角色智慧体验
  • 建设通网站联系电话谷歌浏览器怎么关闭2345网址导航
  • Xshell效率实战系列四:内置Xftp快速启动——从1分钟到10秒的传输革命
  • 贷款做网站公众号制作教程视频
  • 微信链接网页网站制作较好的网站建设公司
  • seo网站推广经理招聘黄冈seo顾问
  • 自助网站建设哪家效益快wordpress分享跳转插件
  • 解决Linux系统中“undeclared identifier“问题的完整指南
  • SAP SD客户物料批量维护功能分享
  • 秋实网站建设成全视频免费观看在线看动漫
  • uniapp vue 接口传值 \\ map遍历数据\\forEach \\ splice截取分隔符 \\请求携带数据向后端请求数据
  • 动态图片素材网站建站下载专用网站
  • 网站建设合同用缴印花税吗珠海网站建设的公司哪家好
  • 【GESP】C++四级真题 luogu-B4041 [GESP202409 四级] 区间排序
  • (七)React 条件渲染原理分析
  • 长沙网站外包宜宾网站建设北斗网络
  • Consumer 和 Function 接口详解
  • 沈阳企业定制网站建设python开发微信小程序
  • 网站排名推广推荐中国建设银行网站简介
  • 有什么办法做自己的网站沈阳网页设计哪家好