当前位置: 首页 > news >正文

LLaMA-Factory微调教程4:模型评估

文章目录

        • 通用能力评估
          • 评估结果
        • NLG 评估
          • **一、BLUE(Bilingual Evaluation Understudy)**
          • 1. 核心原理
          • 2. 计算步骤
          • 3. 特点与适用场景
        • **二、ROUGE(Recall-Oriented Understudy for Gisting Evaluation)**
          • 1. 核心原理
          • 2. 计算步骤(以ROUGE-N为例)
          • 3. 特点与适用场景
        • **三、BLUE与ROUGE的对比**
        • **四、总结**
        • 评估结果
        • 评估相关参数

通用能力评估

在完成模型训练后,可以通过 llamafactory-cli eval examples/train_lora/llama3_lora_eval.yaml 来评估模型效果。

模仿llama3_lora模型的评估参数文件,准备qwen2_7b模型的评估参数文件,
下面是qwen2_lora_eval文件,

### model
model_name_or_path: ../Qwen2-7B
adapter_name_or_path: saves/qwen2-7b/lora/sft
trust_remote_code: 
http://www.dtcms.com/a/314466.html

相关文章:

  • Spring Boot + ShardingSphere 分库分表实战
  • 【CVPR2025】计算机视觉|AnomalyNCD:让工业异常分类“脱胎换骨”!
  • 计算机视觉(2)车规摄像头标准
  • YOLO11涨点优化:原创自研DSAM注意力!基于BiLevelRoutingAttention的颠覆性升级
  • nodejs 封装方法将打印日志输出到指定文件
  • javacc实现简单SQL解析器
  • Llama 3词汇表揭秘:128,000个token解析:merges 是子词分词算法
  • 数据结构——单向链表部分操作及valgrind安装
  • Exporters | 安装mongodb_exporter
  • 数据分页异步后台导出excel
  • 【Ubuntu】请问,`ip -a`显示的“wlo1”是什么呀?
  • 笔试——Day28
  • 如何在 Ubuntu 24.04 上安装和配置 TFTP 服务器
  • 高防服务器租用的作用都有哪些?
  • 上海交通大学联合项目论文解读 | Hume 模型:视觉 - 语言 - 动作模型中引入系统2思维
  • 单片机51 day46
  • 部署 Kibana 8.2.2 可视化管理 Elasticsearch 8.2.2 集群
  • 【测试工程思考】测试自动化基础能力建设
  • 机试备考笔记 4/31
  • Linux开发利器:探秘开源,构建高效——基础开发工具指南(下)【make/Makefile】
  • 笛卡尔坐标
  • 机器学习笔记:集成学习/模型融合
  • usr/bin/ld链接报错undefined reference `av_frame_free(AVFrame**)‘等ffmpeg库报错
  • 【Spark征服之路-4.5-Spark-Streaming核心编程(三)】
  • debian 时间同步 设置ntp服务端 客户端
  • FastAPI入门:中间件、CORS跨域资源共享、SQL数据库
  • 【笔记】ROS1|4 Turtlebot3仿真Waffle循线跟踪【旧文转载】
  • Linux 磁盘管理与分区配置
  • open-webui pipelines报404, ‘Filter pipeline.exporter not found‘
  • 【测试工程思考】云平台测试可重用性和场景覆盖度的平衡术