当前位置：首页 > news >正文

LLaMA-Factory微调教程4：模型评估

news 2025/11/12 8:46:01

文章目录

- - - 通用能力评估
    - - 评估结果
    - NLG 评估
    - - **一、BLUE（Bilingual Evaluation Understudy）**
      - 1. 核心原理
      - 2. 计算步骤
      - 3. 特点与适用场景
    - **二、ROUGE（Recall-Oriented Understudy for Gisting Evaluation）**
    - - 1. 核心原理
      - 2. 计算步骤（以ROUGE-N为例）
      - 3. 特点与适用场景
    - **三、BLUE与ROUGE的对比**
    - **四、总结**
    - 评估结果
    - 评估相关参数

通用能力评估

在完成模型训练后，可以通过 llamafactory-cli eval examples/train_lora/llama3_lora_eval.yaml 来评估模型效果。

模仿llama3_lora模型的评估参数文件，准备qwen2_7b模型的评估参数文件，
下面是qwen2_lora_eval文件，

### model
model_name_or_path: ../Qwen2-7B
adapter_name_or_path: saves/qwen2-7b/lora/sft
trust_remote_code:

http://www.dtcms.com/a/314466.html

相关文章：

Spring Boot + ShardingSphere 分库分表实战

【CVPR2025】计算机视觉|AnomalyNCD：让工业异常分类“脱胎换骨”！

计算机视觉（2）车规摄像头标准

YOLO11涨点优化：原创自研DSAM注意力！基于BiLevelRoutingAttention的颠覆性升级

nodejs 封装方法将打印日志输出到指定文件

javacc实现简单SQL解析器

Llama 3词汇表揭秘：128,000个token解析：merges 是子词分词算法

数据结构——单向链表部分操作及valgrind安装

Exporters | 安装mongodb_exporter

数据分页异步后台导出excel

【Ubuntu】请问，`ip -a`显示的“wlo1”是什么呀？

笔试——Day28

如何在 Ubuntu 24.04 上安装和配置 TFTP 服务器

高防服务器租用的作用都有哪些？

上海交通大学联合项目论文解读 | Hume 模型：视觉 - 语言 - 动作模型中引入系统2思维

单片机51 day46

部署 Kibana 8.2.2 可视化管理 Elasticsearch 8.2.2 集群

【测试工程思考】测试自动化基础能力建设

机试备考笔记 4/31

Linux开发利器：探秘开源，构建高效——基础开发工具指南（下）【make/Makefile】

笛卡尔坐标

机器学习笔记：集成学习/模型融合

usr/bin/ld链接报错undefined reference `av_frame_free(AVFrame**)‘等ffmpeg库报错

【Spark征服之路-4.5-Spark-Streaming核心编程（三）】

debian 时间同步设置ntp服务端客户端

FastAPI入门：中间件、CORS跨域资源共享、SQL数据库

【笔记】ROS1｜4 Turtlebot3仿真Waffle循线跟踪【旧文转载】

Linux 磁盘管理与分区配置

open-webui pipelines报404, ‘Filter pipeline.exporter not found‘

【测试工程思考】云平台测试可重用性和场景覆盖度的平衡术