当前位置: 首页 > news >正文

LLaMA-Factory - 批量推理(inference)的脚本

scripts/vllm_infer.py 是 LLaMA-Factory 团队用于批量推理(inference)的脚本,基于 vLLM 引擎,支持高效的并行推理。它可以对一个数据集批量生成模型输出,并保存为 JSONL 文件,适合大规模评测和自动化测试。

一、 环境准备

激活LLaMaFactory环境,进入LLaMaFactory目录

cd LLaMA-Factoryconda activate llamafactory

已安装 vLLM

你需要先安装 vLLM(https://github.com/vllm-project/vllm),否则脚本无法运行。

   pip install vllm

已安装 fire

该脚本用 fire 作为命令行参数解析器。

   pip install fire

准备好模型和数据集

讲待推理文件放到LLaMA-Factory/data目录下

修改dataset_info.json文件

二、如何用 vLLM 正确加载 LoRA/adapter 微调模型进行批量推理?

1. 指定主模型和 adapter

vLLM 支持加载主模型+adapter(LoRA)权重。你需要:

  • --model_name_or_path 指向主模型目录(如 /root/.cache/modelscope/hub/models/XGenerationLab/XiYanSQL-QwenCoder-3B-2504)
  • --adapter_name_or_path 指向adapter目录(如 /root/LLaMA-Factory/output/qwencoder-sft)

2. 命令

python scripts/vllm_infer.py \--model_name_or_path /root/.cache/modelscope/hub/models/XGenerationLab/XiYanSQL-QwenCoder-3B-2504 \--adapter_name_or_path /root/LLaMA-Factory/output/qwencoder-sft \--dataset merged_1000_for_infer.json \--dataset_dir data \--template qwen \--save_name code_train_10k_predictions.jsonl \--max_new_tokens 256

3. 运行效果 

 

相关文章:

  • 《关于有序推动绿电直连发展有关事项的通知》核心内容
  • DAY40 训练和测试
  • 基于FashionMnist数据集的自监督学习(生成式自监督学习VAE算法)
  • 数据结构测试模拟题(3)
  • 【java面试】redis篇
  • 8天Python从入门到精通【itheima】-62~63
  • 【小沐杂货铺】基于Three.JS绘制太阳系Solar System(GIS 、WebGL、vue、react,提供全部源代码)第2期
  • 回溯算法!!
  • Fashion-MNIST LeNet训练
  • 个人用户进行LLMs本地部署前如何自查和筛选
  • PHY6222 基本文件操作
  • 2023ICPC杭州题解
  • 设计模式——组合设计模式(结构型)
  • Spring如何实现组件扫描与@Component注解原理
  • 【Hexo】4.Hexo 博客文章进行加密
  • ArcGIS Pro 创建渔网格网过大,只有几个格网的解决方案
  • 智能制造之精读——RPA制造行业常见场景【附全文阅读】
  • STM32F407寄存器操作(ADC非连续扫描模式)
  • python打卡day42@浙大疏锦行
  • Adobe LiveCycle ES、LiveCycle DS 与 BlazeDS 关系解析与比较
  • 龙湾区网站建设公司哪家好/信息流广告加盟代理
  • 重庆做网站建设公司哪家好/合肥seo网站建设
  • 免费营销网站制作/推广赚佣金项目
  • 石岛网站开发/网站查询平台
  • 平台网站建设设计/软件开发流程
  • 如何申请做网站/win10优化大师官网