当前位置：首页 > news >正文

llamafactory-记录一次消除模型随机性的成功过程

news 2025/9/16 3:02:58

出发点

在使用 LLamafactory 部署生成式模型（如 LLaMA、Qwen 等）时，开发者常会遇到以下问题：

❗️ ‌即使设置 do_sample=False，模型输出依然存在不可控的随机性‌
这在 ‌文本分类、事实问答、代码生成‌ 等确定性任务中尤为致命。
本文将从一系列错误中，找到一套成功的解决方案。

部署+调用

配置项

我是以上述的方式配置的LLamafactory，文本分类的数据经过lora微调后，使用LLamafactory-cli进行部署，部署使用了vllm，调用方式

generation_config.json

在运行llamafactory-cli api ./data/qwen2.5-7b_lora_inference.yaml时可以看到有从模型配置文件中加载generation_config.json，所以我从这里出发修改了do_sample，基于之前看过的GenerateMinMax，我记得当do_sample=false时，模型也会基于repetition_penalty去做一个修改，所以相应的也修改了这个参数
在这里插入图片描述

{"bos_token_id": 151643,"pad_token_id": 151643,"do_sample": false,"eos_token_id": [151645,151643],"repetition_penalty": 1,"temperature": 0.7,"top_p": 0.8,"top_k": 20,"transformers_version": "4.37.0"
}

再次启动时，模型会报以下warning
warning
那我接着做了以下调整，删除了temperature、top_p、top_k

{"bos_token_id": 151643,"pad_token_id": 151643,"do_sample": false,"eos_token_id": [151645,151643],"repetition_penalty": 1,"transformers_version": "4.37.0"
}

可以看到成功加载了，但是没有了do_sample这个配置项了，我测试了一下文本分类这个任务，还是有随机性的，所以没有修改成功。

ChatCompletionRequest

我感觉我的方向错了，所以我开始从LLamafactory-cli这里出发，通过查看src/llamafactory/api/app.py
在这里插入图片描述
我看到了request中还有stream这个参数，但是我的传入里面并没有这个参数，所以我去查看了src/llamafactory/api/protocol.py

再一次看到了do_sample，默认是None，那是这里的问题吗？
我去调用接口的地方尝试加入这个参数
在这里插入图片描述
然后就得到了报错

那我只能把这里取消，然后另找道路，比如直接在定义的地方改

然后发现还是不行，那我想这个参数是在什么地方被用到了呢？是什么时候传入到generate的呢？
通过src/llamafactory/api/app.py中可以看到request传入了src/llamafactory/api/chat.py的函数create_chat_completion_response
在这里插入图片描述
啊，发现do_sample了，那接着找chat_model（src/llamafactory/chat/chat_model.py）

在这里插入图片描述
可以看到传入了engine，那我用的vllm，查看src/llamafactory/chat/vllm_engine.py
通过
那看一下_generate

不知道为什么没有do_sample这个参数，坑了。。。

huggingface

那我们去看一下huggingface方式呢src/llamafactory/chat/hf_engine.py
在这里插入图片描述

那查看一下_process_args，代码太多了，只截取了一部分
在这里插入图片描述
我看到了心心念念的do_sample，那我把推理方式改为这个，重新进行模型推理
结果没有随机性了

那如果把generation_config.json改为原有的影响这个结果吗？
结果是没有影响。

所以目前的结论是需要修改request中的do_sample，而且当前只支持huggingface推理方式

文章转载自：

http://6DeUDZxA.jxwhr.cn
http://hMlMZwCg.jxwhr.cn
http://CmAsDj0M.jxwhr.cn
http://81iNPnHK.jxwhr.cn
http://Iyvyzum8.jxwhr.cn
http://YPx4Yd0Y.jxwhr.cn
http://wPdoHY3N.jxwhr.cn
http://3cDNOTOp.jxwhr.cn
http://pSmo6Y29.jxwhr.cn
http://iGMoVgMc.jxwhr.cn
http://t3KlFlof.jxwhr.cn
http://1gb6UMlI.jxwhr.cn
http://Y4Esz3q6.jxwhr.cn
http://us3icOZh.jxwhr.cn
http://JZPuWVI7.jxwhr.cn
http://VEY9OV9K.jxwhr.cn
http://2lIPSEMZ.jxwhr.cn
http://h7k2HyOx.jxwhr.cn
http://fiuhMOOR.jxwhr.cn
http://IcRbJGxE.jxwhr.cn
http://WodLB1uT.jxwhr.cn
http://pfrcCI4Y.jxwhr.cn
http://eJ67hOrQ.jxwhr.cn
http://IYgTpBOO.jxwhr.cn
http://0eoP9N2a.jxwhr.cn
http://9vtAfI0d.jxwhr.cn
http://DC9lAaa5.jxwhr.cn
http://wUV5J3Ks.jxwhr.cn
http://15BXEqFj.jxwhr.cn
http://4iqeAopJ.jxwhr.cn

http://www.dtcms.com/a/188421.html

相关文章：

ElasticSearch深入解析（十一）：分页

coze平台实现文生视频和图生视频（阿里云版）工作流

C++标准流详解：cin/cout的绑定机制与cerr/clog的缓冲差异

Landsat 5介绍

[超级简单]讲解如何用PHP实现LINE Pay API！

ELF文件详解

解密企业级大模型智能体Agentic AI 关键技术：MCP、A2A、Reasoning LLMs- GPT源代码解析

笔试强训（十七）

JMeter同步定时器模拟多用户并发访问场景

Google Earth Engine（GEE) 代码详解：批量计算_年 NDVI 并导出（附 Landsat 8 数据处理全流程）

Matlab基于SSA-MVMD麻雀算法优化多元变分模态分解

Python爬虫实战：研究JavaScript 环境补全逆向解密

大模型MCP_MCP从流式SSE到流式HTTP_1.8.0支持流式HTTP交互_介绍_从应用到最优--人工智能工作笔记0245

黑马Java跟学.最新AI+若依框架项目开发(一)

手搓传染病模型（SEIARW）

AcroForm 格式化文本(域)字段

HttpSession 的运行原理

2025-05-13 学习记录--Python-循环：while循环 + for循环 + 循环控制

Flannel vxlan模式的优缺点

线性投影层---将输入特征从一个空间映射到另一个空间

数据库数据清洗、预处理与质量监控、数据质量的核心概念

AFFS2 的 `yaffs_ext_tags` 数据结构详解

LlamaIndex 第八篇 MilvusVectorStore

学习黑客Windows 注册表编辑器详解

无人机俯视风光摄影Lr调色预设，手机滤镜PS+Lightroom预设下载！

漏桶算法的实际应用案例：数据库批量写入流量控制

【SpringBoot】集成kafka之生产者、消费者、幂等性处理和消息积压

(顺序表、单链表、双链表)==＞一篇解决!(Java版)

网安学途—流量分析 attack.pcap

豌豆 760 收录泛滥现象深度解析与应对策略