VLLM 调用有哪些超参数
主要添加的可选参数包括:
-
模型加载参数:
low_cpu_mem_usage=True
:减少模型加载时的CPU内存占用load_in_4bit=True
:使用4位量化(需要安装bitsandbytes
库)quantization_config
:自定义量化配置
-
生成参数:
temperature
:控制生成文本的随机性(较低值更确定性,较高值更随机)top_p
和top_k
:控制采样策略num_beams
:束搜索宽度(增加该值会提高生成质量但降低速度)repetition_penalty
:减少重复文本的生成length_penalty
:控制生成文本的长度偏好
-
其他参数: