大模型推理参数讲解
大模型参数速查表
分类 | 参数 | 作用 | 典型值/备注 |
---|---|---|---|
输出长度 | max_tokens | 限制胜场最大长度(单位:token) | 一般256~2048,根据任务定 |
输出长度 | min_tokens | 限制最小输出长度 | 部分接口支持 |
随机性 & 多样性 | temperature | 控制随机性,越大越随机 | 1.0 |
随机性 & 多样性 | top_n | 仅考虑前 N 个概率最高的候选 | |
随机性 & 多样性 | top_p | 概率累积采样,控制多样性 | |
随机性 & 多样性 | frequency_penalty | 惩罚重复内容频率 | -2 ~ 2,常用 0~1 |
随机性 & 多样性 | presence_penalty | 惩罚已出现过的内容,鼓励新内容 | -2 ~ 2,常用 0~1 |
输出控制 | stop | 停止符,遇到即停止输出 | |
输出控制 | best_of | 生成多个候选,取最优 | 资源消耗大 |
输出控制 | n | 返回多个候选 | 常用于对比 |
输出控制 | logprobs | 返回 token 概率 | 调试/可解释性 |
上下文相关 | prompt | 输入内容 | 文本/对话 |
上下文相关 | suffix | 输出必须接在的内容 | 不常用 |
上下文相关 | echo | 是否返回 prompt | 调试用 |
聊天/角色控制 | system | 定义系统角色 | |
聊天/角色控制 | user | 用户角色 | |
聊天/角色控制 | assistant | 大模型角色 | |
聊天/角色控制 | tools/functions | 调用外部函数或工具 | |
其他 | logit_bias | 调整特定token频率 | |
其他 | stream | 流式输出 | 实时场景 |
其他 | seed | 随机数种子 | 结果可复现 |
token是什么?
- token:是大模型返回输出的单位,是模型的最小处理单元,通常相当于几个字母或一个汉字。
- 详解:模型内部用的是子词分词(subword tokenization)或字节对编码(BPE,Byte Pair Encoding)。
- 意义:如果设置太小,输出可能被截断;太大则会浪费计算资源。
- 基本上token换算比:
- 中文:1 字 ~= 1 token
- 英文:1 词 ~= 1.3 token
- 精确计算的话,需要用模型提供的分词器计算。