当前位置：首页 > news >正文

（1）大模型的提示词工程实践技巧---LLM输出配置详解

news 2025/7/2 20:11:12

LLM输出本质是一个预测引擎，它的输出是基于概率的下一个最可能出现的token预测，因此提示词工程即引导模型预测最符合期望的token序列的过程。

LLM输出配置详解

1. 输出长度控制

生成更多令牌需要 LLM 进行更多计算，导致更高的能耗、可能更慢的响应时间以及更高的成本。
设置输出长度(Output length)

一个重要的配置设置是响应中要生成的令牌数量。生成更多令牌需要 LLM 进行更多计算，导致更高的能耗、可能更慢的响应时间以及更高的成本。

🚫关键误区：限制令牌数量 ≠ 内容简洁

减少 LLM 的输出长度并不会使模型在其创建的输出中变得风格或文本上更简洁，它只是导致 LLM 在达到限制时强制截断。

实例对比：

设置 max_tokens=20 时：

原本完整输出：人工智能的发展对教育领域产生了深远影响，主要体现在以下几个方面：个性化学习、智能评估、辅助教学...
截断后输出：人工智能（AI）如今已渗透到各行各业，极大地改变了我们的生活和工作方式。以下是当前AI的主要...

如何正确控制输出长度？

在提示中明确指令
❌ 错误：设置 max_tokens=50
✅正确：提示中加入"用2-3句话总结"

实践建议

快速问答：100-200 tokens
详细解析：500-1000 tokens
长文创作：1000+ tokens

2. 采样控制：温度、Top-K和Top-P

LLM并不是直接选择下一个令牌，而是输出一个概率分布——词汇表中的每个可能令牌都有其出现的概率。
这三个参数都是决定了输出的多样性和随机性。

温度（Temperature）

温度控制输出的随机性和多样性。它本质上是对概率分布进行"reshaping"的过程

Temperature = 0 (贪婪解码)

总是选择概率最高的令牌
输出完全确定性（除非存在多个概率高且相同的令牌）
适用场景：数学计算、代码编写、精确事实回答

Temperature = 0.8-1.0+ (高温)

高度创造性和多样性
适用：创意写作、头脑风暴、创新方案

Top-K采样

Top-K只考虑概率排名前K位的令牌，像一个"精英选拔器"。

场景：
场景：猫坐在___上面

原始概率分布：

地毯：0.30（第1）
沙发：0.25（第2）
椅子：0.15（第3）
桌子：0.10（第4）
地板：0.08（第5）
窗台：0.05（第6）
柜子：0.03（第7）
床：0.04（第8）

Top-K=3时：只考虑【地毯、沙发、椅子】
Top-K=5时：考虑【地毯、沙发、椅子、桌子、地板】

Top-K的特性：
K=1：等同于贪婪解码
K值越大：选择空间越广，输出越多样
固定选择数量：不考虑概率差异大小

Top-P (核采样)

Top-P选择累积概率达到P的令牌集合，像"智能筛选器"。

场景：
同上场景，Top-P=0.70（70%）

累积过程：

地毯：0.30 → 累积30%
沙发：0.25 → 累积55%
椅子：0.15 → 累积70%（达到阈值）

最终候选：【地毯、沙发、椅子】

总结

参数设置	影响结果	其他参数状态
温度 = 0	完全确定性：总是选择概率最高的token	Top-K、Top-P变得无关紧要
温度 > 1 (如10)	完全随机化：均匀采样所有可用token	温度本身变得无关紧要
Top-K = 1	直接选择：强制选择概率最高的token	温度、Top-P失去作用
Top-K = 词汇表大小	无限制采样：所有非零概率token都可用	不会筛选掉任何token
Top-P ≈ 0	近似确定性：几乎只考虑最高概率token	温度、Top-K无效
Top-P = 1	无限制概率：所有非零概率token都可用	不过滤任何token

标准创造力平衡（默认推荐）
用于：文章写作、对话生成、常规任务

{"temperature": 0.2,"top_p": 0.95,"top_k": 30
}

高创意模式
用于：创意写作、头脑风暴、新颖输出

{"temperature": 0.9,"top_p": 0.99,"top_k": 40
}

事实准确模式
用于：技术文档、事实陈述、正式回答

{"temperature": 0.1,"top_p": 0.9,"top_k": 20
}

确定性模式
用于：数学计算、逻辑推理、有唯一正确答案的任务

{"temperature": 0
}

查看全文

http://www.dtcms.com/a/169459.html

动态功耗与静态功耗

WGDI-分析WGD及祖先核型演化的集成工具-文献精读126

【Mytais系列】介绍、核心概念

【自然语言处理与大模型】使用Xtuner进行模型合并与导出

Github 2025-05-03 Rust开源项目日报 Top10

(即插即用模块-Attention部分) 六十三、(2024 CVPR) MLKA 多尺度大核注意力

我写了一个分析 Linux 平台打开文件描述符跨进程传递的工具

学习黑客网络安全法

Docker与WSL2如何清理

WebRTC 服务器之Janus架构分析

【JAVA】数组与内存模型：二维数组底层实现（9）

2.2 矩阵

NV203NV207SSD固态闪存NV208NV213

Maven 实现多模块项目依赖管理

neo4j初尝试

YOLOv11改进：利用RT-DETR主干网络PPHGNetV2助力轻量化目标检测

Excel-CLI：终端中的轻量级Excel查看器

普通IT的股票交易成长史--20250502 突破（2）

硬件工程师面试常见问题（12）

ES6/ES11知识点续一

JavaScript性能优化实战之调试与性能检测工具

【Hive入门】Hive与Spark SQL深度集成：通过Spark ThriftServer高效查询Hive表

【Hive入门】Hive与Spark SQL深度集成：执行引擎性能全面对比与调优分析

【Linux】Petalinux驱动开发基础

学习黑客安全基础理论入门

Vue3源码学习6-增强鲁棒性？

网络安全：sql注入练习靶场——sqli_labs安装保姆级教程

ICML2021 | DeiT | 训练数据高效的图像 Transformer 与基于注意力的蒸馏

python中的函数

Python 装饰器优化策略模式：电商促销折扣的优雅解法