当前位置：首页 > news >正文

LLM Prompt与开源模型资源(2)提示工程关键技术

news 2025/8/2 5:15:35

学习材料：https://www.hiascend.com/developer/courses/detail/1935520434893606913
学习目的：
了解提示工程的定义与作用
熟悉提示工程的关键技术相关概念
掌握基于昇腾适配的大模型提示工程的入门及进阶指南

上下文学习 (In-Context Learning)

定义
上下文学习（ICL）是指大型语言模型（LLM）在不更新其内部参数的情况下，仅通过在提示（Prompt）中提供少量示例，就能学习并执行新任务的能力。模型利用这些上下文中的示例来理解任务的模式和要求，并将其应用到新的输入上。

核心思想
ICL 的核心在于利用 LLM 强大的模式识别和泛化能力。通过向模型展示“输入-输出”的范例，模型能够推断出隐藏在示例中的任务逻辑，并模仿该逻辑生成新的输出。这是一种“展示，而非告知”的交互方式。

应用场景

需要快速适应特定任务，而不想进行耗时的模型微调（Fine-tuning）。
任务逻辑可以通过几个简单的例子来清晰地展示，例如特定格式的文本分类、信息提取或风格转换。
小样本和零样本提示的基础。

示例
假设需要将电影评论分为“正面”或“负面”。

将以下评论分类为正面或负面：评论：这部电影的节奏太慢了。
分类：负面评论：演员的表演非常出色！
分类：正面评论：剧情毫无新意，浪费时间。
分类：负-面评论：画面精美，配乐动人。
分类：

模型会根据前面的示例，推断出应将最后一条评论分类为“正面”。

零样本提示 (Zero-shot Prompting)

定义
零样本提示是一种不向模型提供任何任务示例，仅通过清晰的任务描述来引导其完成任务的技术。模型完全依赖其在预训练阶段学到的广泛知识和理解能力来执行指令。

核心思想
这种技术的基础是相信 LLM 经过海量数据训练后，已经具备了对多种任务的“常识性”理解。因此，只要指令足够清晰、明确，模型就能“举一反三”，直接解决问题。

应用场景

处理简单、直接且常见的任务，如文本摘要、翻译、情感分析、基本问答等。
作为探索模型对某一任务基础能力的起点。
当寻找和构建示例（Shots）成本较高时。

示例
直接向模型提出要求，不给任何范例。

请总结以下段落的核心观点：“人工智能的快速发展正在深刻地改变着社会结构和就业市场。自动化技术提高了生产效率，但也引发了关于工作岗位流失的担忧。教育体系需要改革，以培养适应未来社会需求的创新型人才。”

模型会直接输出该段落的摘要，无需任何格式或内容的参考。

少样本提示 (Few-shot Prompting)

定义
少样本提示是“上下文学习”最典型的应用。它通过在提示中提供几个（通常是2-5个）完整的任务示例（“Shots”），来指导模型如何处理后续的同类任务。这些示例为模型提供了清晰的格式、风格和逻辑参考。

核心思想
如果说零样本提示是“让模型自己想办法”，那么少样本提示就是“手把手教模型做几遍”。通过提供高质量的范例，可以显著提升模型在复杂或特定任务上的准确性和稳定性。

应用场景

当零样本提示效果不佳，模型无法准确理解任务要求时。
需要模型输出特定格式或遵循复杂规则的任务。
任务相对新颖，模型在预训练数据中可能接触较少。

示例
假设需要从一段描述中提取产品名称和价格。

从以下文本中提取产品名称和价格：文本：“我们最新推出的星尘键盘售价为99美元。”
产品：星尘键盘
价格：99美元文本：“今天购买光影鼠标，仅需59美元。”
产品：光影鼠标
价格：59美元文本：“这款超高清显示器的价格是399美元。”
产品：
价格：

模型会学习这种提取模式，并为最后一条文本填上“超高清显示器”和“399美元”。

思维链 (Chain-of-Thought, CoT)

定义
思维链（CoT）是一种高级提示技术，它通过引导模型在给出最终答案之前，先输出一步步的推理过程，来提升其在复杂问题（如数学应用题、逻辑推理题）上的表现。这个过程就像人类解决问题时“打草稿”或“理清思路”。

核心思想
CoT 的关键在于将一个复杂问题分解为一系列可管理的小步骤。通过明确地展示或要求模型展示其推理路径，可以减少模型在逻辑上“跳步”或出错的概率，从而得到更可靠的答案。

应用场景

需要多步推理的数学问题和逻辑谜题。
常识推理和需要综合多个信息点才能回答的问题。
希望理解模型是如何得出结论的，以进行调试或验证。

示例
零样本CoT（通过添加特定短语触发）：

问题：一个杂货店有23个苹果。他们用掉20个做午餐，然后又买了6个。现在他们有多少个苹果？请逐步思考。

模型的输出可能包含：“首先，杂货店有23个苹果。用掉20个后，剩下23 - 20 = 3个。然后他们又买了6个，所以现在有3 + 6 = 9个。最终答案是9。”

自我一致性 (Self-Consistency)

定义
自我一致性是一种集成（Ensemble）技术，它在思维链（CoT）的基础上更进一步。它通过多次（例如3-10次）向模型提出同一个问题，并采用不同的解码策略（如提高temperature）来生成多个不同的推理路径，最后通过“投票”选出最一致、出现次数最多的答案作为最终结果。

核心思想
“条条大路通罗马”。对于一个复杂问题，正确的答案应该可以通过多种不同的推理路径得到。如果多个独立的“思考过程”都指向同一个答案，那么这个答案正确的可能性就更高。这种方法有效地降低了单个推理路径中偶然错误的影响。

应用场景

对答案准确性要求极高的复杂推理任务。
算术、常识和逻辑推理问题，特别是当单一的思维链结果不够稳定时。
愿意牺牲一定的计算成本来换取更高质量和更可靠的答案。

示例
对于一个数学问题，我们可能得到三个不同的思维链输出：

路径1：“…逐步计算。”
路径2：“…净变化计算。”
路径3：“…验证计算。”

通过投票，自我一致性方法会选择“10”作为最终答案，因为它在多个独立的推理中都出现了。

生成知识提示（Generated Knowledge Prompting）

定义：一种提示词工程技术，通过引导AI先生成相关知识，再基于这些知识回答问题或完成任务。

核心原理：

利用AI的先验知识，通过多步骤提示引导AI生成相关信息
基于生成的知识进行推理和回答，形成知识-推理的闭环

应用场景：

复杂问题解答
知识密集型任务
需要多步推理的场景

优势：

提高回答的准确性和深度
减少幻觉现象
增强模型的知识利用能力

实施方法：

首先提示AI生成与问题相关的知识
然后基于这些知识提示AI回答原始问题
可选：迭代优化生成的知识，提高回答质量

Prompting 示例：

// 示例1：火星环境特征
步骤1：请生成关于火星环境特征的关键知识，包括火星的大气成分、温度范围、重力条件、水资源状况以及与地球的对比。步骤2：基于以上生成的火星环境知识，请分析火星上是否具备人类生存的基本条件，并讨论人类在火星上生活需要克服的主要挑战。// 示例2：火星探测任务
步骤1：请生成关于人类火星探测历史的关键知识点，包括重要的探测任务、发射国家、取得的主要成果以及技术突破。步骤2：基于以上生成的火星探测知识，请分析中国"天问一号"火星探测任务的特点、科学目标及其在国际火星探测中的地位和意义。

大概的结论是：

// 示例1：火星环境特征
火星目前不具备人类自然生存的条件，其环境极端恶劣，远不如地球宜居。然而，凭借现代科技与工程能力，人类可以通过建造封闭生态系统、开发本地资源、防护辐射与极端气候，逐步克服生存挑战。火星虽非“第二地球”，但它是人类迈向深空文明的第一步，是探索、适应与进化的试验场。实现火星生存，不仅是技术挑战，更是人类意志与协作精神的体现。// 示例2：火星探测任务
“天问一号”不仅是一项成功的科学探测任务，更是一项集工程奇迹、科学探索与国家战略于一体的综合性成就。其特点在于系统集成、自主创新、高效执行；科学目标聚焦火星演化与宜居性；在国际舞台上，它标志着中国正式成为深空探测的重要力量，填补了探测空白，推动了全球火星科学研究的多元化发展。正如其名“天问”所寓——对宇宙的追问，中国正以坚定步伐迈向星辰大海，为人类探索火星、理解地球家园提供来自东方的独特贡献。

以上结果请参考：chat.qwen.ai/s/58e76ea2-36d4-48b2-81e4-f7e28d9c85df?fev=0.0.166

思维树（Tree of Thoughts, ToT）

定义：一种提示词工程技术，通过模拟人类思维的分支过程，引导AI探索多种可能的推理路径。

核心原理：

将复杂问题分解为多个思维步骤
每个步骤可能有多个选择，形成树状结构
引导AI系统性地探索和评估不同路径

应用场景：

复杂决策问题
多步推理任务
创意生成
规划问题

优势：

提高推理的全面性和系统性
增强AI解决复杂问题的能力
减少遗漏重要考虑因素的可能性

实施方法：

设计提示词引导AI生成多个可能的思维步骤
评估每个步骤的价值和可行性
选择最佳路径继续深入，必要时回溯探索其他路径

Prompting 示例：

// 示例1：24点游戏
请使用思维树方法解决以下24点游戏问题：
给定数字：3, 8, 8, 10可能的思维路径：
1. 路径A：先尝试乘法- 8 × 3 = 24，然后考虑如何用8和10得到1（因为24 × 1 = 24）- 分支A1：10 - 8 = 2，无法得到1- 分支A2：8 ÷ 10 = 0.8，无法得到1- 8 × 10 = 80，然后考虑如何用3和8得到80/24≈3.33- 分支A3：8 - 3 = 5，无法得到3.33- 分支A4：8 ÷ 3 ≈ 2.67，无法得到3.332. 路径B：先尝试加法- 10 + 8 = 18，然后考虑如何用3和8得到6（因为18 + 6 = 24）- 分支B1：8 - 3 = 5，无法得到6- 分支B2：8 ÷ 3 ≈ 2.67，无法得到6- 10 + 3 = 13，然后考虑如何用8和8得到11（因为13 + 11 = 24）- 分支B3：8 + 8 = 16，无法得到11- 分支B4：8 - 8 = 0，无法得到113. 路径C：先尝试除法- 10 ÷ (8 ÷ (8 - 3)) = 10 ÷ (8 ÷ 5) = 10 ÷ 1.6 = 6.25，无法得到24- (10 - (8 ÷ 8)) × 3 = (10 - 1) × 3 = 9 × 3 = 27，无法得到24- 8 ÷ (10 - 8) × 3 = 8 ÷ 2 × 3 = 4 × 3 = 12，无法得到24请继续探索其他可能的路径，并找到能得到24的解法。// 示例2：三位专家讨论
请使用思维树方法模拟三位专家讨论以下问题："如何有效应对气候变化？"三位专家背景：
- 专家A：气候科学家
- 专家B：经济学家
- 专家C：社会学家可能的讨论路径：
1. 路径A：从科学角度出发- 专家A提出：减少碳排放是最直接的方法- 分支A1：专家B补充：碳税和市场机制可以促进减排- 专家C指出：需要考虑社会公平问题，避免对低收入群体造成过大负担- 分支A2：专家A提出：发展可再生能源技术- 专家B分析：投资回报率和经济可行性- 专家C讨论：技术普及的社会接受度和教育需求2. 路径B：从经济角度出发- 专家B提出：绿色经济转型是解决方案- 分支B1：专家A补充：需要科学评估不同经济政策对气候的实际影响- 专家C讨论：转型过程中的就业和社会稳定问题- 分支B2：专家B提出：国际合作和碳交易市场- 专家A分析：全球减排目标的科学依据- 专家C讨论：发达国家和发展中国家的责任分担3. 路径C：从社会角度出发- 专家C提出：改变消费习惯和生活方式- 分支C1：专家A补充：个人行为改变的总体气候影响- 专家B分析：消费模式变化对经济结构的影响- 分支C2：专家C提出：社区参与和基层行动- 专家A讨论：小规模行动的累积效应- 专家B分析：社区项目的经济可持续性请模拟三位专家的讨论过程，探索不同路径，并综合得出应对气候变化的全面建议。

大概的结论如下：

// 示例1：24点游戏
((8×10)−8)÷3=24// 示例2：三位专家讨论
应对气候变化需要科学、经济与社会三重路径协同推进，构建一个目标清晰、激励相容、公正包容、全球协作的系统性行动框架。

以上结果请参考: chat.qwen.ai/s/58e76ea2-36d4-48b2-81e4-f7e28d9c85df?fev=0.0.166

检索增强生成 RAG

定义：一种提示词工程技术，结合外部知识库检索和生成模型，提高AI回答的准确性和时效性。

核心原理：

在生成回答前，先从外部知识库中检索相关信息
将检索到的信息作为上下文提供给生成模型
增强回答的事实基础和可靠性

应用场景：

需要最新信息的问答
专业领域知识查询
事实核查
知识密集型任务

优势：

减少模型幻觉
提供可验证的信息来源
增强回答的时效性和准确性
扩展模型的知识范围

实施方法：

构建检索系统获取相关文档
设计提示词将检索到的信息整合到生成任务中
引导模型基于检索到的信息生成回答
可选：引用信息来源，提高可验证性

Prompting 示例：

// 示例1：最新科技新闻
以下是从可靠新闻来源检索到的关于2025年AI发展的最新信息：
[检索到的信息1：OpenAI于2025年3月发布了GPT-5模型，该模型在多模态理解和推理能力上有显著提升]
[检索到的信息2：2025年5月，多家科技巨头联合发布了AI伦理准则，强调透明度和人类监督]
[检索到的信息3：2025年第二季度，全球AI投资同比增长47%，主要集中在医疗和气候技术领域]基于以上最新信息，请分析2025年AI行业的发展趋势及其对社会可能产生的影响。// 示例2：专业医学咨询
以下是从权威医学数据库检索到的关于新型糖尿病治疗药物的信息：
[检索到的信息1：药物X是一种GLP-1受体激动剂，2024年12月获批，临床试验显示降低HbA1c 1.8%]
[检索到的信息2：药物X的常见副作用包括恶心、腹泻和食欲下降，发生率分别为15%、10%和20%]
[检索到的信息3：药物X与二甲双胍联用效果更佳，但需注意低血糖风险]假设你是一名医生，请基于以上检索到的信息，为一位2型糖尿病患者提供关于药物X的治疗建议，包括适用情况、注意事项和预期效果。

参考结果请查看： chat.qwen.ai/s/3ddd5dae-a60d-45c5-a07f-09e22aa8df7e?fev=0.0.166

自动推理和因果工具 ART

定义：一种提示词工程技术，结合自动化推理系统和因果分析，增强AI的逻辑推理和因果理解能力。

核心原理：

利用形式化推理工具和因果分析方法
辅助AI进行更严格的逻辑推理和因果关系分析
将复杂的推理过程分解为可验证的步骤

应用场景：

科学推理
因果分析
决策支持
复杂问题解决
需要严格逻辑推理的任务

优势：

提高推理的准确性和可靠性
增强AI处理因果关系的能力
减少逻辑错误
提供更可解释的推理过程

实施方法：

设计提示词引导AI明确推理步骤
结合外部推理工具验证推理过程
构建因果模型分析问题
引导AI展示推理过程和结论的依据

Prompting 示例：

// 示例1：科学因果推理
请使用自动推理和因果分析方法解决以下问题：问题：研究表明，喝咖啡的人患心脏病的风险较低。是否可以得出结论：喝咖啡能预防心脏病？请按以下步骤进行推理：
1. 识别观察到的相关性：喝咖啡与较低心脏病风险相关
2. 分析可能的因果关系：a. 咖啡→心脏病（直接因果）b. 第三因素→咖啡和心脏病（混杂因素）c. 心脏病→咖啡（反向因果）
3. 评估每种因果关系的合理性：- 支持直接因果的证据- 可能的混杂因素（如生活方式、社会经济地位等）- 反向因果的可能性
4. 综合分析并得出结论，说明需要什么额外研究才能确定因果关系// 示例2：商业决策分析
请使用自动推理和因果工具分析以下商业问题：问题：公司推出新产品后，销售额增长了30%。产品经理认为这是新产品的直接效果，建议增加新产品产量。请按以下步骤进行推理：
1. 明确定义因果关系假设：新产品推出→销售额增长
2. 识别可能的替代解释（混杂因素）：- 市场整体增长趋势- 同期营销活动- 竞争对手问题- 季节性因素
3. 构建因果推理图，展示所有可能的因果路径
4. 设计反事实推理：如果没有推出新产品，销售额会如何变化？
5. 提出验证因果关系的具体方法（如A/B测试、时间序列分析等）
6. 基于分析结果，评估增加新产品产量的决策是否合理

结果请参考： chat.qwen.ai/s/a68b7a28-6d71-4d34-a6c2-9eff82d2ebfc?fev=0.0.166

🎯 方向性刺激提示 (Directional Stimulus Prompting)

核心概念
通过明确的方向指导和刺激性提示，引导大语言模型朝着期望的方向生成更准确、更相关的回答。

关键特征

明确指定期望的输出方向和格式
提供具体的引导性指令
减少模型输出的随机性和偏离

应用技巧

使用"请按照以下步骤…"开头
明确指定输出格式：“以JSON格式输出”
提供正面和负面示例对比
使用约束条件限制输出范围

示例

任务：分析用户评论情感
方向性指导：请严格按照以下格式输出，不要包含其他内容
输出格式：{"sentiment": "正面/负面/中性", "confidence": 0.0-1.0, "keywords": []}

🔄 ReAct框架 (Reasoning and Acting)

核心概念
结合推理(Reasoning)和行动(Acting)的交替循环框架，让模型在思考和执行之间迭代，提高问题解决的准确性。

工作流程

Thought: 分析当前情况，制定策略
Action: 执行具体行动或调用工具
Observation: 观察行动结果
重复: 根据结果继续思考和行动

优势特点

可解释性强，推理过程透明
支持工具调用和外部知识获取
自我纠错能力强
适合复杂多步骤任务

应用场景

数学问题求解
代码调试和开发
信息检索和分析
复杂决策制定

示例结构

Thought: 我需要查找最新的市场数据来回答这个问题
Action: search("2024年股市表现数据")
Observation: 找到了相关数据...
Thought: 基于这些数据，我可以进行分析...

🧠 多模态思维链提示方法 (Multimodal Chain-of-Thought)

核心概念
将思维链推理扩展到多模态场景，整合文本、图像、音频等多种信息源，进行综合推理和分析。

技术特点

跨模态信息融合
逐步推理展示
模态间关联分析
综合判断输出

实现方式

模态分离分析：先单独分析各模态信息
关联性推理：找出不同模态间的联系
综合推理：基于所有信息得出结论
置信度评估：评估推理的可靠性

应用领域

图文理解和生成
视频内容分析
医疗影像诊断
自动驾驶决策

提示模板

请分析以下多模态信息：
1. 图像分析：描述图像中的关键元素
2. 文本理解：解读相关文本信息
3. 关联推理：分析图文之间的关系
4. 综合结论：基于以上分析得出结论

完整案例请参考：chat.qwen.ai/s/b7f7810b-e630-48b7-bae4-632a44d1bbd6?fev=0.0.167

⚖️ 推理大模型与通用大模型

基本区别

特征	推理大模型	通用大模型
设计目标	专注逻辑推理和问题解决	广泛的语言理解和生成
优化方向	准确性、一致性、逻辑性	流畅性、创造性、多样性
训练数据	偏重数学、逻辑、科学	平衡的互联网文本数据
推理能力	强化的多步推理	基础推理能力