【提示词技巧】高级提示方法与框架
大模型高级提示方法与框架
第一章:提示工程与上下文学习导论
1.1 从微调到提示:范式转换
近年来,大型语言模型(LLM)的应用范式经历了一场深刻的变革,从传统的“预训练-微调”(Pre-train, Fine-tune)模式,转向了更为灵活和高效的“预训练-提示-预测”(Pre-train, Prompt, Predict)模式 1。这一转变的核心在于“提示工程”(Prompt Engineering)的兴起。提示工程被定义为一种构建和优化文本输入(即“提示”)的实践,旨在引导生成式人工智能模型产生期望的输出 2。该技术允许在不修改模型核心参数的前提下,通过提供任务相关的指令,使预训练模型能够无缝适应各种下游任务 3。这种方法极大地降低了模型应用的门槛,并催生了一系列旨在充分挖掘模型潜能的先进技术。
1.2 基础技术:零样本与少样本提示
1.2.1 零样本提示(Zero-Shot Prompting)
-
原理:零样本提示是一种不向模型提供任何具体任务示例的提示方法 5。它完全依赖模型在海量数据上预训练所获得的泛化知识和指令理解能力来完成任务 8。这种方法是与模型交互最直接的形式,也是衡量其通用智能和指令遵循能力的基础基准 2。研究表明,对模型进行指令调优(Instruction Tuning)能够显著增强其零样本学习的能力 6。
-
示例:在一个典型的文本分类任务中,模型仅被给予指令和待分类的文本,而没有任何分类示例。
将以下文本分类为中性、负面或正面。
文本:我觉得这次度假还行。
情感:模型预期会基于其对“还行”一词的语义理解,输出“中性” 6。
-
来源与背景:零样本能力是随着模型规模扩大而自然涌现的特性,在GPT-3等大型模型问世后得到广泛关注。它已成为评估模型在开放域问答、文本摘要和语音识别等多种任务中基础性能的标准方法 10。
1.2.2 少样本提示(Few-Shot Prompting)
-
原理:当零样本提示不足以解决更复杂或专业的任务时,少样本提示通过在提示中提供少量任务示范(称为“shots”)来利用模型的“上下文学习”(In-Context Learning, ICL)能力 14。这些示例向模型展示了任务的期望格式、风格和逻辑,从而引导其生成更准确的输出 5。
-
示例:在同样的情感分类任务中,通过提供一或多个示例来引导模型。
将以下文本分类为正面、负面或中性。
文本:这个产品太糟糕了。
情感:负面
文本:超级有用,物有所值。
情感:正面
文本:它根本没用!
情感:通过学习前两个示例的模式,模型能够更准确地将“它根本没用!”分类为“负面” 15。
-
来源与背景:这一概念在Brown等人(2020年)关于GPT-3的开创性论文中被重点介绍。后续研究发现,示例的质量、顺序和格式对模型性能有至关重要的影响,不当的示例甚至可能引入偏差 17。
选择零样本还是少样本提示,并非简单地取决于是否提供示例,而是反映了在可扩展性与任务特异性之间的根本权衡。零样本提示无需准备示例数据,使其在需要处理大量通用任务的场景中具有极高的可扩展性和效率 5。这对于构建通用聊天机器人或内容审核系统等大规模应用至关重要。相反,少样本提示虽然需要投入人力精心设计高质量的示例,但它为模型提供了必要的上下文,从而在需要高精度的专业领域任务(如特定领域的实体提取或代码生成)中实现卓越的性能 2。因此,开发者必须做出战略性选择:对于通用查询,零样本是默认选项;而对于需要高可靠性的专业工具,投资于创建高质量的少样本示例则是实现性能目标的必要条件。
此外,高级提示技术的有效性,尤其是少样本提示,并非所有语言模型的固有属性。它是一种随着模型规模和复杂性达到特定阈值后才出现的“涌现能力”(Emergent Ability)。研究明确指出,包括有效利用少样本提示在内的多种高级能力,通常在模型参数量超过400亿至600亿后才开始显著显现 14。较小的模型往往难以从上下文示例中进行有效泛化,这意味着在这些模型上应用复杂的提示技术可能收效甚微,甚至毫无效果 14。这揭示了一个重要的因果关系:模型的规模化催生了进行上下文学习所必需的认知灵活性。这一现象对AI应用开发具有深远影响,它意味着对于追求效率和成本效益而选择的较小模型,传统的微调方法可能比复杂的提示工程更为有效。因此,提示技术的选择从根本上受到模型自身能力的制约。
第二章:激发推理能力:线性与非线性思维过程
2.1 思维链(Chain-of-Thought, CoT)提示:线性路径
-
原理:思维链(CoT)提示通过引导LLM将复杂问题分解为一系列中间的、连贯的推理步骤,来增强其推理能力 19。这种方法模拟了人类解决问题时的循序渐进的思维过程,不仅使模型的推理路径变得透明、可解释,而且在算术、常识和符号推理等任务上显著提高了准确性 2。
-
示例(零样本CoT):该技术可以通过一句简单的触发语来激活。
问:罗杰有5个网球。他又买了2罐网球,每罐有3个。他现在一共有多少个网球?
答:让我们一步一步地思考。模型随后会生成推理过程:“罗杰开始有5个球。2罐各有3个网球,总共是6个网球。5 + 6 = 11。所以答案是11。” 19。
-
来源:由Wei等人在2022年的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中首次提出 22。
2.2 思维树(Tree-of-Thoughts, ToT):探索解空间
- 原理:思维树(ToT)是对CoT的泛化,它允许模型同时探索多个不同的推理路径,并将这些路径组织成树状结构 22。该框架使LLM能够进行审慎的决策,通过自我评估中间“想法”的有效性,并结合搜索算法(如广度优先搜索BFS或深度优先搜索DFS)来前瞻或回溯 25。这对于没有清晰线性解决方案的复杂问题至关重要 28。
- 示例(24点游戏):要求模型使用四个数字通过运算得到24。
- 输入:4, 9, 10, 13
- 想法1(分支1):10+13=23。剩余:4, 9。23+4=27。此路不通。
- 想法1(分支2):13−9=4。剩余:4, 10。4×10=40。此路不通。
- 想法1(分支3):10−4=6。剩余:9, 13。13+9=22。此路不通。
- 模型会继续探索其他分支,评估每一步通往最终解的可能性,并在必要时进行回溯 25。
- 来源:由Yao等人(2023)和Long(2023)独立提出 22。
2.3 逻辑思维链(Logic-of-Thought, LoT)与符号推理:提升忠实度
- 原理:这类技术旨在解决“不忠实推理”(Unfaithful Reasoning)问题,即LLM生成的推理链在逻辑上并不支持其最终结论 29。它们通过将形式逻辑和符号逻辑的原则整合到提示中来实现这一目标。
- 逻辑思维链(LoT):采用三阶段过程:1)从文本中提取逻辑命题;2)使用形式逻辑规则(如三段论)扩展这些命题;3)将扩展后的逻辑翻译回自然语言以增强原始提示 29。
- 符号思维链(SymbCoT):将自然语言问题翻译成符号形式,使用符号逻辑规则推导解决方案,最后通过验证器检查整个过程的正确性 32。
- 示例(LoT):
- 上下文:“如果一个人有键盘输入技能,他就能使用电脑。如果他能使用电脑,他就能用文字处理器写论文。”
- LoT增强:该框架会识别出命题(A:有键盘技能,B:能用电脑,C:能写论文)和逻辑关系(A→B, B→C)。利用传递律,它会推断出 A→C,并将其翻译回自然语言:“如果一个人有键盘输入技能,他就能用文字处理器写论文。” 这一明确的逻辑步骤被添加到提示中,以指导LLM的推理 29。
- 来源:LoT由Liu等人(2025b)提出 33,SymbCoT由Xu等人(2024a)提出 32。
从CoT到ToT的演进标志着AI解决问题方式的一次重大概念飞跃,即从线性的演绎推理模型转向了探索性搜索与评估模型。这一转变深刻地反映了解决确定性问题与开放性问题之间的差异。CoT对于那些可以分解为单一、正确步骤序列的问题(如算术题)非常有效,它本质上是一种路径遵循机制 19。相比之下,ToT专为那些必须考虑多种可能性且多数路径为死胡同的问题而设计,例如需要探索的创意写作或战略规划任务,它是一种
路径发现机制 26。这种区别表明,框架的选择并非在于哪个“更好”,而在于哪个更适合
问题空间的拓扑结构。对于确定性的序列任务,CoT效率更高;而对于具有广阔解空间的复杂、非确定性任务,尽管计算成本更高,ToT却是必要的 22。
与此同时,LoT和SymbCoT等技术的发展揭示了纯粹基于连接主义的统计推理的内在局限性。这些技术代表了通过提示在推理层而非模型架构层实现神经符号方法的回归。标准的CoT虽然结构化,但仍可能产生逻辑上不一致或“不忠实”的推理链,因为LLM的推理是统计性的,而非形式化的 29。LoT和SymbCoT通过将形式逻辑规则和符号表示明确引入推理过程来解决此问题,迫使LLM遵循严格、可验证的逻辑结构 31。这一趋势预示着,未来在高风险领域的AI推理(如法律、医疗或科学),很可能将依赖于混合方法。届时的提示工程将不仅仅是用自然语言提问,而是将自然语言问题编译成可验证的中间逻辑或符号表示,经过形式化的严谨处理后,再翻译回人类可读的答案。
第三章:提升鲁棒性与准确性
3.1 自我一致性(Self-Consistency):通过多样性达成共识
- 原理:自我一致性是对CoT的改进,它用“采样-边缘化”(sample-and-marginalize)过程取代了贪婪解码(即只选择最优路径) 34。该方法针对同一问题,通过采样生成多个不同的推理路径,然后通过多数投票的方式选出最一致的答案。其核心直觉是,一个复杂问题通常有多种方法可以得到唯一的正确答案,因此在多次不同的推理尝试中,正确答案出现的频率应该是最高的 35。
- 示例:对于一个数学问题,模型可能生成十个不同的推理路径。其中七条路径的结论是“18”,两条的结论是“14”,一条的结论是“26”。自我一致性方法会选择“18”作为最终答案 35。
- 来源:由Wang等人在《Self-Consistency Improves Chain of Thought Reasoning in Large Language Models》(2023)中提出 35。
3.2 自我反思与迭代优化(Self-Reflection and Iterative Refinement)
- 原理:这类技术的核心是引导LLM在没有外部反馈的情况下,对其自身生成的输出进行反思、批判和迭代改进 37。这模仿了人类起草、审阅和编辑的创作过程。模型被要求识别其初始回答中潜在的错误、逻辑谬误或可改进之处,然后生成一个更完善的版本 37。
- 示例:模型生成一段代码后,可以向其提问:“请审阅你刚才写的代码。是否存在任何潜在的错误、效率低下的部分或难以阅读的地方?如果有,请指出来并提供修正后的版本。” 37。
Reflexion框架将此过程形式化为一个由行动者(Actor)、评估者(Evaluator)和自我反思(Self-Reflection)组成的智能体循环,使其能够从试错中学习 42。 - 来源:在Madaan等人的“Self-Refine”(2024)和Shinn等人的“Reflexion”(2023)等论文中得到深入探讨 44。
3.3 验证链(Chain-of-Verification, CoVe):缓解事实性幻觉
- 原理:验证链(CoVe)是一种专门为减少LLM回答中的事实性错误(即“幻觉”)而设计的流程。它通过一个四步过程迫使模型验证自己的陈述:1)生成基线回答:起草一个初步答案。2)规划验证:生成一系列验证性问题来对草稿进行事实核查。3)执行验证:独立地回答这些问题,以避免自我偏见。4)生成最终验证后回答:综合验证结果,给出一个修正后的最终答案 46。
- 示例:
- 问题:“电影《银翼杀手》的灵感来源于哪本书?”
- 基线回答:“电影《银翼杀手》的灵感来源于艾萨克·阿西莫夫写的《我,机器人》。”(错误)
- 验证性问题:1.《银翼杀手》是根据哪本书改编的? 2.《我,机器人》的作者是谁?
- 验证性回答:1.《银翼杀手》是根据《仿生人会梦见电子羊吗?》改编的。2.《我,机器人》的作者是艾萨克·阿西莫夫。
- 最终回答:“电影《银翼杀手》的灵感来源于菲利普·迪克的小说《仿生人会梦见电子羊吗?》。” 46。
- 来源:由Dhuliawala等人在《Chain-of-Verification Reduces Hallucination in Large Language Models》(2024)中提出 46。
这些用于提升鲁棒性的技术虽然都旨在纠正错误,但它们代表了三种截然不同的错误修正哲学。自我一致性、自我反思和验证链并非同一思想的变体,而是分别体现了统计共识、元认知优化和分解式事实核查的理念。自我一致性基于一个统计学原理:在多次独立试验中出现频率最高的答案最可能是正确的,这是一种应用于单个模型生成分布的“群体智慧”方法,其本质是被动的,因为它不改进任何单一的推理路径 34。自我反思则是一种元认知方法,它假定模型具备内在的批判和主动修正自身错误的能力,这是一个主动的、自我纠错的迭代过程 37。验证链是一种基于分解的认识论方法,其前提是验证小而原子化的事实比生成一个宏大复杂的叙述更为可靠,它模拟了一个外部研究与核查的过程 46。这意味着,选择何种技术取决于需要缓解的错误类型:对于定义明确的推理任务中的随机性错误,自我一致性是有效的;对于提升生成内容(如代码或文章)的质量,自我反思是理想选择;而对于防止知识密集型任务中的事实性幻觉,验证链则是最精准的解决方案。
然而,元认知提示的应用揭示了一个关键的脆弱性:自我反思的效果对提示词的措辞高度敏感。相关文献中关于自我反思有效性的结论相互矛盾,部分研究甚至表明它可能导致性能下降 37。其根本原因在于,元认知提示可能引入偏见。研究发现,当提示LLM“找出错误”时,它更有可能修改答案,即便原始答案是正确的 38。这是一种由提示诱导的偏见或需求特征。因此,自我反思的成功不仅取决于模型内在的纠错能力,更取决于提示本身是否经过精心设计,以保持中立和保守 37。这对实际应用具有重要启示:部署自我反思功能需要进行严格的提示测试和验证。一个设计不佳的反思提示可能比不进行反思更有害,因为它可能通过“过度修正”有效回答而导致准确率下降。
第四章:从推理到行动:交互式与智能体框架
4.1 ReAct框架:协同推理与行动
- 原理:ReAct(Reason + Act)是一个将推理与行动相结合的范式。它引导模型以交错的方式生成语言推理轨迹(思考)和任务相关的具体行动(行动),从而形成一个“思考-行动-观察”(Thought-Action-Observation)的循环 49。该框架允许模型与外部工具(如搜索引擎、API)交互,收集信息,并根据观察结果动态调整其计划。这解决了CoT等纯推理方法无法接触外部实时信息的关键局限,从而有效减少了事实性幻觉 49。
- 示例:回答问题“科罗拉多造山运动的东段延伸到哪个区域,该区域的海拔范围是多少?”
- 思考:我需要搜索“科罗拉多造山运动”,找到其东段延伸的区域。
- 行动:Search[科罗拉多造山运动]
- 观察:(接收到搜索结果)东段延伸至高原地区(High Plains)。
- 思考:现在我需要查找高原地区的海拔范围。
- 行动:Search[高原地区海拔]
- 观察:(接收到海拔数据)范围是1,800至7,000英尺。
- 思考:我已经得到最终答案。
- 行动:Finish[1,800至7,000英尺] 49。
- 来源:由Yao等人在《ReAct: Synergizing Reasoning and Acting in Language Models》(2022)中提出 49。
4.2 角色扮演与角色提示:模拟专业知识与多元视角
-
原理:该技术通过为LLM分配一个特定的角色或身份(Persona)来影响其输出的语气、风格和知识领域 52。角色描述越具体、越详细,模型就越能有效地代入该角色 54。这种技术可以进一步扩展,在一个提示中模拟一个多智能体系统,让LLM扮演多个角色进行辩论或协作来解决问题,这通常被称为“专家团”或“辩论队”方法 45。
-
示例(多智能体辩论):
你们是一个AI专家团队。请就核能的利弊展开辩论。
- 角色1:支持核能的科学家。论证其高效和低碳足迹的优点。
- 角色2:环保活动家。基于核废料处理和安全风险提出反对意见。
- 角色3:经济学家。分析其成本效益和经济影响。
请提供一场结构化的辩论,每个角色陈述观点,最后总结关键论点。这种方式迫使模型从多个相互冲突的视角探讨一个主题,从而产生更全面、更细致的输出 45。
-
来源:这是一种在提示工程中广泛应用的实践技术,更高级的多角色框架在各种在线社区和研究中被不断探索 52。
4.3 生成并评估多个候选方案
- 原理:这是一个通用的元框架,自我一致性是其一个特例。其核心思想是让LLM针对一个提示生成多个不同的潜在解决方案或回答。然后,这些候选方案由LLM自身(扮演“批判者”或“评估者”的角色)或外部流程进行评估,以选出最优方案 56。该方法利用了LLM的生成广度,并通过一个批判性筛选环节来提升最终输出的质量。
- 示例:用户需要一个营销口号。
- 生成步骤:“为一款新咖啡品牌生成5个不同的营销口号。”
- 评估步骤:“现在,扮演一位营销专家。审阅你生成的5个口号。对每一个口号,指出其优点和缺点。最后,选出你认为最好的一个,并解释你的选择。” 56。
- 来源:这是一种结合了生成与自我批判的元技术,见于Self-Refine等框架 41 以及多智能体角色扮演结构中 56。
ReAct和角色扮演等技术的强大之处在于它们解决了LLM推理过程缺乏“锚定”(Grounding)的根本问题。一个不受约束的LLM在其庞大、静态且可能过时的训练数据上进行推理,容易产生幻觉和泛泛而谈的回答 49。ReAct通过工具将模型的推理与
外部世界的实时数据相连接,迫使其推理过程与现实世界的事实保持一致,这是一种外部锚定 49。而角色扮演则通过一个预设的身份(如“你是一位法律专家”或“你是一位富有同情心的医生”),将模型的推理限制在特定的知识子集和推理风格内,这是一种
内部的、上下文的锚定 52。因此,这两种技术本质上都是通过缩小LLM可能回答的搜索空间,将其引导至一个更相关、更准确、更有用的子集。这种“锚定”原则是构建可靠AI系统的基石。
更进一步,模拟多智能体辩论或工作流的高级角色扮演提示(如56中描述的“反思-规划-批判”结构)不仅仅是一种巧妙的技巧。它们是在单个模型内部对更复杂的多模型智能体框架中认知架构的早期实现。一个定义了
Reflect_Agent、Plan_Agent和Critique_Agent的提示,实际上是迫使单个LLM顺序地采用不同的认知功能 56。这种功能分解——将反思、规划和批判分离开来——正是像CrewAI这样复杂的多智能体系统的核心设计原则,在这些系统中,不同的智能体被明确赋予了这些专门的角色 60。这揭示了一条演进路径:始于单个提示内部的结构化“思维框架”,最终演变为由多个交互式LLM组成的分布式系统的架构蓝图。理解这些基于提示的模拟,为设计更强大的智能体系统提供了直接的洞见。
第五章:任务编排与多智能体系统
5.1 提示链(Prompt Chaining):分解复杂工作流
- 原理:提示链将一个复杂的任务分解为一系列更小、相互关联的提示。前一个提示的输出作为后一个提示的输入,从而创建一个结构化的工作流或管道 62。这种方法通过允许对每个步骤进行独立的优化和调试,提高了系统的可靠性和透明度 62。
- 示例:一个研究论文生成的工作流。
- 提示1:“为一篇关于可再生能源的研究论文生成一个大纲。”
- 提示2(以上一步的大纲为输入):“针对大纲中的‘太阳能’部分,撰写一个详细的段落,介绍近期的技术进展。”
- 提示3(以所有段落为输入):“将生成的所有部分组合成一篇连贯的研究论文,并撰写结论摘要。” 64。
- 来源:这是应用提示工程中的一项基础技术,通常通过编排框架实现 62。
5.2 智能体框架简介
智能体(Agentic)AI框架是为简化AI智能体的创建、部署和管理而设计的软件平台 67。这些框架提供了一系列预构建的组件,用于连接LLM、管理记忆、集成外部工具,以及编排复杂的多步推理和行动序列,从而使开发者能够构建出能够自主完成目标的复杂应用 60。
5.3 框架深度解析:LangChain, CrewAI, 与 AutoGen
- LangChain:
- 原理:一个通用的、模块化的框架,用于构建LLM应用程序。其核心抽象是“链”(Chains,即对LLM或工具的调用序列)和“智能体”(Agents,即使用LLM来决定采取何种行动的实体) 70。
- 应用场景:因其高度的灵活性,适用于构建从简单的RAG(检索增强生成)聊天机器人到复杂工具使用智能体的各种应用 60。
- CrewAI:
- 原理:一个专门为编排协作式、角色扮演型AI智能体而设计的框架。它专注于为智能体定义具体的角色、目标和背景故事,然后在“团队”(Crew)中管理它们的互动,以共同完成复杂任务 60。
- 应用场景:最适合那些可以被分解并分配给一个专家团队的任务,例如一个营销团队策划一场活动,或一个研究团队撰写一份报告 60。
- AutoGen:
- 原理:一个通过自动化智能体间对话来开发多智能体应用的框架。其特点是拥有可定制的、“可对话”的智能体,这些智能体可以是LLM、人类和工具的混合体。框架通过管理对话流来解决任务 77。
- 应用场景:在自动化需要不同类型智能体动态协作的复杂多步工作流方面表现强大,例如自动化的代码生成、测试和调试循环 77。
LangChain、CrewAI和AutoGen不仅是相互竞争的工具,更体现了构建智能体系统的不同架构哲学。框架的选择决定了应用程序的根本设计模式。LangChain提供了一种自下而上、基于工具箱的方法。它为开发者提供了基础构建模块(LLM、工具、记忆),并要求他们自己构建智能体架构,优先考虑的是灵活性 70。CrewAI则提供了一种
自上而下、以协作为中心的方法。它将底层的编排工作抽象化,提供了一个基于人类团队(“Crew”)和专门角色(“Roles”)的高层范式,优先考虑的是多智能体协作的易用性 61。AutoGen采用了一种
以通信为中心的方法。其核心抽象是智能体之间的“对话”,它擅长管理复杂的、动态的交互模式和控制权交接,优先考虑的是复杂工作流的自动化 78。因此,选择哪个框架是一个关键的架构决策,开发者选择的不仅仅是一个库,而是一个关于其智能体系统的概念模型——一个工具箱、一个团队,或一场对话。
第六章:综合分析与未来展望
6.1 提示框架对比分析
为了系统地总结和比较前述的各种技术,下表提供了一个全面的概览,旨在帮助实践者根据任务需求选择最合适的框架。
技术名称 | 核心原理 | 主要应用场景 | 交互范式 | 计算成本 | 关键来源文献 |
---|---|---|---|---|---|
零样本提示 | 依赖模型预训练知识,无示例 | 通用、简单的问答与指令遵循 | 单轮、直接 | 极低 | GPT-3 (Brown et al., 2020) |
少样本提示 | 提供任务示例,进行上下文学习 | 需特定格式或风格的专门任务 | 单轮、有示例 | 低 | GPT-3 (Brown et al., 2020) |
思维链 (CoT) | 分解问题为线性推理步骤 | 多步算术、常识与符号推理 | 单轮、线性推理 | 低 | Wei et al., 2022 24 |
思维树 (ToT) | 探索多条推理路径,形成树状结构 | 需探索和规划的复杂、开放性问题 | 多轮、非线性搜索 | 高 | Yao et al., 2023 22 |
逻辑思维链 (LoT) | 注入形式逻辑规则,增强推理忠实度 | 法律、科学等需严谨逻辑的领域 | 单轮、逻辑增强 | 中 | Liu et al., 2025b 33 |
自我一致性 | 采样多条推理路径,多数投票 | 提升CoT在推理任务上的准确性 | 多轮、并行采样 | 高 | Wang et al., 2023 35 |
自我反思 | 模型自我批判并迭代优化输出 | 提升代码、写作等生成内容的质量 | 多轮、迭代 | 中到高 | Madaan et al., 2024 45 |
验证链 (CoVe) | 生成-规划-执行验证-修正 | 减少知识密集型任务中的事实性幻觉 | 多轮、分解式验证 | 中 | Dhuliawala et al., 2024 46 |
ReAct | 结合推理与行动,与外部工具交互 | 需实时信息或外部知识的问答与决策 | 多轮、交互式循环 | 中 | Yao et al., 2022 49 |
角色扮演 | 为LLM分配特定身份或专家角色 | 提升输出的专业性、风格一致性 | 单轮或多轮 | 低 | 广泛实践 |
提示链 | 将复杂工作流分解为顺序提示 | 模块化的多步任务处理 | 多轮、顺序管道 | 依链条长度而定 | 广泛实践 |
6.2 迈向自主智能体:以“分解”为核心的演进路径
纵观从基础提示到复杂智能体框架的演进历程,一个强大而统一的元原则浮现出来:分解(Decomposition)。大型语言模型在处理宏大、单一的复杂任务时常常表现不佳,但它们在执行定义明确、范围较小的子任务时却表现出色。因此,一个提示框架的先进程度,很大程度上取决于它能够多有效地将一个复杂问题进行分解。
- 思维链(CoT) 分解的是推理过程,将其拆解为线性的逻辑步骤。
- 思维树(ToT) 分解的是解空间,允许对多个潜在的解决方案路径进行探索。
- 验证链(CoVe) 分解的是验证过程,将一个宏大的事实声明拆解为一系列可独立核查的原子问题。
- ReAct 将任务分解为思考与行动两个交错的阶段。
- 提示链与智能体框架 则将整个工作流分解为一系列离散的步骤或由专门的智能体角色负责的子任务。
这一趋势表明,提示工程的未来发展方向在于开发更复杂、更自动化的任务分解方法。通过将宏大的目标递归地分解为可执行的子任务,并智能地编排执行这些子任务的智能体,我们将能够构建出更强大、更可靠,并最终实现更高程度自主性的AI系统。
引用的著作
- Prompting Frameworks for Large Language Models: A Survey - alphaXiv, 访问时间为 七月 23, 2025, https://www.alphaxiv.org/overview/2311.12785
- Prompt engineering techniques: Top 5 for 2025 - K2view, 访问时间为 七月 23, 2025, https://www.k2view.com/blog/prompt-engineering-techniques/
- Summary of different prompt engineering techniques in LLM based on applications. | by Manoj Kumal | Medium, 访问时间为 七月 23, 2025, https://medium.com/@manojkumal/summary-of-different-prompt-engineering-techniques-in-llm-based-on-applications-95b43c361422
- arXiv:2402.07927v2 [cs.AI] 16 Mar 2025, 访问时间为 七月 23, 2025, https://arxiv.org/pdf/2402.07927
- How to Choose Your GenAI Prompting Strategy: Zero Shot vs. Few …, 访问时间为 七月 23, 2025, https://www.matillion.com/blog/gen-ai-prompt-strategy-zero-shot-few-shot-prompt
- Zero-Shot Prompting - Prompt Engineering Guide, 访问时间为 七月 23, 2025, https://www.promptingguide.ai/techniques/zeroshot
- What is zero-shot prompting? - IBM, 访问时间为 七月 23, 2025, https://www.ibm.com/think/topics/zero-shot-prompting
- Zero-Shot Prompting - GeeksforGeeks, 访问时间为 七月 23, 2025, https://www.geeksforgeeks.org/nlp/zero-shot-prompting/
- Prompt_Engineering/all_prompt_engineering_techniques/zero-shot-prompting.ipynb at main - GitHub, 访问时间为 七月 23, 2025, https://github.com/NirDiamant/Prompt_Engineering/blob/main/all_prompt_engineering_techniques/zero-shot-prompting.ipynb
- Self-Prompting Large Language Models for Zero-Shot Open …, 访问时间为 七月 23, 2025, https://arxiv.org/abs/2212.08635
- Prompting Large Language Models for Zero-shot Essay Scoring via Multi-trait Specialization, 访问时间为 七月 23, 2025, https://arxiv.org/html/2404.04941v1
- [2402.01713] Prompting Large Language Models for Zero-Shot Clinical Prediction with Structured Longitudinal Electronic Health Record Data - arXiv, 访问时间为 七月 23, 2025, https://arxiv.org/abs/2402.01713
- [2306.16007] Prompting Large Language Models for Zero-Shot Domain Adaptation in Speech Recognition - arXiv, 访问时间为 七月 23, 2025, https://arxiv.org/abs/2306.16007
- A Brief Overview Of Few-Shot Prompting In the Large … - Zenodo, 访问时间为 七月 23, 2025, https://zenodo.org/records/8005317/files/Kul.pdf?download=1
- Shot-Based Prompting: Zero-Shot, One-Shot, and Few-Shot Prompting, 访问时间为 七月 23, 2025, https://learnprompting.org/docs/basics/few_shot
- Zero Shot Prompting vs. Few-Shot Prompting: Techniques and Real-World Applications, 访问时间为 七月 23, 2025, https://www.beam.cloud/blog/prompting-techniques
- [2303.13217] Fairness-guided Few-shot Prompting for Large Language Models - arXiv, 访问时间为 七月 23, 2025, https://arxiv.org/abs/2303.13217
- An Empirical Evaluation of Prompting Strategies for Large Language Models in Zero-Shot Clinical Natural Language Processing - arXiv, 访问时间为 七月 23, 2025, https://arxiv.org/pdf/2309.08008
- Chain-of-Thought Prompting Elicits Reasoning in Large … - arXiv, 访问时间为 七月 23, 2025, https://arxiv.org/pdf/2201.11903
- Chain-of-Thought Prompting Elicits Reasoning in Large Language Models - OpenReview, 访问时间为 七月 23, 2025, https://openreview.net/pdf?id=_VjQlMeSB_J
- What is chain of thought (CoT) prompting? - IBM, 访问时间为 七月 23, 2025, https://www.ibm.com/think/topics/chain-of-thoughts
- Chain of Thought and Tree of Thoughts: Revolutionizing AI …, 访问时间为 七月 23, 2025, https://www.adamscott.info/from-chain-of-thought-to-tree-of-thoughts-which-prompting-method-is-right-for-you
- AI Prompting (2/10): Chain-of-Thought Prompting—4 Methods for Better Reasoning - Reddit, 访问时间为 七月 23, 2025, https://www.reddit.com/r/PromptEngineering/comments/1if2dlo/ai_prompting_210_chainofthought_prompting4/
- Chain-of-Thought Prompting Elicits Reasoning in Large Language Models - arXiv, 访问时间为 七月 23, 2025, https://arxiv.org/abs/2201.11903
- What is Tree Of Thoughts Prompting? | IBM, 访问时间为 七月 23, 2025, https://www.ibm.com/think/topics/tree-of-thoughts
- Tree of Thoughts: Deliberate Problem Solving with Large Language Models - OpenReview, 访问时间为 七月 23, 2025, https://openreview.net/forum?id=5Xc1ecxO1h
- Tree of Thoughts (ToT) - Prompt Engineering Guide, 访问时间为 七月 23, 2025, https://www.promptingguide.ai/techniques/tot
- Research Shows Tree Of Thought Prompting Better Than Chain Of Thought - Search Engine Journal, 访问时间为 七月 23, 2025, https://www.searchenginejournal.com/research-shows-tree-of-thought-prompting-better-than-chain-of-thought/503094/
- arXiv:2409.17539v1 [cs.CL] 26 Sep 2024, 访问时间为 七月 23, 2025, https://arxiv.org/pdf/2409.17539?
- Chain of Thought Prompting Guide - PromptHub, 访问时间为 七月 23, 2025, https://www.prompthub.us/blog/chain-of-thought-prompting-guide
- Logic-of-Thought (LoT): Enhancing Logical Reasoning in Large …, 访问时间为 七月 23, 2025, https://learnprompting.org/docs/new_techniques/logic_of_thought
- Aiden0526/SymbCoT: Codes and Data for ACL 2024 Paper … - GitHub, 访问时间为 七月 23, 2025, https://github.com/Aiden0526/SymbCoT
- Empowering LLMs with Logical Reasoning: A Comprehensive Survey - arXiv, 访问时间为 七月 23, 2025, https://arxiv.org/html/2502.15652v3
- Self-Consistency Improves Chain of Thought Reasoning in Language Models | OpenReview, 访问时间为 七月 23, 2025, https://openreview.net/forum?id=1PL1NIMMrw
- Self-Consistency Improves Chain of Thought Reasoning in …, 访问时间为 七月 23, 2025, http://arxiv.org/pdf/2203.11171
- early-stopping self- consistency for multi-step reasoning - arXiv, 访问时间为 七月 23, 2025, https://arxiv.org/pdf/2401.10480
- Self-Reflection Makes Large Language Models Safer, Less Biased, and Ideologically Neutral - arXiv, 访问时间为 七月 23, 2025, https://arxiv.org/html/2406.10400v2
- Self-Reflection Outcome is Sensitive to Prompt Construction - arXiv, 访问时间为 七月 23, 2025, https://arxiv.org/html/2406.10400v1
- Self-reflecting Large Language Models: A Hegelian Dialectical Approach - arXiv, 访问时间为 七月 23, 2025, https://arxiv.org/html/2501.14917v5
- Enhancing Large Language Models Iterative Reflection Capabilities via Dynamic-Meta Instruction - arXiv, 访问时间为 七月 23, 2025, https://arxiv.org/html/2503.00902v1
- Which Prompting Technique Should I Use? An Empirical Investigation of Prompting Techniques for Software Engineering Tasks - arXiv, 访问时间为 七月 23, 2025, https://arxiv.org/html/2506.05614v1
- Reflexion: Language Agents with Verbal Reinforcement Learning - athina.ai, 访问时间为 七月 23, 2025, https://blog.athina.ai/reflexion-language-agents-with-verbal-reinforcement-learning
- NeurIPS Poster Reflexion: language agents with verbal reinforcement learning, 访问时间为 七月 23, 2025, https://neurips.cc/virtual/2023/poster/70114
- Reflexion: Language Agents with Verbal Reinforcement … - arXiv, 访问时间为 七月 23, 2025, https://arxiv.org/abs/2303.11366
- Deceiving to Enlighten: Coaxing LLMs to Self-Reflection for Enhanced Bias Detection and Mitigation - arXiv, 访问时间为 七月 23, 2025, https://arxiv.org/html/2404.10160v1
- Chain-of-Verification Reduces Hallucination in … - ACL Anthology, 访问时间为 七月 23, 2025, https://aclanthology.org/2024.findings-acl.212.pdf
- From Emergence to Control: Probing and Modulating Self-Reflection in Language Models, 访问时间为 七月 23, 2025, https://arxiv.org/html/2506.12217v1
- When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models - arXiv, 访问时间为 七月 23, 2025, https://arxiv.org/html/2404.09129v1
- ReAct - Prompt Engineering Guide, 访问时间为 七月 23, 2025, https://www.promptingguide.ai/techniques/react
- Exploring ReAct Prompting for Task-Oriented Dialogue: Insights and Shortcomings - arXiv, 访问时间为 七月 23, 2025, https://arxiv.org/html/2412.01262v2
- ReAct prompting in LLM : Redefining AI with Synergized Reasoning and Acting - Medium, 访问时间为 七月 23, 2025, https://medium.com/@sahin.samia/react-prompting-in-llm-redefining-ai-with-synergized-reasoning-and-acting-c19640fa6b73
- Role-Prompting: Does Adding Personas to Your Prompts Really Make a Difference?, 访问时间为 七月 23, 2025, https://medium.com/@dan_43009/role-prompting-does-adding-personas-to-your-prompts-really-make-a-difference-ad223b5f1998
- Examples of Prompts | Prompt Engineering Guide, 访问时间为 七月 23, 2025, https://www.promptingguide.ai/introduction/examples
- Roleplaying System Prompts : r/LocalLLaMA - Reddit, 访问时间为 七月 23, 2025, https://www.reddit.com/r/LocalLLaMA/comments/1aiz6zu/roleplaying_system_prompts/
- LLM Role-Playing Conversations. Learn how to set up multi-role …, 访问时间为 七月 23, 2025, https://leonnicholls.medium.com/llm-role-playing-conversations-a1dba626eceb
- Experimental Prompt Style: In-line Role-Playing : r/LocalLLaMA - Reddit, 访问时间为 七月 23, 2025, https://www.reddit.com/r/LocalLLaMA/comments/1atno2w/experimental_prompt_style_inline_roleplaying/
- Make your LLM think differently - Multi Dimensional Reasoning Prompts - Research, 访问时间为 七月 23, 2025, https://discuss.huggingface.co/t/make-your-llm-think-differently-multi-dimensional-reasoning-prompts/159175
- Roleplaying driven by an LLM: observations & open questions, 访问时间为 七月 23, 2025, https://ianbicking.org/blog/2024/04/roleplaying-by-llm
- Confidence Improves Self-Consistency in LLMs - arXiv, 访问时间为 七月 23, 2025, https://arxiv.org/html/2502.06233v1
- Agentic AI: Getting Started Guides with Frameworks - Cohorte Projects, 访问时间为 七月 23, 2025, https://www.cohorte.co/blog/agentic-ai-getting-started-guides-with-frameworks
- Crew AI Crash Course (Step by Step) - Alejandro AO, 访问时间为 七月 23, 2025, https://alejandro-ao.com/crew-ai-crash-course-step-by-step/
- Prompt Chaining | Prompt Engineering Guide, 访问时间为 七月 23, 2025, https://www.promptingguide.ai/techniques/prompt_chaining
- Chain LLM Prompts for Advanced Use-Cases - Relevance AI, 访问时间为 七月 23, 2025, https://relevanceai.com/blog/how-to-chain-llm-prompts-to-build-advanced-use-cases
- Prompt Chaining Tutorial: What Is Prompt Chaining and How to Use It? - DataCamp, 访问时间为 七月 23, 2025, https://www.datacamp.com/tutorial/prompt-chaining-llm
- 10 Best Prompting Techniques for LLMs in 2025 - Skim AI, 访问时间为 七月 23, 2025, https://skimai.com/10-best-prompting-techniques-for-llms-in-2025/
- Mastering LLM Prompting Techniques - DataRoot Labs, 访问时间为 七月 23, 2025, https://datarootlabs.com/blog/prompting-techniques
- Beginners Guide to Understand AI Agents and Agentic AI Frameworks — (Part-1) - Medium, 访问时间为 七月 23, 2025, https://medium.com/@bojjasharanya/beginners-guide-to-understand-ai-agents-and-agentic-ai-frameworks-part-1-a04f85864a72
- Explore AI Agent Frameworks - Microsoft Open Source, 访问时间为 七月 23, 2025, https://microsoft.github.io/ai-agents-for-beginners/02-explore-agentic-frameworks/
- How to Build an AI Agent: A Guide for Beginners - Moveworks, 访问时间为 七月 23, 2025, https://www.moveworks.com/us/en/resources/blog/how-to-build-an-ai-agent-guide
- LangChain: A Complete Guide & Tutorial - Nanonets, 访问时间为 七月 23, 2025, https://nanonets.com/blog/langchain/
- How to Build LLM Applications with LangChain Tutorial - DataCamp, 访问时间为 七月 23, 2025, https://www.datacamp.com/tutorial/how-to-build-llm-applications-with-langchain
- Langchain tutorials for newbies. Langchain use cases with demo explained | by Mehul Gupta | Data Science in Your Pocket | Medium, 访问时间为 七月 23, 2025, https://medium.com/data-science-in-your-pocket/langchain-tutorials-for-newbies-945319df04e2
- Tutorials | 🦜️ LangChain, 访问时间为 七月 23, 2025, https://python.langchain.com/docs/tutorials/
- CrewAI: A Guide With Examples of Multi AI Agent Systems - DataCamp, 访问时间为 七月 23, 2025, https://www.datacamp.com/tutorial/crew-ai
- Build Your First Crew - CrewAI, 访问时间为 七月 23, 2025, https://docs.crewai.com/en/guides/crews/first-crew
- A collection of examples that show how to use CrewAI framework to automate workflows. - GitHub, 访问时间为 七月 23, 2025, https://github.com/crewAIInc/crewAI-examples
- AutoGen Tutorial: Build Multi-Agent AI Applications | DataCamp, 访问时间为 七月 23, 2025, https://www.datacamp.com/tutorial/autogen-tutorial
- Introduction to AutoGen - Open Source at Microsoft, 访问时间为 七月 23, 2025, https://microsoft.github.io/autogen/0.2/docs/tutorial/introduction/
- Getting Started | AutoGen 0.2 - Open Source at Microsoft, 访问时间为 七月 23, 2025, https://microsoft.github.io/autogen/0.2/docs/Getting-Started/
- AutoGen 0.4 Tutorial - Create a Team of AI Agents (+ Local LLM w/ Ollama), 访问时间为 七月 23, 2025, https://www.gettingstarted.ai/autogen-multi-agent-workflow-tutorial/
- A practical guide for using AutoGen in software applications | by Clint Goodman - Medium, 访问时间为 七月 23, 2025, https://clintgoodman27.medium.com/a-practical-guide-for-using-autogen-in-software-applications-8799185d27ee