好文与笔记分享 A Survey of Context Engineering for Large Language Models(上)
上下文工程的意义
随着大语言模型从简单的指令跟随系统演变为复杂多面应用的核心推理引擎,与之交互的方法也必须同步演进。"提示工程"这一术语虽然具有基础意义,但已不足以涵盖现代AI系统所需信息载荷的设计、管理和优化的全部范畴。这些系统并非基于单个静态文本字符串运行,而是利用动态化、结构化、多层面的信息流。为此,我们引入并正式提出语境工程这一学科体系。
形式定义与理论框架
参考https://www.alphaxiv.org/zh/overview/2507.13334v2
本文通过数学形式化确立了上下文工程,重新概念化了LLM与上下文信息的交互方式。传统方法将上下文视为一个静态字符串,但本调查将上下文定义为一个动态结构化的信息组件集合:
 C={c1,c2,...,cn}C = \{c_1, c_2, ..., c_n\} C={c1,c2,...,cn}
 其中每个组件 cic_ici 代表由编排函数 AAA 组装而成的独特上下文信息片段。这种公式化将上下文优化转化为一个形式化的优化问题:
 maxf1,...,fkQ(LLM(A(f1(x),...,fk(x))))\max_{f_1, ..., f_k} Q(LLM(A(f_1(x), ..., f_k(x)))) f1,...,fkmaxQ(LLM(A(f1(x),...,fk(x))))
 受限于上下文长度限制和计算资源等约束。这里,fif_ifi 表示上下文生成函数,AAA 是组装函数,QQQ 衡量输出质量。
 这一数学基础将上下文工程与启发式提示工程区分开来,为系统优化提供了原则性的依据。该框架捕捉了核心挑战:通过战略性的信息组织和传递,同时尊重实际约束,最大化LLM的性能。
注释: c指令,c已知信息,c工具,c记忆,c状态,c查询。实际上是一个动态的过程。
| 维度 | 提示工程 | 上下文工程 | 
|---|---|---|
| 模型 | C = prompt (静态字符串) | C = A(c₁, c₂, …, cₙ) (动态结构化组装) | 
| 目标 | arg maxprompt Pθ(Y| prompt) | F∗ = arg maxF Eτ∼T [Reward(Pθ(Y|C_F(τ)), Y∗τ)] | 
| 复杂度 | 在字符串空间进行手动或自动搜索 | 对 F = {A, Retrieve, Select, …} 进行系统级优化 | 
| 信息 | 信息内容固定在提示中 | 在约束条件C≤ Lmax 下最大化任务相关信息 | 
| 状态 | 主要无状态 | 固有状态化,包含明确的 c_mem 和 c_state 组件 | 
| 可扩展性 | 随长度和复杂性增加而变得更脆弱 | 通过模块化组合管理复杂性 | 
| 错误分析 | 手动检查和迭代优化 | 对独立上下文函数进行系统化评估和调试 | 
上下文工程的重要概念
上下文工程领域以爆炸式速度扩张,导致专业化但碎片化的研究领域激增。文章作者将其进行分类:
 
 并进一步给出其时间顺序
 
基础组件
这些基础组件为所有语境工程实践奠定了理论和实践基础,形成了一个全面框架——每个组件分别处理语境工程流程的不同方面,同时保持协同关系,从而实现全面的语境优化和有效的语境工程策略。
 
上下文检索与生成
上下文检索与生成构成了上下文工程的基础层,涵盖为大型语言模型系统性地检索和构建相关信息的全过程。通俗的讲,这部分内容涵盖了各种提示词相关技术,从基础指令到CoT,外部信息整合,以及动态信息组装的各种技术。旨在解决如何更加精确的向大模型系统下达指令。
先构建一个基础提示词,进一步考虑针对任务可能处理本地数据(对模型而言是外部数据),考虑外部知识通过RAG等手段的结合。为了更加有效的对数据进行整合,采用动态组装的方式完成信息整合。
上下文处理领域
上下文处理专注于对获取的上下文信息进行转换和优化,以最大化其对于大型语言模型的效用。该组件解决了处理超长序列上下文时的技术挑战,实现了迭代式自我优化与自适应机制,并促进多模态信息、关系型数据与结构化信息融合为连贯的上下文表征。对于超长上下文的处理往往依赖于模型架构设计,需要考虑LLM的架构调整或微调。就此类方法在AI Agent实践时的可行性,笔者已经向原文作者发出询问。
情境化自我优化与适应
自我优化使大型语言模型能够通过循环反馈机制改进输出,这种机制模拟了人类修订过程,其中利用通过提示工程实现的对话式自我交互进行自我评估,该方法区别于强化学习途径 。
关系与结构化语境
大型语言模型在处理关系和结构化数据(包括表格、数据库和知识图谱)时面临根本性约束,这源于其基于文本的输入要求和序列架构的局限性。
 同时线性化方法往往无法保留复杂的关联关系和结构特性,当信息分散在上下文不同位置时,模型性能会出现显著下降。
 上述冲突意味着我们要在结构化数据和非结构化数据之间寻求平衡。结构化的内容,如数据库信息。非结构化内容,如大模型指令。就AI Agent而言,由于要同时处理结构化内容和非结构化内容,因此解决信息在结构化数据与非结构化数据之间转化问题。
上下文管理的难题与挑战
上下文管理致力于实现上下文信息的高效组织、存储与利用。主要解决有限上下文窗口所施加的根本性限制,开发复杂的内存层次结构与存储体系,并实施压缩技术以在保持信息可访问性与连贯性的同时最大化信息密度。
上下文窗口的根本性约束
大型语言模型在上下文管理方面面临根本性约束,这些约束源于大多数架构固有的有限上下文窗口尺寸,显著降低了模型在需要深入理解长文档任务上的效能,同时带来了巨大的计算需求,阻碍了需要快速响应和高吞吐量的应用。尽管扩展上下文窗口使模型能够处理整个文档并捕获更长距离的依赖关系,但传统Transformer架构随着序列长度增加会经历二次计算复杂度的增长,使得处理极长文本的成本高得令人望而却步。长上下文处理的计算开销带来了额外挑战,管理键值缓存随着输入长度显著增长,在延迟和准确性方面都造成瓶颈,而多轮和纵向交互挑战进一步复杂化了上下文管理,因为有限的有效上下文阻碍了纵向知识积累,且多示例提示的令牌需求限制了系统和用户输入可用空间,同时减慢了推理速度。
上下文管理面临着相互对立的挑战
LLMs本质上独立处理每个交互,缺乏跨顺序交换的本机状态维护机制和强大的自我验证机制,这些约束源于哥德尔不完备定理所识别的根本限制。这种根本的无状态性需要明确的管理系统来维持连贯的操作序列并确保强大的故障恢复机制。从而引发:
- 上下文窗口溢出(由于超出窗口限制导致模型"遗忘"先前上下文)
- 上下文坍塌(扩大的上下文窗口或对话记忆导致模型难以区分不同对话上下文)。
 研究表明,思维链提示的声称益处并非源自真正的算法学习,而是依赖于特定问题的提示,随着问题复杂性增加,益处逐渐减弱。
“迷失在中间”
实证证据揭示了"迷失在中间"现象,即LLMs难以访问长上下文中间位置的信息,当相关信息出现在输入开头或结尾时表现显著更好。这种位置偏见严重影响了扩展思维链推理任务的表现,其中关键的早期结果容易遗忘,与无先前上下文的情况相比,性能急剧下降高达73%。
多智能体分布式处理代表新兴方向
使用基于LLM的多智能体方法以分布式方式处理海量输入,解决处理广泛外部知识时知识同步和推理过程的核心瓶颈。对真实场景键值缓存访问模式的分析显示,RAG和智能体等工作负载中缓存可重用性较高,凸显了对具有优化元数据管理的高效分布式缓存系统的需求,以减少冗余并提升速度。这些压缩技术可与其他长上下文建模方法结合,在降低计算开销和维护信息完整性的同时,进一步增强LLM处理与利用扩展上下文的能力。
应用场景下的特定挑战
有效的上下文管理将LLM能力从简单问答扩展到多个领域利用全面上下文理解的复杂应用。文档处理与分析能力使LLM能够处理完整文档或理解整篇文章而非片段,通过对输入材料的全面理解生成上下文相关响应,这对于基因序列、法律文档和技术文献等固有长序列数据尤其重要,因为在这些领域保持跨广泛内容的连贯性至关重要。
 上下文管理技术促成的扩展推理能力支持需要跨长序列维护并构建中间结果的复杂推理。通过捕获更长距离的依赖关系,这些系统支持多步骤问题求解,其中后续推理依赖于先前的计算或推导,从而在需要广泛上下文感知的领域(如复杂决策支持系统和科研辅助)实现高级应用。
多智能体系统协作与一致性的挑战
多智能体系统在多轮对话或顺序任务中受益于有效的上下文管理,其中维护一致状态和同步协作模型间的内部信息至关重要。这些能力支持包括分布式任务处理、协作内容创建和多智能体问题求解在内的应用,这些应用需要保持跨多次交互的上下文连贯性。增强的对话界面利用强大的上下文管理无缝处理扩展对话而不丢失线程连贯性,实现更自然、持久且近似人类对话的交互体验。
与长期记忆的博弈
记忆增强应用实施的策略使LLM能够持久存储、管理和动态检索相关上下文信息,支持需要通过持续交互构建个性化用户模型随时间积累知识的应用,跨扩展交互实施有效知识管理,以及依赖历史上下文的长期规划场景。先进记忆框架如上下文感知智能记忆(CAIM)通过包含存储和检索用户特定信息模块,同时支持基于上下文和时间的相关性过滤,结合认知AI原理来增强长期交互。
 LLM智能体的记忆管理整合了类似于人类记忆重巩固的过程,包括去重、合并和冲突解决,其中反射式记忆管理等方法结合前瞻性与回溯性反思,实现动态摘要和检索优化。基于案例的推理系统通过支持认知集成的架构组件和实现缓存策略以快速提供必要上下文的持久上下文存储技术,为LLM智能体记忆提供理论基础。这些优势不仅限于处理更长文本,还通过提升理解能力、生成更相关响应和增强扩展交互的连续性,从根本上提高LLM交互质量,显著扩展LLM的实用性并解决受限上下文窗口带来的限制。
上下文能力相关的未来方向
上下文学习
上下文学习,即模型能够根据提示中的示例在不更新权重的情况下适应新任务。通过提供具有显式因果关系的演示示例来增强这种能力,从而改进泛化性能 。然而,上下文学习受到固定上下文窗口的限制,同时由于模型内部权重和训练数据的问题,其性能也对输入顺序敏感。参考Karpathy的访谈内容,如果我们把大模型已经学习到的权重视作一定范围内的均值。大模型对于这些均值的记忆太好了(或权重太高了)从而限制了大模型在上下文学习场景下的表现。
多模态应用与多模态推理
处理丰富多模态上下文的能力正在解锁新的应用场景。多模态大模型(MLLMs)被用于预测性推理。除图片语音外,研究人员还将 MLLMs 扩展到了新兴模态,如触觉信息、事件数据和图结构。这些现实世界用例日益增长的重要性,推动了旨在评估上下文理解能力的综合评估框架的发展。这些进步实现了以往纯文本模型无法完成的应用,例如图像描述和复杂的多模态推理。
