当前位置：首页 > news >正文

ChatGPT 如何工作——提示工程、对话记忆与上下文管理解析

news 2025/11/9 9:56:29

🐇明明跟你说过：个人主页

🏅个人专栏：《深度探秘：AI界的007》 🏅

🔖行路有良友，便是天堂🔖

一、前言

1、ChatGPT 的火爆源自什么

2、从传统对话系统到大模型革命

二、ChatGPT 背后的技术基础

1、大语言模型（LLM）简述：什么是 GPT

2、GPT 的核心机制：Transformer、注意力机制

3、训练数据与生成原理简介

三、什么是提示工程（Prompt Engineering）

1、提示的定义与作用

2、提示工程的核心技巧

四、对话记忆是怎么实现的

1、ChatGPT 是怎么“记住”你的

2、短期记忆（上下文窗口） vs 长期记忆（用户信息）

五、上下文管理机制详解

1、什么是上下文窗口？为什么有限

2、Token 是如何影响模型记忆的

一、前言

1、ChatGPT 的火爆源自什么

1️⃣ 人类语言的“通才选手” 🧠💬

ChatGPT 是由 OpenAI 开发的 AI 聊天机器人，它最厉害的一点就是——能听懂人话，还会回答得像个人一样！
不管你是问学习问题📚、写作灵感✍️，还是代码调试💻、生活建议🍲，它都能对答如流。

比如你问：“帮我写一篇辞职信。”
它就会立刻“码”出一封超有礼貌、老板都舍不得让你走的辞职信😂。

2️⃣ 全能小助手，什么都能聊 🌐🧩

ChatGPT 不只是会“聊天”那么简单，它还是个全能小助手：

写代码 🧑‍💻
查资料 🔍
辅导学习 📖
写简历、做策划 📄
甚至还能帮你哄对象💘（虽然不保证成功🤣）

3️⃣ 你说它懂，它就懂：操作简单上手快 🖱️📱

不需要培训、不用看说明书，打开网页就能用，像跟朋友聊天一样提问就行了！
很多人第一次用上 ChatGPT，就会说一句：“哇，好神！”🤯

4️⃣ 火爆的“朋友圈效应”🌍🔥

你是不是也被朋友、微博、朋友圈、抖音种草过？
从程序员到学生，从作家到职场人，大家都在用 ChatGPT。
这就是它火起来的秘诀之一：用了就停不下来！ 📢📢📢

5️⃣ 不只是“聪明”，还会“进化” 🚀🧬

ChatGPT 背后的技术在不断升级，比如 GPT-4、GPT-4.5，甚至更强的版本，每一次更新都变得更聪明、更贴近人类思维。

你能感受到它“越来越懂你”——
它不是个死板的机器，而是一个可以“对话进化”的AI伙伴🌱🤝

2、从传统对话系统到大模型革命

💬 从传统对话系统到大模型革命：AI对话的进化史 🧬🚀

你有没有想过：
为什么以前的智能客服总是“答非所问”，而现在的 ChatGPT 却能跟你谈天说地、写诗作画、帮你改代码？

这背后，其实是 AI 对话系统的一场超级进化！🧠⚡
让我们一起穿越时空，看看它是怎么一步步走来的👇

🕰️ 1. 传统对话系统：规则党上线

还记得早期的“人工智障”吗？比如：

👤用户：你好
🤖机器人：你好，有什么可以帮您的？
👤用户：我想查快递
🤖机器人：请问您要咨询什么业务？

🤦‍♂️ 一问三不知，一聊就崩！

那时候的对话系统主要靠“规则匹配+关键词识别”，像“如果用户说查快递 ➡ 回答快递信息”。

这种系统有几个特点：

✅ 简单可控
❌ 死板僵硬
❌ 不懂上下文
❌ 不会“举一反三”

就像一本死记硬背的说明书，一点都不像“聊天”。

🧪 2. 统计学习登场：聪明一点点

后来，出现了更聪明的办法，比如使用机器学习来让对话系统“学会模式”📊。
比如通过训练数据来预测用户下一句可能说什么，再选出最合适的回答。

这一步，系统终于开始“有点脑子了”，但问题依旧：

❌ 理解还不够深
❌ 很依赖大量人工标注数据
❌ 领域限制明显（比如只能用于客服）

🤖 3. 深度学习 + 预训练模型：AI开始“开窍”🧠✨

随着深度学习的崛起，AI 开始使用“神经网络”来处理语言，比如：

Seq2Seq 模型
Transformer 架构（GPT 的祖宗）

这一步，AI 不再死记硬背，而是开始真正“理解语言”的结构和语义🌐。

尤其是预训练模型的出现，像是先让 AI “读几千本书”，然后再教它回答问题，效果大幅提升！

🌟 4. 大模型时代：GPT 横空出世 🦸‍♂️📢

然后，一切都变了。

OpenAI 发布 GPT 系列模型，尤其是 GPT-3 和 GPT-4，引爆了全球热潮🔥：

一个模型，能写作、能翻译、能编程、能考试、还能陪你聊天！

为什么它这么厉害？

✅ 它是 大模型（参数多，训练数据广）
✅ 它用 自回归方式预测文本，理解上下文能力强
✅ 它是 通用型AI，不用专门为每个任务单独训练

这就好比：
从一个“只能查快递的机器人”，变成了一个“万事通的AI搭子”🤝🌍

🧠 5. 从对话系统到通用智能：大模型的野心💡

今天的大模型，已经不是“聊天机器人”那么简单。

它正在变成一个：

🧠 知识库：拥有大量世界知识
🛠️ 工具人：能帮你完成任务（写报告、分析数据、写代码）
🧭 思维助手：参与创意与决策过程
🌐 平台核心：成为操作系统的“新界面”

大模型正把“人机交互”从点击、搜索，带入“自然语言”时代🎙️。

🔚 总结：一句话看懂进化史 📚

从“死板规则” → “聪明一点” → “会学习” → “能聊天” → “什么都会的超级AI”

这就是对话系统的演变，也是大模型革命带来的 技术奇迹✨

二、ChatGPT 背后的技术基础

1、大语言模型（LLM）简述：什么是 GPT

📌 什么是大语言模型（LLM）？

大语言模型（LLM, Large Language Model） 是一种基于深度学习的人工智能模型，它的目标是——

理解和生成“像人一样的自然语言” 🧠💬

你可以把它想象成一个：

📚 读过上亿篇文章的超级语文老师
🧠 能理解语境、推理、联想的聪明大脑
🛠️ 还能写文章、讲笑话、翻译语言、回答问题……

💡 那么，GPT 又是什么？

GPT，全称是 Generative Pre-trained Transformer，中文叫“生成式预训练变换器”。

它是 OpenAI 开发的一种 LLM，是目前最火、最强的模型之一🔥
GPT 是怎么工作的呢？来看下面这个小流程图👇

📖 它是这样训练出来的：

预训练（Pre-trained）：
先读很多很多文本（网络百科、新闻、小说、代码等），建立语言知识储备📘📚
生成式（Generative）：
给它一个开头，它能自动接着写，而且写得有逻辑、有文采✍️✨
Transformer 架构：
它的大脑结构叫“Transformer”，是一种非常擅长处理文本序列的神经网络架构⚙️⚡

2、GPT 的核心机制：Transformer、注意力机制

如果说 GPT 是一位超级聪明的大脑，那它的“脑回路”是怎么构成的呢？
没错，答案就是两个关键词：

Transformer + 注意力机制（Attention）

🎯 1. 什么是 Transformer？

Transformer 是 GPT 的“大脑结构”。它在 2017 年由 Google 提出，一登场就彻底革新了自然语言处理领域。

你可以把它想成：

🧩 处理语言的超级积木系统，每块积木叫一个“层”，多块积木堆在一起，就能学会复杂的语言能力！

它最核心的特点是：

✅ 全部基于 注意力机制（Self-Attention）
✅ 不用像以前那样逐个单词处理（不像 RNN）
✅ 支持并行计算 ⚡（训练更快，理解力更强）

👀 2. 注意力机制是啥？来个比喻！

想象一下你在看一篇文章：

🧍‍♀️你读到一句话：“小明今天心情特别好，因为他……”
你马上会问：“他是谁？”

👉 你会自动把注意力跳回前面的“小明”，这就是人类的“注意力”。

在模型里，“注意力机制”也干类似的事：

每个词在处理时，都会根据“和其他词的关系”来决定自己要“关注”谁、关注多少。

举个简单例子👇：

句子：“猫坐在垫子上。”
模型会思考：

“猫”和“坐”关系很强，🔗
“垫子”和“上”关系很强，🔗
“猫”可能和“垫子”也有关…… 🧩

这些“词与词之间的关联强度”就是由**注意力分数（Attention Weights）**算出来的！

🌟 这让模型不再只看“当前词”，而是能看到“整个句子”，更像人类理解语言的方式！

🏗️ 3. Transformer 的结构是啥样？

一张简图来看：

输入文本 → 编码 → 多头注意力机制 → 前馈神经网络 → 输出

主要组件：

多头注意力（Multi-Head Attention）：从多个角度“看问题”，更全面👁️👁️👁️
前馈网络（Feed Forward）：处理注意力后的信息
位置编码（Positional Encoding）：告诉模型词的顺序📍
残差连接 & Layer Norm：让训练更稳、更快⚙️

GPT 属于 Transformer 的 解码器部分，专注于“生成文本”。

🧠 4. GPT 是如何用这些机制生成语言的？

来看它的思考流程：

📥 你输入一句话：比如“明天北京的天气如何？”
🧮 GPT 用 Transformer 分析这句话，计算每个词之间的关系（注意力）
💡 模型预测下一个最可能的词：“晴” or “多云” or “下雨”…
🔁 不断重复，逐词生成，直到组成完整回答！

它生成的每个词，都是基于上下文 + 注意力机制，推理出来的结果！

3、训练数据与生成原理简介

要让 AI 像人一样说话、写作、编程，背后得经历“魔鬼式训练”💪📚
GPT 是怎么从“只会瞎说的模型”进化为“能写论文、答题、讲段子”的超级大脑的呢？

答案就是两步：

预训练 + 微调（Pretraining + Fine-tuning） 🛠️

📚1、预训练：喂它看整个互联网 🍔

预训练（Pretraining） 就是 GPT 学习语言的第一步。

简单来说，就是让它：

看！超！多！文！本！

🧠 阅读范围包括：

维基百科 📖
新闻报道 🗞️
小说、故事、对话 💬
编程代码 💻
公开网页、书籍等等……

它的目标只有一个：

给定前面一段话，预测下一个词会是什么？

比如训练中看到：

“今天的天气真是太” → 模型预测 “热” 或 “好了”

这就叫做 自回归语言建模（Autoregressive LM），每次都预测下一个最可能的词 🔮

就像填空题玩上百万遍，它慢慢就学会语言的结构和用法了📈

🧪 2、微调：让它更“懂业务”🧑‍🏫

预训练完后，GPT 虽然“会说话”，但还不能直接应用于实际场景。

这时就需要 微调（Fine-tuning）：

在某一类特定任务或场景上，给它一些“正确范例”，让它学会该怎么回答🎯

比如：

微调它学会写简历 📝
微调它处理客服问题 🛎️
微调它变成编程助手 💻
或者让它“安全一点、不乱说”🛡️

🎯 微调可以通过：

监督学习（给出输入和“好答案”）
强化学习（比如 ChatGPT 使用了人类反馈优化：RLHF）

这样 GPT 就能“学以致用”，变得专业且可靠！

🔁 3、生成原理：它是怎么“说”出来的？

GPT 生成语言的方式也很特别：

每一次回答，都是一个“词接词”的过程，像搭积木一样生成整句话！

例子：

🧑你问：“宇宙有多大？”
🤖 GPT 思考后预测：
“宇宙”（你输入的）
→ “是”（预测）
→ “一个”（继续）
→ “极其”（继续）
→ “广袤的”（继续）
→ “空间”……（直到说完整句话）

这就是它“自回归”的生成方式：
每次预测下一个词，直到组成完整回答 📄🧠

🧠 总结一下：

步骤	简述	比喻
预训练	海量阅读，学语言规则	给 AI “上小学”🧒📚
微调	专项训练，学特定任务	送 AI “上职校”🧑‍🔧
生成	词接词地生成回答	AI “一句话一句话地想出来”🧩💬

三、什么是提示工程（Prompt Engineering）

1、提示的定义与作用

💡 什么是提示（Prompt）？它有啥用？

你可能听说过一句话👇

“不会写 Prompt，就玩不转大模型！”

那么，Prompt（提示）到底是啥？
其实——

Prompt 就是你给 GPT 下达的指令、问题或任务描述。
是你与它“说话”的方式，是开启智能能力的钥匙🔑！

🧠 通俗理解：

把 GPT 当成一位无所不知的 AI 助手 🤖，你得告诉它：

你想让它干嘛？（任务）
怎么干？（格式、风格）
有什么限制？（不准胡说八道😅）

🗣️ 比如你说：

“帮我写一首关于春天的诗，用古风，四句，押韵。”

这就是一个很清晰的 Prompt。GPT 会根据你的提示，认真写诗✍️🌸

🧠 小提示 = 大能力！

不同的提示语，会让 GPT 呈现出完全不同的能力表现！

举个例子：

🟡 普通提示：

“写一封道歉信。”

🟢 高质量提示：

“你是一个 HR，请你帮我写一封道歉信，语气诚恳但不卑微，原因是错发了面试时间，语言简洁大方，字数不超过 150 字。”

👀 是不是感觉后者更靠谱？这就是 Prompt 的魔力！

2、提示工程的核心技巧

🎭 1. 角色设定（Role Prompting）

✅ 让 AI “带入角色”，思维更贴近任务场景！

🗣️ 比如：

“你是一位经验丰富的医生，请用通俗语言解释一下 X 光检查是什么。”

💡 效果：

输出更专业 ✅
语气贴近人设 ✅
更好理解你的预期 ✅

📌 小技巧：你可以加上角色的背景信息、性格、说话风格，让回答更贴近真实人物！

📦 2. 格式控制（Output Formatting）

✅ 想要表格？列表？JSON？Markdown？Prompt 里直接说！

🗣️ 示例：

“请将以下信息整理为 Markdown 表格，包含姓名、年龄、城市。”

或者：

“以 JSON 格式输出一篇人物简介，字段包括 name、age、description。”

📌 小技巧：

加上字段名、格式要求（如缩进、大小写）
多加一句 “不要输出额外说明文字”，避免杂乱输出 🧼

🧩 3. Few-shot Prompting（少量示例）

✅ 给几组示例，模型就能“学着模仿”你的风格或任务！

🗣️ 比如：

输入：天气很好  
输出：今天阳光明媚，适合外出游玩！输入：今天下雨了  
输出：阴雨绵绵，记得带伞哦！输入：天空阴沉  
输出：

💡 GPT 就能照着模仿你的回答风格，补全新的内容！

📌 小技巧：示例越贴合你的目标，效果越稳。可以加个“Instruction”先说明任务。

四、对话记忆是怎么实现的

1、ChatGPT 是怎么“记住”你的

你是不是也曾惊叹：

“哇！ChatGPT 怎么知道我刚才说了啥？还能接着聊！”🤯

这就是它的“对话记忆能力”在起作用啦！

那它到底是怎么记住你的话的呢？我们一起来看看👇

🧩 不是“记忆”，而是“上下文窗口”！

首先要澄清一个误解：

ChatGPT 不会像人一样拥有长期记忆 🧠，它只是能记住你和它目前这次对话的内容（这叫“上下文”）。

✅ 就像你们俩在“聊天记录”中来回看，GPT 是在“读你说过的每一句话”来理解你的问题。

💡 这个能力来自于它的核心机制 —— Transformer 模型中的 Attention 机制，能把之前的对话重点“关注”起来。

2、短期记忆（上下文窗口） vs 长期记忆（用户信息）

🎯 一图看懂

记忆类型	📦 作用	🧭 持续时间	📋 记住什么	🧽 是否可清除
🧠 短期记忆（上下文窗口）	让对话“连贯”，理解上下文	仅限当前对话	你说过的话、问题、上下文	自动清除（对话结束即忘）
🗃️ 长期记忆（用户信息）	个性化服务，记住你的偏好	跨对话持续有效	你是谁、做什么、喜欢什么	✅ 可手动删除和修改

🧠 短期记忆：上下文窗口的魔法 🎩

“我还记得你刚才说过……”，这是短期记忆的功劳！

📌 ChatGPT 会在当前对话中“记住”你说过的内容，用于保持对话连贯。

🧵 举个例子：

你：我是一名网络工程师。
你：你推荐哪些入门的网络安全书籍？
GPT：作为一名网络工程师，你可以从《黑客与画家》《The Web Application Hacker's Handbook》开始……

✔️ 它“记住”了你前一句话！
❌ 但一旦你关闭或刷新对话，这些信息就全部消失啦～

🗃️ 长期记忆：ChatGPT“认识你”的秘密档案 📁

“我记得你是搞 Linux 运维的，喜欢用表格格式～”

长期记忆是一种 跨对话的“记住你是谁”的能力，目前仅在部分 ChatGPT 版本中启用（如 ChatGPT Plus）。

💡 它能记住的内容示例：

你叫什么 / 想被怎么称呼（如“叫我小明就行”）
你的职业（运维工程师 / 产品经理 / 博主…）
内容偏好（喜欢 Markdown、精简风格、图文混排等）
写作风格 / 使用语言（中文优先、少用术语等）

✅ 对话更个性化，GPT 会“对号入座”地回答！

五、上下文管理机制详解

1、什么是上下文窗口？为什么有限

你可以把它想象成 GPT 的“聊天脑容量”——能装下你这次对话中说过的所有内容。这个容量就叫：

✅ 上下文窗口（Context Window）

💬 举个栗子🌰：

你：我叫小明，是做网络安全的。
你：推荐几本适合入门的书籍。
GPT：小明你好！作为网络安全初学者，可以试试……

GPT 能“记得”你是小明，是做网络安全的，这就是因为你这几句话都还在它的上下文窗口里。

📦 但是！上下文窗口是有限的

🧱 就像白板画图，你画多了就必须擦掉前面的。GPT 也是：

📏 它只能“看到”一定数量的 token（词的片段），超出就“遗忘”。

模型版本	上下文窗口容量（token）	大约能容纳的中文字符数
GPT-3.5	~ 4,096 token	~ 2,000–3,000 字
GPT-4	~ 8k / 32k / 128k	~ 6,000–100,000+ 字
Claude 3	200k+	一整本小说都行📚

⚠️ token ≠ 字符数，中文大约 1 个字 ≈ 1.5–2 token，英文会更小一些。

🧮 为什么不能“无限扩大窗口”？

这是受限于以下几个方面：

1️⃣ 算力和资源限制 💻

每增加一点窗口大小，计算开销就成倍上升（尤其是注意力机制的计算复杂度是 O(n²)）。
比如 GPT-4 128k 模型的成本和响应时间，比普通 8k 模型贵很多！

2️⃣ 模型架构设计限制 🧱

Transformer 架构原生是用固定窗口做注意力计算的。
增大窗口要用更复杂的技术，比如 滑动窗口、稀疏注意力、位置编码重设计 等。

3️⃣ 实用性考虑 📉

很多时候其实不需要“记住整本书”，而是要学会提取关键内容。
所以更长上下文 ≠ 更智能，要看有没有合理摘要和压缩机制。

2、Token 是如何影响模型记忆的

🧩 什么是 Token？

Token 就是模型处理文本的最小单元。

📌 它 ≠ 一个字，也 ≠ 一个词，而是介于之间的“片段”。

示例文本	分词后 token 示例
Hello GPT	`Hello`, `G`, `PT`（或合并为一个 token）
我喜欢你	`我`、`喜欢`、`你`（每个字或词一个 token）

Token 是语言模型的“最小阅读单位”。

📏 不同语言的 token 大致估算：

语言	100 字 ≈ 多少 token
中文	约 150–200 token
英文	约 80–100 token

🧠 Token 如何影响 GPT 的“记忆”？

GPT 的上下文窗口限制的是 token 数量，而不是字数或行数！

🚧 举个例子：

你用 GPT-3.5，它最多能处理 4096 token：

✅ 它能“记住”你在当前对话中说过的：

几千字的文本（约等于几页纸）
多轮对话内容
你贴的文章或代码块

❌ 但是超过 4096 token 后，前面的内容就被“挤出去了”：

GPT：“对不起，我记不清前面你说了啥了……😅”

🧠 Token 的三个重要影响

① 限制模型“记忆”的长度 🧱

超过 token 数就像翻书翻到最后一页，再写就得擦掉第一页。

② 影响回答内容的“长度” ✂️

不只是你的输入，GPT 的输出也占 token：

🧮 示例：

输入 3000 token
那它只能再输出约 1000 token（否则就超了）

③ 决定运行成本 💸

token 数越多：

响应越慢
消耗计算资源越多
你用的 GPT Plus 额度也更快用完（比如 100K tokens = 约 10 万字）

💕💕💕每一次的分享都是一次成长的旅程，感谢您的陪伴和关注。希望这些文章能陪伴您走过技术的一段旅程，共同见证成长和进步！😺😺😺

🧨🧨🧨让我们一起在技术的海洋中探索前行，共同书写美好的未来！！！

查看全文

http://www.dtcms.com/a/213822.html

最新Spring Security实战教程（十六）微服务间安全通信 - JWT令牌传递与校验机制

从“无我”到“无生法忍”：解构执着的终极智慧

Godot的RichTextLabel富文本标签，鼠标拖拽滚动，方向键滚动，底部吸附，自动滚动

时序模型上——ARIMA/MA/AR

OpenCV图像认知(二)

编程中优秀大模型推荐：特点与应用场景深度分析

JAVA Apache POI实战：从基础Excel导出入门到高级功能拓展

java写一个简单的冒泡排序

vue实例与组件实例

视频存储开源方案

Flutter Web 3.0革命：用WebGPU实现浏览器端实时光追渲染，性能提升300%

论文分享之Prompt优化

C++模板与字符串：从入门到精通

什么是HTTP HTTP 和 HTTPS 的区别

SQL进阶之旅 Day 4：子查询与临时表优化

vue3获取两个日期之间的所有时间

PostgreSQL日志管理完整方案（AI）

关于Python编程语言学习的入门总结

SQL：合并查询（UNION）

.gitignore 的基本用法

vSphere 7.0 client 提示HTTP状态 500- 内部服务器错误

day021-定时任务

创业团队建设与管理（一）

扣子平台上如何进行对象序列化，JSON序列化和反序列化节点的使用

MPI实现中对消息传递的优化

通用的管理账号设置设计（一）

学习python day8

leetcode 93. Restore IP Addresses

mac for vscode集成的源代码管理撤销和删除文件报错Permission denied

宫格导航--纯血鸿蒙组件库AUI

一、前言

1、ChatGPT 的火爆源自什么

2、从传统对话系统到大模型革命

二、ChatGPT 背后的技术基础

1、大语言模型（LLM）简述：什么是 GPT

2、GPT 的核心机制：Transformer、注意力机制

3、训练数据与生成原理简介

三、什么是提示工程（Prompt Engineering）

1、提示的定义与作用

2、提示工程的核心技巧

四、对话记忆是怎么实现的

1、ChatGPT 是怎么“记住”你的

2、短期记忆（上下文窗口） vs 长期记忆（用户信息）

五、上下文管理机制详解

1、什么是上下文窗口？为什么有限

2、Token 是如何影响模型记忆的

相关文章：