ChatGPT 如何工作——提示工程、对话记忆与上下文管理解析
🐇明明跟你说过:个人主页
🏅个人专栏:《深度探秘:AI界的007》 🏅
🔖行路有良友,便是天堂🔖
目录
一、前言
1、ChatGPT 的火爆源自什么
2、从传统对话系统到大模型革命
二、ChatGPT 背后的技术基础
1、大语言模型(LLM)简述:什么是 GPT
2、GPT 的核心机制:Transformer、注意力机制
3、训练数据与生成原理简介
三、什么是提示工程(Prompt Engineering)
1、提示的定义与作用
2、提示工程的核心技巧
四、对话记忆是怎么实现的
1、ChatGPT 是怎么“记住”你的
2、短期记忆(上下文窗口) vs 长期记忆(用户信息)
五、上下文管理机制详解
1、什么是上下文窗口?为什么有限
2、Token 是如何影响模型记忆的
一、前言
1、ChatGPT 的火爆源自什么
1️⃣ 人类语言的“通才选手” 🧠💬
ChatGPT 是由 OpenAI 开发的 AI 聊天机器人,它最厉害的一点就是——能听懂人话,还会回答得像个人一样!
不管你是问学习问题📚、写作灵感✍️,还是代码调试💻、生活建议🍲,它都能对答如流。
比如你问:“帮我写一篇辞职信。”
它就会立刻“码”出一封超有礼貌、老板都舍不得让你走的辞职信😂。
2️⃣ 全能小助手,什么都能聊 🌐🧩
ChatGPT 不只是会“聊天”那么简单,它还是个全能小助手:
-
写代码 🧑💻
-
查资料 🔍
-
辅导学习 📖
-
写简历、做策划 📄
-
甚至还能帮你哄对象💘(虽然不保证成功🤣)
3️⃣ 你说它懂,它就懂:操作简单上手快 🖱️📱
不需要培训、不用看说明书,打开网页就能用,像跟朋友聊天一样提问就行了!
很多人第一次用上 ChatGPT,就会说一句:“哇,好神!”🤯
4️⃣ 火爆的“朋友圈效应”🌍🔥
你是不是也被朋友、微博、朋友圈、抖音种草过?
从程序员到学生,从作家到职场人,大家都在用 ChatGPT。
这就是它火起来的秘诀之一:用了就停不下来! 📢📢📢
5️⃣ 不只是“聪明”,还会“进化” 🚀🧬
ChatGPT 背后的技术在不断升级,比如 GPT-4、GPT-4.5,甚至更强的版本,每一次更新都变得更聪明、更贴近人类思维。
你能感受到它“越来越懂你”——
它不是个死板的机器,而是一个可以“对话进化”的AI伙伴🌱🤝
2、从传统对话系统到大模型革命
💬 从传统对话系统到大模型革命:AI对话的进化史 🧬🚀
你有没有想过:
为什么以前的智能客服总是“答非所问”,而现在的 ChatGPT 却能跟你谈天说地、写诗作画、帮你改代码?
这背后,其实是 AI 对话系统的一场超级进化!🧠⚡
让我们一起穿越时空,看看它是怎么一步步走来的👇
🕰️ 1. 传统对话系统:规则党上线
还记得早期的“人工智障”吗?比如:
👤用户:你好
🤖机器人:你好,有什么可以帮您的?
👤用户:我想查快递
🤖机器人:请问您要咨询什么业务?
🤦♂️ 一问三不知,一聊就崩!
那时候的对话系统主要靠“规则匹配+关键词识别”,像“如果用户说查快递 ➡ 回答快递信息”。
这种系统有几个特点:
-
✅ 简单可控
-
❌ 死板僵硬
-
❌ 不懂上下文
-
❌ 不会“举一反三”
就像一本死记硬背的说明书,一点都不像“聊天”。
🧪 2. 统计学习登场:聪明一点点
后来,出现了更聪明的办法,比如使用机器学习来让对话系统“学会模式”📊。
比如通过训练数据来预测用户下一句可能说什么,再选出最合适的回答。
这一步,系统终于开始“有点脑子了”,但问题依旧:
-
❌ 理解还不够深
-
❌ 很依赖大量人工标注数据
-
❌ 领域限制明显(比如只能用于客服)
🤖 3. 深度学习 + 预训练模型:AI开始“开窍”🧠✨
随着深度学习的崛起,AI 开始使用“神经网络”来处理语言,比如:
-
Seq2Seq 模型
-
Transformer 架构(GPT 的祖宗)
这一步,AI 不再死记硬背,而是开始真正“理解语言”的结构和语义🌐。
尤其是预训练模型的出现,像是先让 AI “读几千本书”,然后再教它回答问题,效果大幅提升!
🌟 4. 大模型时代:GPT 横空出世 🦸♂️📢
然后,一切都变了。
OpenAI 发布 GPT 系列模型,尤其是 GPT-3 和 GPT-4,引爆了全球热潮🔥:
一个模型,能写作、能翻译、能编程、能考试、还能陪你聊天!
为什么它这么厉害?
✅ 它是 大模型(参数多,训练数据广)
✅ 它用 自回归方式预测文本,理解上下文能力强
✅ 它是 通用型AI,不用专门为每个任务单独训练
这就好比:
从一个“只能查快递的机器人”,变成了一个“万事通的AI搭子”🤝🌍
🧠 5. 从对话系统到通用智能:大模型的野心💡
今天的大模型,已经不是“聊天机器人”那么简单。
它正在变成一个:
-
🧠 知识库:拥有大量世界知识
-
🛠️ 工具人:能帮你完成任务(写报告、分析数据、写代码)
-
🧭 思维助手:参与创意与决策过程
-
🌐 平台核心:成为操作系统的“新界面”
大模型正把“人机交互”从点击、搜索,带入“自然语言”时代🎙️。
🔚 总结:一句话看懂进化史 📚
从“死板规则” → “聪明一点” → “会学习” → “能聊天” → “什么都会的超级AI”
这就是对话系统的演变,也是大模型革命带来的 技术奇迹✨
二、ChatGPT 背后的技术基础
1、大语言模型(LLM)简述:什么是 GPT
📌 什么是大语言模型(LLM)?
大语言模型(LLM, Large Language Model) 是一种基于深度学习的人工智能模型,它的目标是——
理解和生成“像人一样的自然语言” 🧠💬
你可以把它想象成一个:
-
📚 读过上亿篇文章的超级语文老师
-
🧠 能理解语境、推理、联想的聪明大脑
-
🛠️ 还能写文章、讲笑话、翻译语言、回答问题……
💡 那么,GPT 又是什么?
GPT,全称是 Generative Pre-trained Transformer,中文叫“生成式预训练变换器”。
它是 OpenAI 开发的一种 LLM,是目前最火、最强的模型之一🔥
GPT 是怎么工作的呢?来看下面这个小流程图👇
📖 它是这样训练出来的:
-
预训练(Pre-trained):
先读很多很多文本(网络百科、新闻、小说、代码等),建立语言知识储备📘📚 -
生成式(Generative):
给它一个开头,它能自动接着写,而且写得有逻辑、有文采✍️✨ -
Transformer 架构:
它的大脑结构叫“Transformer”,是一种非常擅长处理文本序列的神经网络架构⚙️⚡
2、GPT 的核心机制:Transformer、注意力机制
如果说 GPT 是一位超级聪明的大脑,那它的“脑回路”是怎么构成的呢?
没错,答案就是两个关键词:
Transformer + 注意力机制(Attention)
🎯 1. 什么是 Transformer?
Transformer 是 GPT 的“大脑结构”。它在 2017 年由 Google 提出,一登场就彻底革新了自然语言处理领域。
你可以把它想成:
🧩 处理语言的超级积木系统,每块积木叫一个“层”,多块积木堆在一起,就能学会复杂的语言能力!
它最核心的特点是:
✅ 全部基于 注意力机制(Self-Attention)
✅ 不用像以前那样逐个单词处理(不像 RNN)
✅ 支持并行计算 ⚡(训练更快,理解力更强)
👀 2. 注意力机制是啥?来个比喻!
想象一下你在看一篇文章:
🧍♀️你读到一句话:“小明今天心情特别好,因为他……”
你马上会问:“他是谁?”
👉 你会自动把注意力跳回前面的“小明”,这就是人类的“注意力”。
在模型里,“注意力机制”也干类似的事:
每个词在处理时,都会根据“和其他词的关系”来决定自己要“关注”谁、关注多少。
举个简单例子👇:
句子:“猫坐在垫子上。”
模型会思考:
-
“猫”和“坐”关系很强,🔗
-
“垫子”和“上”关系很强,🔗
-
“猫”可能和“垫子”也有关…… 🧩
这些“词与词之间的关联强度”就是由**注意力分数(Attention Weights)**算出来的!
🌟 这让模型不再只看“当前词”,而是能看到“整个句子”,更像人类理解语言的方式!
🏗️ 3. Transformer 的结构是啥样?
一张简图来看:
输入文本 → 编码 → 多头注意力机制 → 前馈神经网络 → 输出
主要组件:
-
多头注意力(Multi-Head Attention):从多个角度“看问题”,更全面👁️👁️👁️
-
前馈网络(Feed Forward):处理注意力后的信息
-
位置编码(Positional Encoding):告诉模型词的顺序📍
-
残差连接 & Layer Norm:让训练更稳、更快⚙️
GPT 属于 Transformer 的 解码器部分,专注于“生成文本”。
🧠 4. GPT 是如何用这些机制生成语言的?
来看它的思考流程:
-
📥 你输入一句话:比如“明天北京的天气如何?”
-
🧮 GPT 用 Transformer 分析这句话,计算每个词之间的关系(注意力)
-
💡 模型预测下一个最可能的词:“晴” or “多云” or “下雨”…
-
🔁 不断重复,逐词生成,直到组成完整回答!
它生成的每个词,都是基于上下文 + 注意力机制,推理出来的结果!
3、训练数据与生成原理简介
要让 AI 像人一样说话、写作、编程,背后得经历“魔鬼式训练”💪📚
GPT 是怎么从“只会瞎说的模型”进化为“能写论文、答题、讲段子”的超级大脑的呢?
答案就是两步:
预训练 + 微调(Pretraining + Fine-tuning) 🛠️
📚1、预训练:喂它看整个互联网 🍔
预训练(Pretraining) 就是 GPT 学习语言的第一步。
简单来说,就是让它:
看!超!多!文!本!
🧠 阅读范围包括:
-
维基百科 📖
-
新闻报道 🗞️
-
小说、故事、对话 💬
-
编程代码 💻
-
公开网页、书籍等等……
它的目标只有一个:
给定前面一段话,预测下一个词会是什么?
比如训练中看到:
“今天的天气真是太” → 模型预测 “热” 或 “好了”
这就叫做 自回归语言建模(Autoregressive LM),每次都预测下一个最可能的词 🔮
就像填空题玩上百万遍,它慢慢就学会语言的结构和用法了📈
🧪 2、微调:让它更“懂业务”🧑🏫
预训练完后,GPT 虽然“会说话”,但还不能直接应用于实际场景。
这时就需要 微调(Fine-tuning):
在某一类特定任务或场景上,给它一些“正确范例”,让它学会该怎么回答🎯
比如:
-
微调它学会写简历 📝
-
微调它处理客服问题 🛎️
-
微调它变成编程助手 💻
-
或者让它“安全一点、不乱说”🛡️
🎯 微调可以通过:
-
监督学习(给出输入和“好答案”)
-
强化学习(比如 ChatGPT 使用了人类反馈优化:RLHF)
这样 GPT 就能“学以致用”,变得专业且可靠!
🔁 3、生成原理:它是怎么“说”出来的?
GPT 生成语言的方式也很特别:
每一次回答,都是一个“词接词”的过程,像搭积木一样生成整句话!
例子:
🧑你问:“宇宙有多大?”
🤖 GPT 思考后预测:
“宇宙”(你输入的)
→ “是”(预测)
→ “一个”(继续)
→ “极其”(继续)
→ “广袤的”(继续)
→ “空间”……(直到说完整句话)
这就是它“自回归”的生成方式:
每次预测下一个词,直到组成完整回答 📄🧠
🧠 总结一下:
步骤 | 简述 | 比喻 |
---|---|---|
预训练 | 海量阅读,学语言规则 | 给 AI “上小学”🧒📚 |
微调 | 专项训练,学特定任务 | 送 AI “上职校”🧑🔧 |
生成 | 词接词地生成回答 | AI “一句话一句话地想出来”🧩💬 |
三、什么是提示工程(Prompt Engineering)
1、提示的定义与作用
💡 什么是提示(Prompt)?它有啥用?
你可能听说过一句话👇
“不会写 Prompt,就玩不转大模型!”
那么,Prompt(提示)到底是啥?
其实——
Prompt 就是你给 GPT 下达的指令、问题或任务描述。
是你与它“说话”的方式,是开启智能能力的钥匙🔑!
🧠 通俗理解:
把 GPT 当成一位无所不知的 AI 助手 🤖,你得告诉它:
-
你想让它干嘛?(任务)
-
怎么干?(格式、风格)
-
有什么限制?(不准胡说八道😅)
🗣️ 比如你说:
“帮我写一首关于春天的诗,用古风,四句,押韵。”
这就是一个很清晰的 Prompt。GPT 会根据你的提示,认真写诗✍️🌸
🧠 小提示 = 大能力!
不同的提示语,会让 GPT 呈现出完全不同的能力表现!
举个例子:
🟡 普通提示:
“写一封道歉信。”
🟢 高质量提示:
“你是一个 HR,请你帮我写一封道歉信,语气诚恳但不卑微,原因是错发了面试时间,语言简洁大方,字数不超过 150 字。”
👀 是不是感觉后者更靠谱?这就是 Prompt 的魔力!
2、提示工程的核心技巧
🎭 1. 角色设定(Role Prompting)
✅ 让 AI “带入角色”,思维更贴近任务场景!
🗣️ 比如:
“你是一位经验丰富的医生,请用通俗语言解释一下 X 光检查是什么。”
💡 效果:
-
输出更专业 ✅
-
语气贴近人设 ✅
-
更好理解你的预期 ✅
📌 小技巧:你可以加上角色的背景信息、性格、说话风格,让回答更贴近真实人物!
📦 2. 格式控制(Output Formatting)
✅ 想要表格?列表?JSON?Markdown?Prompt 里直接说!
🗣️ 示例:
“请将以下信息整理为 Markdown 表格,包含姓名、年龄、城市。”
或者:
“以 JSON 格式输出一篇人物简介,字段包括 name、age、description。”
📌 小技巧:
-
加上字段名、格式要求(如缩进、大小写)
-
多加一句 “不要输出额外说明文字”,避免杂乱输出 🧼
🧩 3. Few-shot Prompting(少量示例)
✅ 给几组示例,模型就能“学着模仿”你的风格或任务!
🗣️ 比如:
输入:天气很好 输出:今天阳光明媚,适合外出游玩!输入:今天下雨了 输出:阴雨绵绵,记得带伞哦!输入:天空阴沉 输出:
💡 GPT 就能照着模仿你的回答风格,补全新的内容!
📌 小技巧:示例越贴合你的目标,效果越稳。可以加个“Instruction”先说明任务。
四、对话记忆是怎么实现的
1、ChatGPT 是怎么“记住”你的
你是不是也曾惊叹:
“哇!ChatGPT 怎么知道我刚才说了啥?还能接着聊!”🤯
这就是它的“对话记忆能力”在起作用啦!
那它到底是怎么记住你的话的呢?我们一起来看看👇
🧩 不是“记忆”,而是“上下文窗口”!
首先要澄清一个误解:
ChatGPT 不会像人一样拥有长期记忆 🧠,它只是能记住你和它目前这次对话的内容(这叫“上下文”)。
✅ 就像你们俩在“聊天记录”中来回看,GPT 是在“读你说过的每一句话”来理解你的问题。
💡 这个能力来自于它的核心机制 —— Transformer 模型中的 Attention 机制,能把之前的对话重点“关注”起来。
2、短期记忆(上下文窗口) vs 长期记忆(用户信息)
🎯 一图看懂
记忆类型 | 📦 作用 | 🧭 持续时间 | 📋 记住什么 | 🧽 是否可清除 |
---|---|---|---|---|
🧠 短期记忆(上下文窗口) | 让对话“连贯”,理解上下文 | 仅限当前对话 | 你说过的话、问题、上下文 | 自动清除(对话结束即忘) |
🗃️ 长期记忆(用户信息) | 个性化服务,记住你的偏好 | 跨对话持续有效 | 你是谁、做什么、喜欢什么 | ✅ 可手动删除和修改 |
🧠 短期记忆:上下文窗口的魔法 🎩
“我还记得你刚才说过……”,这是短期记忆的功劳!
📌 ChatGPT 会在当前对话中“记住”你说过的内容,用于保持对话连贯。
🧵 举个例子:
你:我是一名网络工程师。
你:你推荐哪些入门的网络安全书籍?
GPT:作为一名网络工程师,你可以从《黑客与画家》《The Web Application Hacker's Handbook》开始……
✔️ 它“记住”了你前一句话!
❌ 但一旦你关闭或刷新对话,这些信息就全部消失啦~
🗃️ 长期记忆:ChatGPT“认识你”的秘密档案 📁
“我记得你是搞 Linux 运维的,喜欢用表格格式~”
长期记忆是一种 跨对话的“记住你是谁”的能力,目前仅在部分 ChatGPT 版本中启用(如 ChatGPT Plus)。
💡 它能记住的内容示例:
-
你叫什么 / 想被怎么称呼(如“叫我小明就行”)
-
你的职业(运维工程师 / 产品经理 / 博主…)
-
内容偏好(喜欢 Markdown、精简风格、图文混排等)
-
写作风格 / 使用语言(中文优先、少用术语等)
✅ 对话更个性化,GPT 会“对号入座”地回答!
五、上下文管理机制详解
1、什么是上下文窗口?为什么有限
你可以把它想象成 GPT 的“聊天脑容量”——能装下你这次对话中说过的所有内容。这个容量就叫:
✅ 上下文窗口(Context Window)
💬 举个栗子🌰:
你:我叫小明,是做网络安全的。
你:推荐几本适合入门的书籍。
GPT:小明你好!作为网络安全初学者,可以试试……
GPT 能“记得”你是小明,是做网络安全的,这就是因为你这几句话都还在它的上下文窗口里。
📦 但是!上下文窗口是有限的
🧱 就像白板画图,你画多了就必须擦掉前面的。GPT 也是:
📏 它只能“看到”一定数量的 token(词的片段),超出就“遗忘”。
模型版本 | 上下文窗口容量(token) | 大约能容纳的中文字符数 |
---|---|---|
GPT-3.5 | ~ 4,096 token | ~ 2,000–3,000 字 |
GPT-4 | ~ 8k / 32k / 128k | ~ 6,000–100,000+ 字 |
Claude 3 | 200k+ | 一整本小说都行📚 |
⚠️ token ≠ 字符数,中文大约 1 个字 ≈ 1.5–2 token,英文会更小一些。
🧮 为什么不能“无限扩大窗口”?
这是受限于以下几个方面:
1️⃣ 算力和资源限制 💻
-
每增加一点窗口大小,计算开销就成倍上升(尤其是注意力机制的计算复杂度是 O(n²))。
-
比如 GPT-4 128k 模型的成本和响应时间,比普通 8k 模型贵很多!
2️⃣ 模型架构设计限制 🧱
-
Transformer 架构原生是用固定窗口做注意力计算的。
-
增大窗口要用更复杂的技术,比如 滑动窗口、稀疏注意力、位置编码重设计 等。
3️⃣ 实用性考虑 📉
-
很多时候其实不需要“记住整本书”,而是要学会提取关键内容。
-
所以更长上下文 ≠ 更智能,要看有没有合理摘要和压缩机制。
2、Token 是如何影响模型记忆的
🧩 什么是 Token?
Token 就是模型处理文本的最小单元。
📌 它 ≠ 一个字,也 ≠ 一个词,而是介于之间的“片段”。
示例文本 | 分词后 token 示例 |
---|---|
Hello GPT | Hello , G , PT (或合并为一个 token) |
我喜欢你 | 我 、喜欢 、你 (每个字或词一个 token) |
Token 是语言模型的“最小阅读单位”。
📏 不同语言的 token 大致估算:
语言 | 100 字 ≈ 多少 token |
---|---|
中文 | 约 150–200 token |
英文 | 约 80–100 token |
🧠 Token 如何影响 GPT 的“记忆”?
GPT 的上下文窗口限制的是 token 数量,而不是字数或行数!
🚧 举个例子:
你用 GPT-3.5,它最多能处理 4096 token:
✅ 它能“记住”你在当前对话中说过的:
-
几千字的文本(约等于几页纸)
-
多轮对话内容
-
你贴的文章或代码块
❌ 但是超过 4096 token 后,前面的内容就被“挤出去了”:
GPT:“对不起,我记不清前面你说了啥了……😅”
🧠 Token 的三个重要影响
① 限制模型“记忆”的长度 🧱
- 超过 token 数就像翻书翻到最后一页,再写就得擦掉第一页。
② 影响回答内容的“长度” ✂️
不只是你的输入,GPT 的输出也占 token:
🧮 示例:
-
输入 3000 token
-
那它只能再输出约 1000 token(否则就超了)
③ 决定运行成本 💸
token 数越多:
-
响应越慢
-
消耗计算资源越多
-
你用的 GPT Plus 额度也更快用完(比如 100K tokens = 约 10 万字)
💕💕💕每一次的分享都是一次成长的旅程,感谢您的陪伴和关注。希望这些文章能陪伴您走过技术的一段旅程,共同见证成长和进步!😺😺😺
🧨🧨🧨让我们一起在技术的海洋中探索前行,共同书写美好的未来!!!