大模型应用开发
大模型应用技术特点:门槛低,天花板高。
基于RAG架构的开发
背景
- 大模型的知识冻结
- 大模型幻觉
而RAG就可以非常精准的解决这两个问题。
举例
LLM在考试的时候面对陌生的领域,答复能力有限,然后就准备放飞自我了。而此时RAG给了一些提示和思路,让LLM懂了开始往这个提示的方向做,最终考试的正确率从60%到了90%!
何为RAG?
Retrieval-Augmented Generation(检索增强生成)
检索-增强-⽣成过程:检索可以理解为第10步,增强理解为第12步(这⾥的提⽰词包含检索到的数据),⽣成理解为第15步。
类似的细节图:
强调一下难点的步骤:
这些过程中的难点:1、文件解析 2、文件切割 3、知识检索 4、知识重排序
Reranker的使用场景
- 适合:追求 回答高精度 和 高相关性 的场景中特别适合使用 Reranker,例如专业知识库或者客服系统等应用。
- 不适合:引入reranker会增加召回时间,增加检索延迟。服务对 响应时间要求高 时,使用reranker可能不合适。
这里有三个位置涉及到大模型的使用:
- 第3步向量化时,需要使用EmbeddingModels。
- 第7步重排序时,需要使用RerankModels。
- 第9步生成答案时,需要使用LLM。
基于Agent架构的开发
充分利用 LLM 的推理决策能力,通过增加 规划 、 记忆 和 工具 调用的能力,构造一个能够独立思考、逐步完成给定目标的智能体。
举例:传统的程序 vs Agent(智能体)
OpenAI的元老翁丽莲(Lilian Weng)于2023年6月在个人博客首次提出了 现代AI Agent架构。
一个数学公式来表示:
Agent = LLM + Memory + Tools + Planning + Action
⽐如,打⻋到西藏玩。
- ⼤脑中枢:规划⾏程的你
- 规划:步骤1:规划打⻋路线,步骤2:定饭店、酒店,。。。
- 调⽤⼯具:调⽤MCP或FunctionCalling等API,滴滴打⻋、携程、美团订酒店饭店
- 记忆能⼒:沟通时,要知道上下⽂。⽐如定酒店得知道是西藏路上的酒店,不能聊着聊着忘了最初的⽬的。
- 能够执⾏上述操作。说走就走,不能纸上谈兵。
智能体核心要素被细化为以下模块:
-
大模型(LLM)作为“大脑”:提供推理、规划和知识理解能力,是AI Agent的决策中枢。
⼤脑主要由⼀个⼤型语⾔模型 LLM 组成,承担着信息处理和决策等功能, 并可以呈现推理和规划
的过程,能很好地应对未知任务。 -
记忆(Memory)
记忆机制能让智能体在处理重复⼯作时调⽤以前的经验,从而避免⽤⼾进⾏⼤量重复交互。
- 短期记忆:存储单次对话周期的上下文信息,属于临时信息存储机制。受限于模型的上下文窗口长度。
ChatGPT:⽀持约8k token的上下⽂
GPT4:⽀持约32k token的上下⽂
最新的很多⼤模型:都⽀持100万、1000万 token的上下⽂ (相当于2000万字⽂本或20小时视频)
⼀般情况下模型中 token 和字数的换算⽐例⼤致如下:
- 1 个英⽂字符 ≈ 0.3 个 token。
- 1 个中⽂字符 ≈ 0.6 个 token。
- 长期记忆:可以横跨多个任务或时间周期,可存储并调用核心知识,非即时任务。
- 长期记忆,可以通过模型参数微调(固化知识)、知识图谱(结构化语义网络)或向量数据库(相似性检索)方式实现。
-
工具使用(Tool Use):调用外部工具(如API、数据库)扩展能力边界。
-
规划决策(Planning):通过任务分解、反思与自省框架实现复杂任务处理。例如,利用思维链(Chain of Thought)将目标拆解为子任务,并通过反馈优化策略。
-
行动(Action):实际执行决策的模块,涵盖软件接口操作(如自动订票)和物理交互(如机器人执行搬运)。比如:检索、推理、编程等。
智能体会形成完整的计划流程。例如先读取以前⼯作的经验和记忆,之后规划⼦⽬标并使⽤相应⼯具去处理问题,最后输出给⽤⼾并完成反思。
大模型应用开发的4个场景
场景1:纯 Prompt
- Prompt是操作大模型的唯一接口
- 当人看:你说一句,ta回一句,你再说一句,ta再回一句…
场景2:Agent + Function Calling
- Agent:AI 主动提要求
- Function Calling:需要对接外部系统时,AI 要求执行某个函数
- 当人看:你问 ta「我明天去杭州出差,要带伞吗?」,ta 让你先看天气预报,你看了告诉ta,ta再告诉你要不要带伞
场景3:RAG (Retrieval-Augmented Generation)
RAG:需要补充领域知识时使用
- Embeddings:把文字转换为更易于相似度计算的编码。这种编码叫向量
- 向量数据库:把向量存起来,方便查找
- 向量搜索:根据输入向量,找到最相似的向量
举例:考试答题时,到书上找相关内容,再结合题目组成答案
这个在智能客服上用的最广泛。
场景4:Fine-tuning(精调/微调)
举例:努力学习考试内容,长期记住,活学活用。
特点:成本最高;在前面的方式解决不了问题的情况下,再使用。
如何选择
面对一个需求,如何开始,如何选择技术方案?下面是个常用思路:
注意:其中最容易被忽略的,是准备测试数据
至此,本文分享到此结束!!!