当前位置: 首页 > news >正文

大模型应用开发

大模型应用技术特点:门槛低,天花板高。

基于RAG架构的开发

背景

  • 大模型的知识冻结
  • 大模型幻觉

而RAG就可以非常精准的解决这两个问题。

举例

LLM在考试的时候面对陌生的领域,答复能力有限,然后就准备放飞自我了。而此时RAG给了一些提示和思路,让LLM懂了开始往这个提示的方向做,最终考试的正确率从60%到了90%!
RAG举例

何为RAG?

Retrieval-Augmented Generation(检索增强生成)
RAG流程

检索-增强-⽣成过程:检索可以理解为第10步,增强理解为第12步(这⾥的提⽰词包含检索到的数据),⽣成理解为第15步。

类似的细节图:
RAG流程
强调一下难点的步骤:
RAG流程
这些过程中的难点:1、文件解析 2、文件切割 3、知识检索 4、知识重排序

Reranker的使用场景

  • 适合:追求 回答高精度高相关性 的场景中特别适合使用 Reranker,例如专业知识库或者客服系统等应用。
  • 不适合:引入reranker会增加召回时间,增加检索延迟。服务对 响应时间要求高 时,使用reranker可能不合适。

这里有三个位置涉及到大模型的使用:

  • 第3步向量化时,需要使用EmbeddingModels。
  • 第7步重排序时,需要使用RerankModels。
  • 第9步生成答案时,需要使用LLM。

基于Agent架构的开发

充分利用 LLM 的推理决策能力,通过增加 规划 、 记忆 和 工具 调用的能力,构造一个能够独立思考、逐步完成给定目标的智能体。

举例:传统的程序 vs Agent(智能体)
传统程序VSAgent
OpenAI的元老翁丽莲(Lilian Weng)于2023年6月在个人博客首次提出了 现代AI Agent架构
AI Agent架构


AI Agent架构
一个数学公式来表示:
Agent = LLM + Memory + Tools + Planning + Action

⽐如,打⻋到西藏玩。

  • ⼤脑中枢:规划⾏程的你
  • 规划:步骤1:规划打⻋路线,步骤2:定饭店、酒店,。。。
  • 调⽤⼯具:调⽤MCP或FunctionCalling等API,滴滴打⻋、携程、美团订酒店饭店
  • 记忆能⼒:沟通时,要知道上下⽂。⽐如定酒店得知道是西藏路上的酒店,不能聊着聊着忘了最初的⽬的。
  • 能够执⾏上述操作。说走就走,不能纸上谈兵。

智能体核心要素被细化为以下模块:

  1. 大模型(LLM)作为“大脑”:提供推理、规划和知识理解能力,是AI Agent的决策中枢。

    ⼤脑主要由⼀个⼤型语⾔模型 LLM 组成,承担着信息处理和决策等功能, 并可以呈现推理和规划
    的过程,能很好地应对未知任务。

  2. 记忆(Memory)

    记忆机制能让智能体在处理重复⼯作时调⽤以前的经验,从而避免⽤⼾进⾏⼤量重复交互。

  • 短期记忆:存储单次对话周期的上下文信息,属于临时信息存储机制。受限于模型的上下文窗口长度。
    短期记忆

ChatGPT:⽀持约8k token的上下⽂
GPT4:⽀持约32k token的上下⽂
最新的很多⼤模型:都⽀持100万、1000万 token的上下⽂ (相当于2000万字⽂本或20小时视频)
⼀般情况下模型中 token 和字数的换算⽐例⼤致如下:

  • 1 个英⽂字符 ≈ 0.3 个 token。
  • 1 个中⽂字符 ≈ 0.6 个 token。
  • 长期记忆:可以横跨多个任务或时间周期,可存储并调用核心知识,非即时任务。
    • 长期记忆,可以通过模型参数微调(固化知识)、知识图谱(结构化语义网络)或向量数据库(相似性检索)方式实现。
  1. 工具使用(Tool Use):调用外部工具(如API、数据库)扩展能力边界。
    工具使用

  2. 规划决策(Planning):通过任务分解、反思与自省框架实现复杂任务处理。例如,利用思维链(Chain of Thought)将目标拆解为子任务,并通过反馈优化策略。
    规划决策
    规划决策

  3. 行动(Action):实际执行决策的模块,涵盖软件接口操作(如自动订票)和物理交互(如机器人执行搬运)。比如:检索、推理、编程等。

    智能体会形成完整的计划流程。例如先读取以前⼯作的经验和记忆,之后规划⼦⽬标并使⽤相应⼯具去处理问题,最后输出给⽤⼾并完成反思。

大模型应用开发的4个场景

场景1:纯 Prompt

  • Prompt是操作大模型的唯一接口
  • 当人看:你说一句,ta回一句,你再说一句,ta再回一句…
    纯Prompt

场景2:Agent + Function Calling

  • Agent:AI 主动提要求
  • Function Calling:需要对接外部系统时,AI 要求执行某个函数
  • 当人看:你问 ta「我明天去杭州出差,要带伞吗?」,ta 让你先看天气预报,你看了告诉ta,ta再告诉你要不要带伞
    Agent

场景3:RAG (Retrieval-Augmented Generation)

RAG:需要补充领域知识时使用

  • Embeddings:把文字转换为更易于相似度计算的编码。这种编码叫向量
  • 向量数据库:把向量存起来,方便查找
  • 向量搜索:根据输入向量,找到最相似的向量

举例:考试答题时,到书上找相关内容,再结合题目组成答案
RAG
这个在智能客服上用的最广泛。

场景4:Fine-tuning(精调/微调)

举例:努力学习考试内容,长期记住,活学活用。
Fine-tuning
特点:成本最高;在前面的方式解决不了问题的情况下,再使用。

如何选择

面对一个需求,如何开始,如何选择技术方案?下面是个常用思路:
如何选择

注意:其中最容易被忽略的,是准备测试数据

至此,本文分享到此结束!!!

http://www.dtcms.com/a/477640.html

相关文章:

  • 第15题 三数之和
  • 【1015】计算并联电阻的阻值
  • 红黑树实现与原理剖析(上篇):核心规则与插入平衡逻辑
  • 【AES加密专题】8.实战-测试加密网站和代码
  • 收费的电影网站怎么做可以打开任何网站的软件
  • 设计广告网站wordpress怎么换空间
  • React 18并发模式解析:Fiber架构与性能优化技巧
  • 火山引擎多媒体实验室画质理解大模型Q-Insight入选NeurIPS 2025 Spotlight
  • 【StarRocks】-- DATETIME 与 TIMESTAMP 区别详解
  • k8s nginx ingress介绍
  • 深入starrocks-怎样实现多列联合统计信息
  • 无锡百度网站推广廊坊seo优化排名
  • 小程序如何接入火山引擎埋点数据
  • 汝阳网站建设哪家好旅游社网站建设规划书
  • Qt MSVC_64bit在Release模式下调试与WinDbg调试exe
  • Flutter鸿蒙开发
  • 《Qt应用开发》笔记p2
  • 保定网站建设与seo贵州快速整站优化
  • SOLIDWORKS转换为3DXML全流程技术指南:附迪威模型网在线方案
  • 【Java Xml】Apache Commons Digester3解析
  • 一文读懂微软 MOS 国际认证
  • 微软Defender for Endpoint漏洞3个月未修复,攻击者可绕过认证并上传恶意文件
  • 柱状图的高级玩法:分组、堆叠、百分比对比
  • 湖南金科建设有限公司网站那些网站是做俄罗斯鞋子
  • 详解Jenkins 的 Declarative Pipeline中post 语法
  • 淘宝客怎么在网站做推广上海新闻坊
  • 无人机中继器模式技术对比
  • HTTP与HTTPS:从明文到加密的Web安全革命
  • LINUX1013 shell:sed ./sed.sh 1.txt sed -f sed.sh 1.txt awk
  • 无人机技术解析:遥传、数传与图传的核心作用