【新书预告】《大模型应用开发》
预计9月底上市。西电教授、博导鲍亮与西交教授、博导李倩诚意之作。
本书重点
梳理大模型的相关概念与基础知识
总结大模型应用开发过程中常用的工具和实践经验
详解大模型应用开发方法、架构与框架
剖析法律咨询智能助手与代码修复智能助手的系统分析、关键技术与实现过程
内容简介
本书系统梳理大模型应用开发的全链条知识,详解大模型应用开发过程中涉及到的理论、技术、方法、过程、工具和分析案例,为开发者搭建从理论到实践的桥梁,助力解决技术落地中的实际问题,推动大模型在工业、科研、服务等领域的规模化应用,配套示例源码、PPT课件、配图PDF文件、读者微信交流群。
本书共分12章,内容包括大模型基础、大模型架构、多模态大模型、提示词工程、大模型微调、检索增强生成、AI智能体、大模型应用、大模型应用架构、大模型开发框架、法律咨询智能助手、代码修复智能助手。
适合读者
本书既适合大模型应用开发初学者、大模型应用开发工程师、大模型应用开发研究人员、行业AI解决方案提供商,也适合高等院校及高职高专院校学习大模型应用开发的学生。
本书看点
(1)作者很专业。鲍亮是西安电子科技大学教授,博士生导师,中国计算机学会高级会员。李倩是西安交通大学博士,西安交通大学教授,博士生导师。
(2)内容很实用。面向大模型应用开发的实践者和研究者,针对大模型应用开发构建方法、过程、工具和案例进行介绍。
(3)案例可借鉴。围绕法律咨询智能助手和代码修复智能助手两个开发案例,介绍具体项目的需求分析、系统架构、关键技术与实现方法,帮助读者系统掌握大模型应用开发方法。
(4)讲解很全面。系统整合大模型与应用开发技术体系,从大模型基础,到大模型应用开发技术,到大模型应用开发方法,再到大模型应用开发工程案例,全面构建的大模型应用开发技术的完整知识图谱。
(5)资源也不差。配套示例源码、PPT课件、配图PDF文件、读者微信交流群。
作者简介
鲍亮,西安电子科技大学教授,博导,计算机学会高级会员。研究方向为大数据分析和大模型应用技术。主持各类科研项目50余项,科研成果转化直接经济效益2亿元,发表高水平论文30余篇,出版相关专著4本。
李倩,西安交通大学教授,博导。研究方向为金融大数据、金融科技、公司金融。主持国家及省部级课题10余项,发表高水平论文40余篇。
前言
随着大语言模型从实验室突破走向产业实践,其技术复杂度与应用广度持续攀升,已成为推动人工智能落地的核心引擎。大模型技术的爆发式发展正深刻重塑全社会的智能化发展进程,成为各行业数字化发展智能化转型的核心驱动力。在此浪潮下,大模型应用开发是连接技术创新与产业价值的关键纽带,其涵盖架构设计、多模态融合、提示词工程、微调优化等多维度技术,直接决定大模型在实际场景中的效能释放。
然而,当前大模型应用开发面临显著壁垒:一方面,技术迭代迅猛,从 Transformer 架构到多模态融合、从提示词工程到 AI 智能体,知识体系日益庞杂;另一方面,工程实践碎片化,开发者常陷入架构选型、微调策略、部署优化等具体问题的困境。在此背景下,系统掌握大模型应用开发的全流程知识,成为打通技术与产业的关键。
经过作者调研,由于大模型这一概念刚刚出现,市面上缺乏面向大模型应用开发的研究者和实践者,针对大模型应用开发构建方法、过程和工具进行介绍的专业书籍。因此,作者策划了本书的写作,它是作者在多年的大模型应用开发方法和实际工作经验的总结与提炼,旨在为读者梳理大模型应用的相关概念与基础知识,介绍大模型应用开发方法与过程,总结开发大模型应用过程中常用的工具和实践经验。
本书内容
本书将从四个方面对大模型应用开发方法与技术进行讲解。第一部分是大模型基础(第1~3章),对大模型发展历史、大模型相关技术和大模型应用场景等进行介绍。第二部分是大模型应用开发技术(第4~7章),主要讲解大模型应用开发过程中的相关技术,包括提示词工程、模型微调、检索增强生成、AI智能体等。第三部分是大模型应用开发方法(第8~10章),主要介绍大模型应用开发过程中涉及到的所有活动,包括大模型应用、大模型应用架构、大模型开发框架等。第四部分是大模型应用开发案例(第11~12章),主要介绍具体项目的需求分析、系统架构、关键技术与实现方法,包括法律咨询智能助手和代码修复智能助手两个开发案例。
配套资源下载
本书配套示例源码、PPT课件、配图PDF文件、读者微信交流群,读者使用微信扫描右边的二维码即可获取。如果在阅读过程中发现问题或有任何建议,请联系下载资源中提供的相关电子邮箱或微信。
本书读者
大模型应用开发初学者。
大模型应用开发工程师。
大模型应用开发研究人员。
行业AI解决方案提供商。
高等院校及高职高专院校学习大模型应用开发的学生。
作者与鸣谢
本书作者为西安电子科技大学教授、博导鲍亮和西安交通大学教授、博导李倩。本书在撰写过程中还得到了西安电子科技大学数据智能实验室的博士生和硕士生们的大力支持,他们是李宇飞(小飞)、赵凯博、李宇飞(大飞)、苏旭、张珂、袁嘉翔、董昌杰、张璐、樊瑞祥、王嘉欣、林星、王宇、李济阳、郑浩伟,在此一并表示感谢。
本书的顺利出版,离不开清华大学出版社老师们的帮助,在此表示衷心的感谢。
作 者
2025年8月
目录
第1章 大模型基础 1
1.1 语言模型基础 1
1.1.1 基于统计方法的语言模型 2
1.1.2 基于循环神经网络的语言模型 5
1.1.3 基于Transformer架构的语言模型 10
1.2 大模型发展历史 14
1.2.1 统计语言模型奠基期 14
1.2.2 神经网络语言模型探索期 15
1.2.3 Transformer架构革命期 15
1.2.4 大模型爆发增长期 15
1.3 大模型的特点 18
1.3.1 大模型的快思慢考 18
1.3.2 大模型的优势与不足 20
1.4 大模型行业应用场景中的优势与挑战 22
1.4.1 教育领域:智能教育的革新与困境 22
1.4.2 医疗领域:精准医疗的希望与隐忧 23
1.4.3 金融领域:智能金融的变革与挑战 23
1.4.4 电商领域:智能营销的机遇与难题 24
1.5 本章小结 24
1.6 参考文献 24
第2章 大模型架构 28
2.1 Encoder-Only架构 28
2.1.1 BERT模型 29
2.1.2 RoBERTa模型 33
2.1.3 ALBERT模型 34
2.2 Decoder-Only架构 35
2.2.1 GPT系列语言模型 36
2.2.2 LLaMA模型 38
2.2.3 PaLM模型 39
2.3 Encoder-Decoder架构 40
2.3.1 T5模型 41
2.3.2 BART语言模型 43
2.3.3 GLM模型 45
2.3.4 Switch Transformer 46
2.4 编码器、解码器、编解码器架构对比 47
2.5 本章小结 49
2.6 参考文献 49
第3章 多模态大模型 53
3.1 多模态大模型基础 53
3.1.1 多模态大模型的定义与特征 54
3.1.2 多模态学习与单模态学习的区别 55
3.1.3 多模态大模型的基本架构 57
3.1.4 多模态对齐与融合技术简述 61
3.2 多模态大模型的发展历程 63
3.2.1 特征拼接与浅层交互模型阶段 63
3.2.2 融合与对齐阶段 64
3.2.3 大规模预训练阶段 64
3.2.4 通用多模态大模型阶段 64
3.3 多模态大模型介绍 66
3.3.1 CLIP 66
3.3.2 ALIGN 67
3.3.3 Flamingo 68
3.3.4 PaLI 69
3.3.5 BLIP2 70
3.3.6 LLaVA 71
3.3.7 VisCPM 72
3.3.8 GPT-4V和GPT-4o 73
3.3.9 Qwen-VL和Qwen-VL-Max 74
3.3.10 Gemini+2.5 75
3.4 多模态大模型的应用场景 76
3.4.1 智能问答与对话系统 76
3.4.2 智能推荐与搜索 77
3.4.3 医疗影像与辅助诊断 77
3.4.4 内容生成与编辑 77
3.5 本章小结 77
3.6 参考文献 78
第4章 提示词工程 82
4.1 技术介绍 82
4.1.1 提示词工程概念和作用 82
4.1.2 提示词应用示例 84
4.2 研究进展 86
4.2.1 零样本提示 87
4.2.2 少样本提示——以例示教的智慧 90
4.2.3 思维链提示 92
4.2.4 思维树——多路径探索的高级推理 93
4.2.5 检索增强生成——知识外挂的智能问答 96
4.2.6 ReAct框架——推理与行动的协同范式 99
4.3 框架对比 102
4.3.1 开源框架 102
4.3.2 商用框架 105
4.3.3 框架对比全景表 107
4.3.4 小结与展望 107
4.4 本章小结 108
4.5 参考文献 108
第5章 大模型微调 110
5.1 大模型微调基础 110
5.1.1 微调定义 110
5.1.2 微调分类 111
5.1.3 微调技术历史沿革 112
5.2 微调流程 114
5.2.1 数据集准备 115
5.2.2 模型初始化 115
5.2.3 训练环境设置 115
5.2.4 模型微调 116
5.2.5 评估验证 116
5.2.6 部署上线 117
5.2.7 监控维护 117
5.3 微调的主流平台和框架 117
5.3.1 Hugging Face Transformers 117
5.3.2 LLaMA-Factory 119
5.3.3 Unsloth 120
5.3.4 MS-SWIFT 122
5.3.5 百度千帆平台 123
5.3.6 阿里云PAI 124
5.3.7 讯飞星辰 126
5.3.8 对比分析 127
5.4 本章小结 130
5.5 参考文献 130
第6章 检索增强生成 133
6.1 概念与内涵剖析 133
6.1.1 RAG定义 134
6.1.2 关键组件与工作原理 134
6.1.3 与传统生成模型的区别与优势 136
6.1.4 应用领域与实际案例 137
6.2 技术演进与研究进展 138
6.3 相关商用与开源框架对比 144
6.3.1 LangFlow 145
6.3.2 Llama Index 146
6.3.3 Haystack 148
6.3.4 LangChain 149
6.3.5 Amazon Kendra 151
6.3.6 Google Cloud Search 153
6.3.7 框架优缺点对比 153
6.3.8 RAG框架总结 155
6.4 本章小结 155
6.5 参考文献 156
第7章 AI智能体 160
7.1 AI智能体的概念与内涵 161
7.1.1 AI智能体时代的开启 161
7.1.2 AI智能体的核心概念与特征 164
7.2 AI智能体核心技术与发展 167
7.2.1 智能体的构建:核心模块与基本架构 168
7.2.2 单智能体系统研究进展 173
7.2.3 多智能体系统研究进展 175
7.2.4 智能体的演进:自主优化与自我学习 181
7.3 智能体构建与实践 186
7.3.1 智能体构建框架的必要性与分类 186
7.3.2 LangGraph:基于图结构的Agent编排框架 187
7.3.3 AutoGen:多智能体协作的利器 188
7.3.4 CrewAI:通过协作提升团队效率 190
7.3.5 Dify:LLM应用一站式开发平台 191
7.3.6 n8n:强大的工作流自动化与集成工具 192
7.3.7 Coze:一站式AI Agent/Bot开发平台 194
7.3.8 框架对比 195
7.4 本章小结 197
7.5 参考文献 197
第8章 大模型应用 201
8.1 大模型应用概念解析 201
8.1.1 大模型应用定义 201
8.1.2 与传统应用系统的比较分析 204
8.1.3 大模型应用内涵:基本结构与关键组件 207
8.1.4 大模型应用外延与分类视角 211
8.2 大模型应用范式 214
8.2.1 嵌入式(Embedded) 215
8.2.2 协同式(Co-pilot) 216
8.2.3 自主式(Agent) 218
8.3 大模型应用开发流程 219
8.3.1 需求理解与问题建模 219
8.3.2 系统架构与模型接口设计 222
8.3.3 智能模块设计与行为调控 225
8.3.4 测试与质量评估 228
8.3.5 部署上线与模型服务策略 231
8.3.6 监控与运维反馈 234
8.4 大模型应用典型产品 238
8.4.1 智能检索工具 239
8.4.2 编程辅助与代码生成 241
8.4.3 文档处理与写作辅助 244
8.4.4 多模态内容生成 247
8.5 大模型应用面临的关键挑战 250
8.5.1 模型能力的不确定性与幻觉问题 250
8.5.2 交互控制与响应可解释性 252
8.5.3 安全性、合规性与伦理问题 254
8.5.4 应用部署的资源与算力瓶颈 256
8.6 本章小结 258
8.7 参考文献 259
第9章 大模型应用架构 262
9.1 大模型应用架构概述 262
9.2 大模型应用架构层次 263
9.3 基础设施层和运行环境层 266
9.3.1 基础设施层 266
9.3.2 运行环境层 266
9.4 数据层 267
9.4.1 核心组件 267
9.4.2 管理和支撑机制 268
9.5 模型层 269
9.5.1 大模型 269
9.5.2 向量模型 271
9.5.3 重排序模型 272
9.5.4 图像识别模型 274
9.5.5 语言-语言模型 275
9.5.6 模型微调 280
9.6 推理部署层 280
9.7 能力层 282
9.7.1 流程控制 282
9.7.2 核心功能 284
9.8 安全层 285
9.9 应用层 286
9.9.1 智能问答 287
9.9.2 智能运维 287
9.9.3 智能客服 287
9.9.4 数字员工 288
9.10 本章小结 288
9.11 参考文献 289
第10章 大模型开发框架 291
10.1 开发框架整体结构 291
10.2 数据层 293
10.2.1 向量数据库 294
10.2.2 文档解析引擎 306
10.2.3 数据处理工具 310
10.3 模型层 311
10.3.1 开源模型 313
10.3.2 微调技术栈 315
10.4 推理层 320
10.4.1 推理引擎 321
10.4.2 本地化部署 326
10.5 工具链层 331
10.5.1 开发框架 332
10.5.2 增强组件 337
10.6 接口层 338
10.6.1 API网关 339
10.6.2 通信协议 341
10.7 应用层 344
10.7.1 低代码开发平台 344
10.7.2 具体开发平台 345
10.8 本章小结 349
10.9 参考文献 349
第11章 法律咨询智能助手 353
11.1 需求分析 353
11.2 系统架构 353
11.2.1 系统功能模块 354
11.2.2 系统架构设计 355
11.3 关键技术 356
11.3.1 法规文档预处理 356
11.3.2 自动构建法律法规知识图谱 357
11.3.3 案例特征要素提取 358
11.3.4 实体对齐 359
11.3.5 法条检索 360
11.3.6 法条检查 361
11.3.7 历史案例库构建算法 362
11.3.8 案件审理结构化报告生成 364
11.4 系统实现 365
11.4.1 法规文档预处理的实现 365
11.4.2 自动构建法律法规知识图谱的实现 366
11.4.3 案例特征要素提取的实现 372
11.4.4 实体对齐的实现 373
11.4.5 法条检索的实现 375
11.4.6 法条检查的实现 377
11.4.7 历史案例库构建算法的实现 380
11.4.8 案件审理结构化报告生成 381
11.5 本章小结 382
11.6 参考文献 382
第12章 数据问答系统 384
12.1 需求分析 384
12.2 系统架构 385
12.2.1 业务架构 385
12.2.2 技术架构 388
12.3 关键技术 391
12.3.1 Prompt Engineering 391
12.3.2 Schema Linking 393
12.3.3 代码生成与优化 395
12.3.4 高级数据分析能力 397
12.3.5 安全性和可扩展性 399
12.4 系统实现 401
12.4.1 NL2SQL系统实现案例 401
12.4.2 电子表格问答系统实现案例 408
12.5 本章小结 416
12.6 参考文献 416