当前位置: 首页 > news >正文

大模型技术解析与应用 | 大语言模型:从理论到实践(第2版)| 复旦大学 | 533页

大家好,我是吾鳴。

 

今天要给大家分享一本由复旦大学出品的LLM书籍,书籍名称叫做《大语言模型:从理论到实践(第2版)》。一本关于大模型技术解析与应用的奇书,本书一共533页,如果你对大模型感兴趣,记得收藏。

 

内容摘要

基础理论
涵盖大语言模型的核心理论,包括Transformer架构(嵌入层、注意力机制、前馈网络)、生成式预训练语言模型(如GPT系列)的原理,以及混合专家模型(MoE)的优化策略。重点解析LLaMA模型的改进结构,如RMSNorm、SwiGLU激活函数和旋转位置编码(RoPE)。

预训练
围绕海量数据处理与分布式训练展开,包含数据来源(网页、书籍、代码等)、清洗策略(去重、隐私过滤)、词元切分技术(BPE、WordPiece),以及DeepSpeed框架下的分布式训练实践。强调数据规模、质量与多样性对模型性能的影响。

指令理解
探讨如何通过有监督微调(SFT)和强化学习(RL)使模型理解人类指令,包括指令数据构建、LoRA高效微调、PPO算法优化,并结合DeepSpeed-Chat框架实践。分析指令微调如何提升模型任务泛化能力。

大模型增强
包含多模态大模型(视觉/语音融合架构、MiniGPT-4实践)、大模型智能体(感知-规划-记忆模块、LangChain工具链)和检索增强生成(RAG系统设计与评估),探索模型在复杂场景下的扩展应用。

大模型应用
聚焦模型优化与落地,涵盖模型量化、稀疏化、知识蒸馏等效率优化技术,伦理安全评估体系(知识、伦理、垂直领域),以及典型应用开发案例(内容生成、代码助手、企业决策支持)。

精彩内容

 

 

 

 

 

 

 

 

 

下载地址:https://kdocs.cn/l/ci1DfElGCPoS

 

相关文章:

  • 深度学习方向急出成果,是先广泛调研还是边做实验边优化?
  • springboot自动装配的原理
  • 修改PointLIO项目
  • RHCSA知识点
  • 2025-4-19 情绪周期视角复盘(mini)
  • Linux命令--将控制台的输入写入文件
  • C语言之高校学生信息快速查询系统的实现
  • RocketMQ实现基于可靠消息的最终一致性
  • electron打包是没有正确生成electron.exe,x ENOENT: no such file or directory, rename:
  • 位运算---总结
  • 微信小程序上传腾讯云
  • Dubbo QoS操作手册
  • 【网工第6版】第4章 无线通信网
  • 肖特基二极管详解:原理、作用、应用与选型要点
  • 分布式入门
  • Tailwindcss 入门 v4.1
  • AI大模型发展现状与MCP协议诞生的技术演进
  • Java处理字符串用啥?String、StringBuilder、StringBuffer
  • opencv图像库编程
  • CFS 的调度类型:普通调度 vs 组调度
  • 特朗普宣布提名迈克·沃尔兹为下一任美国驻联合国大使
  • 视频丨英伟达总裁黄仁勋:美勿幻想AI领域速胜中国
  • 美商界报告:全美超86万岗位依赖对华出口,关税将重创美国出口商
  • 范宇任上海宝山区副区长
  • “80后”商洛市委副书记、市政府党组副书记赵孝任商洛市副市长
  • 应急管理部派出工作组赴山西太原小区爆炸现场指导救援处置