当前位置：首页 > news >正文

第三章大语言模型基础学习笔记

news 2025/11/13 6:16:17

3.1 语言模型与Transformer架构

核心演进历程

N-gram模型：基于统计概率的传统语言模型，存在数据稀疏和泛化能力差的问题
神经网络语言模型：引入词嵌入技术，将词汇映射到连续向量空间，解决语义相似性问题
RNN/LSTM：引入循环结构处理序列数据，但存在梯度消失和并行计算困难
Transformer架构：革命性的自注意力机制，实现并行计算和长距离依赖捕捉

Transformer核心组件

自注意力机制：通过QKV向量计算词元间相关性权重
多头注意力：多个注意力头并行工作，捕捉不同类型的语义关系
位置编码：使用正弦余弦函数为模型提供位置信息
前馈神经网络：每个位置独立的非线性变换

Decoder-Only架构

GPT系列采用的简化架构，专注于自回归文本生成
通过预测下一个词的任务目标进行预训练
更适合对话、创作等生成式任务

3.2 与大语言模型交互

提示工程

Temperature参数：控制输出随机性（0-0.3精准，0.3-0.7平衡，0.7-2.0创新）
提示设计原则：明确角色定义、任务说明、格式约束

分词技术

BPE算法：通过迭代合并构建子词词表，平衡词表大小和语义表达
解决OOV问题和词表爆炸问题

模型调用实践

本地部署开源模型（如Qwen1.5-0.5B）
使用transformers库进行模型加载和推理
理解tokenization到生成的完整流程

3.3 模型生态与选择策略

闭源模型特点

OpenAI GPT系列：技术前沿，API稳定，多模态能力强
适合高性能智能体构建

开源模型优势

定制化强，数据隐私可控，成本较低
Llama、Qwen等模型在特定场景表现优异

3.4 缩放法则与局限性

核心局限

事实幻觉：生成看似合理但错误的信息
知识时效性：训练数据截止时间限制
推理能力边界：复杂逻辑推理仍存挑战

缓解策略

RAG技术增强事实准确性
思维链提示提升推理能力
工具调用扩展能力边界

实践要点总结

架构理解：掌握Transformer各组件的作用和实现原理
交互技巧：熟练运用提示工程和参数调优
模型选型：根据任务需求权衡闭源与开源方案
局限认知：明确模型能力边界，设计相应容错机制

http://www.dtcms.com/a/600925.html

相关文章：

莱芜网站设计公司制作图片文字的软件

自己做本地视频网站商城网站开发的任务书

通过 API 与 Gradio 构建 AI 应用

【C++进阶】二叉树进阶

【C++】多态（2）：纯虚函数多态底层原理

C++/Linux小项目：自主shell命令解释器

MEMS振荡器MST8012抗冲击设计应对严苛振动环境

【数据结构】常见的排序算法 -- 交换排序

Rust与主流编程语言的深度对比分析

NebulaChat 框架学习笔记：深入理解 Reactor 与多线程同步机制

网站开发接口网站建设需要什么

聚焦新“新双高计划”，高职学校如何进行数字化转型？

全志V853视频输入驱动框架详解：从VIN模块到虚通道实战

网站建设需要英语吗wordpress笑话主题模板

Azure OpenAI GPT-5 PTU 容量规划与弹性配置实践

[linux仓库]多线程同步：基于POSIX信号量实现生产者-消费者模型[线程·柒]

Linux 内核驱动加载机制

C语言编译软件 | 高效选择适合的C语言编译环境

天津网站策划微信、网站提成方案点做

工业级部署指南：在西门子IOT2050（Debian 12）上搭建.NET 9.0环境与应用部署(进阶篇)

食品网站建设网站定制开发做网站只买一个程序

中小型项目前后端工时对比

C# 文件的输入与输出

Linux操作系统学习

idea创建javaweb项目

【计网】基于OSPF 协议的局域网组建

开发一个小程序花多少钱

Ansible入门详解

一体化系统(一)智慧物业管理综合管理——东方仙盟

买虚机送网站建设wordpress google ad