3.1 语言模型与Transformer架构
核心演进历程
- N-gram模型:基于统计概率的传统语言模型,存在数据稀疏和泛化能力差的问题
- 神经网络语言模型:引入词嵌入技术,将词汇映射到连续向量空间,解决语义相似性问题
- RNN/LSTM:引入循环结构处理序列数据,但存在梯度消失和并行计算困难
- Transformer架构:革命性的自注意力机制,实现并行计算和长距离依赖捕捉
Transformer核心组件
- 自注意力机制:通过QKV向量计算词元间相关性权重
- 多头注意力:多个注意力头并行工作,捕捉不同类型的语义关系
- 位置编码:使用正弦余弦函数为模型提供位置信息
- 前馈神经网络:每个位置独立的非线性变换
Decoder-Only架构
- GPT系列采用的简化架构,专注于自回归文本生成
- 通过预测下一个词的任务目标进行预训练
- 更适合对话、创作等生成式任务
3.2 与大语言模型交互
提示工程
- Temperature参数:控制输出随机性(0-0.3精准,0.3-0.7平衡,0.7-2.0创新)
- 提示设计原则:明确角色定义、任务说明、格式约束
分词技术
- BPE算法:通过迭代合并构建子词词表,平衡词表大小和语义表达
- 解决OOV问题和词表爆炸问题
模型调用实践
- 本地部署开源模型(如Qwen1.5-0.5B)
- 使用transformers库进行模型加载和推理
- 理解tokenization到生成的完整流程
3.3 模型生态与选择策略
闭源模型特点
- OpenAI GPT系列:技术前沿,API稳定,多模态能力强
- 适合高性能智能体构建
开源模型优势
- 定制化强,数据隐私可控,成本较低
- Llama、Qwen等模型在特定场景表现优异
3.4 缩放法则与局限性
核心局限
- 事实幻觉:生成看似合理但错误的信息
- 知识时效性:训练数据截止时间限制
- 推理能力边界:复杂逻辑推理仍存挑战
缓解策略
- RAG技术增强事实准确性
- 思维链提示提升推理能力
- 工具调用扩展能力边界
实践要点总结
- 架构理解:掌握Transformer各组件的作用和实现原理
- 交互技巧:熟练运用提示工程和参数调优
- 模型选型:根据任务需求权衡闭源与开源方案
- 局限认知:明确模型能力边界,设计相应容错机制