当前位置：首页 > news >正文

牛津大学xDeepMind 自然语言处理（3）

news 2025/8/21 8:15:25

条件语言模型

无条件语言模型
1. 概率计算：通过链式法则分解为预测下一词概率（将语言建模问题简化为建模给定前面词语历史的下一个词的概率）
2. 基于循环神经网络的无条件语言模型：根据历史词语预测下一个词的概率
条件语言模型
1. 定义：在给定某些条件上下文 $x$ 的情况下为词序列 $w=(w_1,w_2,...,w_l)$ 分配概率： $p(w|x) = ∏_{t=1}^lp(w_t|x,w_1,w_2,...,w_{t-1})$
2. 训练数据：需成对样本 ${(xi,wi)}i=1N\{(x_i,w_i)\}^N_{i=1}$ ，部分任务数据充足，相对大量的数据用于翻译、摘要、标题生成、语音识别
3. 算法挑战：最优输出难寻，需近似方法
4. 评估：交叉熵困惑度等、特定任务指标、人类评估
编码器-解码器模型
1. 概述：该模型学习一个函数，将 $x$ 映射到一个固定大小的向量c，然后使用语言模型将该向量“解码”为词序列 $w$
2. kalchbrenner和Blunsom 2013：卷积句子模型（CSM）编码器，循环解码器
  
  优点：卷积学习局部上下文中特征之间的相互作用；通过堆叠卷积，可以学习更长范围的依赖关系；深度卷积网络具有类似于树的分支结构，但不需要解析器。
  
  缺点：句子有不同的长度，需要不同深度的树；卷积网络通常不是这样动态的
3. Stuskever等人2014：LSTM编解码
  
  优点：循环神经网络自然地处理各种长度的序列；长短期记忆网络原则上可以传播长距离的梯度；架构非常简单！
  
  缺点：隐藏状态必须记住大量信息！
  1. 技巧
    1. 反向读取输入序列
    2. 使用 $J$ 个独立训练的模型集合
    3. 使用波束搜索
解码方法
1. 困难：寻找最可能输出不易
2. 近似方法：贪婪搜索、波束搜索
图像标题生成
1. 图像标题生成：神经网络非常适合处理多模态——一切都是向量！图像标题生成可以使用类似翻译的技术，需预训练
2. Kiros等人2013：前馈n元模型可以在条件模型中替代RNN，乘法模型助于交互学习

带注意力机制的条件语言模型

向量条件处理的问题
1. 信息压缩不足：难以承载整句含义
2. 梯度问题：传播距离长
3. 记忆问题：长短期记忆网络易遗忘
带注意力机制的机器翻译
1. 解决向量问题：用矩阵表示源语句，从矩阵生成目标语句，可解决容量和梯度流动问题
2. 三种构建矩阵方式：
  1. 拼接：将单词向量拼接
  2. 卷积网络：应用卷积网络来转换原始的拼接矩阵，以获得依赖于语境的矩阵
  3. 双向循环神经网络：双向循环神经网络（门控循环单元或长短期记忆网络）从左到右和从右到左读取 f（|f|=列数），拼接表示
从矩阵生成内容与注意力计算
1. 生成方法：用循环神经网络逐词生成输出句子，结合嵌入和矩阵视图向量
2. 注意力计算：（简略概述详细需搜索）
  1. 简化版：循环神经网络隐藏状态等一系列计算
  2. 非线性注意力 - 能量模型：用多层感知机替换点积
机器翻译中注意力
1. 在序列到序列翻译中添加注意力效果：添加注意力提升11BLEU
2. 模型变体：早期绑定和晚期绑定及优势比较
  
  早期绑定（Early Binding）和晚期绑定（Late Binding）是编程语言中两种不同的方法调用机制。
  1. 早期绑定（Early Binding）
    
    早期绑定在编译时或程序启动时确定方法或变量的具体实现，通常与静态类型语言（如Java、C#）或编译型语言相关。
    
    优势：
    
    性能更高类型安全代码可读性强更好的IDE支持
  2. 晚期绑定（Late Binding）
    
    晚期绑定在运行时动态确定方法或变量的具体实现，通常与动态类型语言（如Python、JavaScript）或反射机制相关。
    
    优势：灵活性更高代码更简洁支持动态语言特性更好的扩展性
  - 早期绑定更适合需要高性能、类型安全和代码可维护性的场景。
  - 晚期绑定更适合需要灵活性和动态扩展的场景。
注意力总结与梯度
1. 注意力与池化：密切相关
2. 巴赫达瑙模型：关注内容，可添加结构偏向等
3. 梯度：并行反向传播
4. 与人类翻译：翻译者会反复参考输入
带注意力的图像标题生成
1. 卷积网络区域：含注释向量
2. 注意力计算：软、硬注意力（确定性软注意力和随机性硬注意力）
3. 软注意力学习：确定性软注意力是一种连续的、可微分的注意力机制，它通过某种函数（如softmax）对输入的权重进行平滑处理，生成注意力分布。这个分布是确定性的，不涉及随机性。
4. 硬注意力学习：随机性硬注意力是一种离散的注意力机制，它通过采样（如从概率分布中采样）来选择特定的输入特征或区域。由于其采样过程是随机的，因此具有不确定性。
  
  （基于詹森不等式等）
5. 效果：软注意力+2BLEU，硬注意力+4BLEU
整体总结：
1. 性能改进：优于向量编码等
2. 其他优势：模型可解释性、更好的梯度流动、更好的容量等