当前位置：首页 > news >正文

【大模型基础_毛玉仁】1.1 基于统计方法的语言模型

news 2025/10/8 11:23:16

【大模型基础_毛玉仁】1.1 基于统计方法的语言模型

1.语言模型基础
- 1.1 基于统计方法的语言模型
- - 1.1.1 n-grams 语言模型
  - 1.1.2 n-grams 的统计学原理

1.语言模型基础

语言是概率的。语言模型（LanguageModels, LMs）旨在准确预测语言符号的概率。

将按照语言模型发展的顺序依次讲解:

基于统计方法的n-grams 语言模型；
基于循环神经网络（RecurrentNeuralNetwork，RNN）的语言模型；
基于Transformer的语言模型。

1.1 基于统计方法的语言模型

通过对语料库（Corpus）中的语料进行统计或学习，来获得预测语言符号概率。

n-grams是最具代表性的统计语言模型。它基于马尔可夫假设和离散变量的极大似然估计给出语言符号的概率。

1.1.1 n-grams 语言模型

n-gram指的是长度为n的词序列。

当n=1时，称之为unigram
当n=2时，称之为bigrams
当n=3时，称之为trigrams
其他时，称之为“数字-grams”（如：当n=4 时，称之为4-grams）

假设，包含N个元素的语言符号可以表示为 $w_{1:N} = \{w_1, w_2, w_3, ..., w_N\}$ 。 $w_{1:N}$ 代表文本。

n-grams语言模型，通过依次统计文本中的n-gram及其对应的(n-1)-gram在语料库中出现的相对频率，来计算文本 $w_{1:N}$ 出现的概率。计算公式如下所示：

$P_{n\text{-grams}}(w_{1:N}) = \prod_{i=n}^{N} \frac{C(w_{i-n+1:i})}{C(w_{i-n+1:i-1})}, \tag{1.1}$

$C(w_{i−n+1 : i})$ 为词序列 ${w_{i−n+1},...,w_i\}$ 在语料库中出现的次数；
$C(w_{{i−n+1}: {i−1}})$ 为词序列 ${w_{i−n+1},...,w_{i−1}\}$ 在语料库中出现的次数。

bigrams语言模型的例子:

图1.1: n-grams 示例语料库。
在这里插入图片描述

假设语料库如图1.1所示，应用bigrams 对文本“长颈鹿脖子长”（其由{长颈鹿,脖子,长}三个词构成）出现的概率进行计算，如下式所示：

$P_{\text{bigrams}}(\text{长颈鹿, 脖子, 长}) = \frac{C(\text{长颈鹿, 脖子}) \cdot C(\text{脖子, 长})}{C(\text{长颈鹿}) \cdot C(\text{脖子})}。 \tag{1.2}$

在此语料库中，C(长颈鹿)=5，C(脖子)=6，C(长颈鹿, 脖子)=2，C(脖子, 长) = 2，故有：

$P_{\text{bigrams}}(\text{长颈鹿, 脖子, 长}) = \frac{2}{5} \cdot \frac{2}{6} = \frac{2}{15}。 \tag{1.3}$

由此可见，n-grams 具备对未知文本的泛化能力。但是，这种泛化能力会随着n的增大而逐渐减弱。应用trigrams对文本“长颈鹿脖子长”出现的概率进行计算，将出现“零概率”的情况。

因此，在n-grams语言模型中，n的值是影响性能的关键因素。

1.1.2 n-grams 的统计学原理

n-grams 语言模型是在n阶马尔可夫假设下，对语料库中出现的长度为n的词序列出现概率的极大似然估计。

定义1.1(n阶马尔可夫假设):

对于序列 ${w_1, w_2, w_3, ..., w_N\}$ ，当前状态 wN 出现的概率只与前 n 个状态 ${w_{N-n}, ..., w_{N-1}\}$ 有关，即：

$P(w_N|w_1, w_2, ..., w_{N-1}) \approx P(w_N|w_{N-n}, ..., w_{N-1}) \tag{1.5}$

定义1.2(离散型随机变量的极大似然估计): (存疑。。。)

给定离散型随机变量X的分布律为 $P\{X=x\}=p(x;θ)$ ，

设 $X_1,...,X_N$ 为来自X的样本， $x_1,...,x_N$ 为对应的观察值，θ为待估计参数。

在参数θ下,分布函数随机取到 $x_1,...,x_N$ 的概率为：

$p(x|\theta) = \prod_{i=1}^{N} p(x_i; \theta) \tag{1.6}$

构造似然函数为：

$L(\theta|x) = p(x|\theta) = \prod_{i=1}^{N} p(x_i; \theta) \tag{1.7}$

离散型随机变量的极大似然估计旨在找到θ使得L(θ|x)取最大值。

n-grams 语言模型总结：

n-grams 语言模型通过统计词序列在语料库中出现的频率来预测语言符号的概率。其对未知序列有一定的泛化性，但也容易陷入“零概率”的困境。

基于各类神经网络的语言模型不断被提出，泛化能力越来越强。基于神经网络的语言模型不再通过显性的计算公式对语言符号的概率进行计算，而是利用语料库中的样本对神经网络模型进行训练。

其他参考：【大模型基础_毛玉仁】系列文章

声明：资源可能存在第三方来源，若有侵权请联系删除！

查看全文

http://www.dtcms.com/a/51017.html

TMS320F28P550SJ9学习笔记1：CCS导入工程以及测试连接单片机仿真器

post get 给后端传参数

三、数据提取

二分题目leetcode

not support ClassForName

SQL语句初学

网络原理--HTTP协议

LeeCode题库第四十三题

JSON格式化工具

com.mysql.jdbc.Driver 和 com.mysql.cj.jdbc.Driver的区别

QwenVL 2.5-本地安装编译布署全教程

element-ui statistic 组件源码分享

人机交互革命：从触屏到脑波的13维战争

说一下redis事务底层原理

【Vue CLI脚手架开发】——3.组件交互props配置

ANI AGI ASI的区别

现在创业的风口有哪些？

蓝桥杯备考：动态规划线性dp之传球游戏

Windows命令行的注释方式, powershell的注释和 cmd的注释笔记250303

初识FPGA

【前端跨域】CORS：跨域资源共享的机制与实现

python力扣3：无重复字符的最长子串

通往 AI 之路：Python 机器学习入门-线性代数

ThreadLocal解析

面试150，数组 / 字符串

PixelShuffle与Sub-pixel卷积详解

error Mixed spaces and tabs no-mixed-spaces-and-tabs

EtherNet/IP转Modbus解析基于网关模块的罗克韦尔PLC与Modbus上位机协议转换通讯案例

build gcc

61. Three.js案例-彩色旋转立方体创建与材质应用

【大模型基础_毛玉仁】1.1 基于统计方法的语言模型

1.语言模型基础

1.1 基于统计方法的语言模型

1.1.1 n-grams 语言模型

1.1.2 n-grams 的统计学原理

相关文章：