当前位置：首页 > news >正文

Language Model

news 2025/11/8 21:38:32

语言模型（Language Model, LM）是用于估计token序列概率的工具，通常在模型输出文本时非常有用。

Token sequence: $Y=y_{1},y_2,...,y_n$

$P(y_1,y_2,...,y_n)$

Y∗=argmaxP(X∣Y)P(Y)

1.Continuous LM

(1)N-gram模型

估计方法: P(y1,y2,…,yn)=P(y1∣BOS)P(y2∣y1)…P(yn∣yn−1)

例子: 估计 P(beach∣nice)=C(nice beach)/C(nice)，即“nice beach”出现的次数除以“nice”出现的次数。

平滑技术: 处理训练数据中未出现的n-gram

Issue：概率估计不准确，尤其是当考虑大的n值时，数据稀疏性问题：许多n-gram在训练数据中从未出现

语言模型平滑: 为某些未出现的词组提供小概率

(2)Recommendation system

例如：History “dog”和“cat”有相似度hdog和hcat,那么如果vjumped·hcat很大，那么相应的vjumped·hdog，也会很大，即使我们没见过“dog jumped...”

2.RNN-based LM

1-of-N编码:使用1-of-N编码表示历史词汇

(1)NN-based LM

基于神经网络的LM，原理是学习预测下一个单词

(2)RNN-based LM

使用RNN，考虑历史信息，但是也会存在RNN的长时依赖问题。

如果使用1 of N编码来代表历史信息，历史信息不能太长，使用LSTM（长短期记忆网络）进行优化

能够有效避免长序列训练中的梯度消失问题。

查看全文

http://www.dtcms.com/a/214030.html

小白场成长之路-计算机网络（三）

课上实验111111

rocky linux-系统基本管理

Netty学习专栏（五）：Netty高性能揭秘（Reactor模式与零拷贝的深度实践）

高能效比服务器

热门大型语言模型（LLM）应用开发框架

FFmpeg 4.3 H265 二十二.2，在网络环境RTSP中，断线下如何处理

Prompt Engineering 提示工程介绍与使用/调试技巧

深度解析新能源汽车结构与工作原理

MySQL的日志和备份

像造汽车一样造房子：装配式建筑4.0如何重塑未来人居

Three.js搭建小米SU7三维汽车实战（5）su7登场

汽车零部件行业PLM案例：得瑞客汽车（Dereik）部署国产PLM

数字ic后端设计从入门到精通5（含fusion compiler, tcl教学）def详解

AI时代新词-生成对抗网络（GAN）

IBM DB2升级过程

【springboot项目部署】打包部署

饭卡管理系统（接口文档）

AJAX-让数据活起来(一)：入门

鸿蒙5.0项目开发——接入有道大模型翻译

运维_麒麟_国产系统桌面版安装

Python同步异步问题三：一个小错误而可能造成无法营业

5月26日day37打卡

15.2【基础项目】使用 TypeScript 实现密码显示与隐藏功能

基于 uni-app + ＜movable-view＞拖拽实现的标签排序-适用于微信小程序、H5等多端

TypeScript 针对 iOS 不支持 JIT 的优化策略总结

iOS 响应者链详解

GitLab 从 17.10 到 18.0.1 的升级指南

OpenSSL 签名格式全攻略：深入解析与应用要点

【东枫科技】基于Docker，Nodejs，GitSite构建一个KB站点

1.Continuous LM

2.RNN-based LM

相关文章：