当前位置: 首页 > news >正文

Language Model

语言模型(Language Model, LM)是用于估计token序列概率的工具,通常在模型输出文本时非常有用。

Token sequence:Y=y_{1},y_2,...,y_n

P(y_1,y_2,...,y_n)

Y∗=argmaxP(X∣Y)P(Y)

1.Continuous LM

(1)N-gram模型

估计方法: P(y1,y2,…,yn)=P(y1∣BOS)P(y2∣y1)…P(yn∣yn−1)

例子: 估计 P(beach∣nice)=C(nice beach)/C(nice),即“nice beach”出现的次数除以“nice”出现的次数。

平滑技术: 处理训练数据中未出现的n-gram

Issue:概率估计不准确,尤其是当考虑大的n值时,数据稀疏性问题:许多n-gram在训练数据中从未出现

语言模型平滑: 为某些未出现的词组提供小概率

(2)Recommendation system

例如:History “dog”和“cat”有相似度hdog和hcat,那么如果vjumped·hcat很大,那么相应的vjumped·hdog,也会很大,即使我们没见过“dog jumped...”

2.RNN-based LM

1-of-N编码:使用1-of-N编码表示历史词汇

(1)NN-based LM

基于神经网络的LM,原理是学习预测下一个单词

(2)RNN-based LM

使用RNN,考虑历史信息,但是也会存在RNN的长时依赖问题。

如果使用1 of N编码来代表历史信息,历史信息不能太长,使用LSTM(长短期记忆网络)进行优化

能够有效避免长序列训练中的梯度消失问题。

相关文章:

  • 小白场成长之路-计算机网络(三)
  • 课上实验111111
  • rocky linux-系统基本管理
  • Netty学习专栏(五):Netty高性能揭秘(Reactor模式与零拷贝的深度实践)
  • 高能效比服务器
  • 热门大型语言模型(LLM)应用开发框架
  • FFmpeg 4.3 H265 二十二.2,在网络环境RTSP中,断线下如何处理
  • Prompt Engineering 提示工程介绍与使用/调试技巧
  • 深度解析新能源汽车结构与工作原理
  • MySQL的日志和备份
  • 像造汽车一样造房子:装配式建筑4.0如何重塑未来人居
  • Three.js搭建小米SU7三维汽车实战(5)su7登场
  • 汽车零部件行业PLM案例:得瑞客汽车(Dereik) 部署国产PLM
  • 数字ic后端设计从入门到精通5(含fusion compiler, tcl教学)def详解
  • AI时代新词-生成对抗网络(GAN)
  • IBM DB2升级过程
  • 【springboot项目部署】打包部署
  • 饭卡管理系统(接口文档)
  • AJAX-让数据活起来(一):入门
  • 鸿蒙5.0项目开发——接入有道大模型翻译
  • 设计网站多少钱/湖南靠谱关键词优化
  • 做彩票游戏网站违法吗/百度游戏中心app
  • 正规软件开发培训班/seo站长工具
  • 手机免费做网站怎么做网站/seo优化百度技术排名教程
  • 临安做网站的公司有哪些/国内广告联盟平台
  • 网站做浮动边框asp代码/360网站安全检测