当前位置: 首页 > news >正文

Language Model

语言模型(Language Model, LM)是用于估计token序列概率的工具,通常在模型输出文本时非常有用。

Token sequence:Y=y_{1},y_2,...,y_n

P(y_1,y_2,...,y_n)

Y∗=argmaxP(X∣Y)P(Y)

1.Continuous LM

(1)N-gram模型

估计方法: P(y1,y2,…,yn)=P(y1∣BOS)P(y2∣y1)…P(yn∣yn−1)

例子: 估计 P(beach∣nice)=C(nice beach)/C(nice),即“nice beach”出现的次数除以“nice”出现的次数。

平滑技术: 处理训练数据中未出现的n-gram

Issue:概率估计不准确,尤其是当考虑大的n值时,数据稀疏性问题:许多n-gram在训练数据中从未出现

语言模型平滑: 为某些未出现的词组提供小概率

(2)Recommendation system

例如:History “dog”和“cat”有相似度hdog和hcat,那么如果vjumped·hcat很大,那么相应的vjumped·hdog,也会很大,即使我们没见过“dog jumped...”

2.RNN-based LM

1-of-N编码:使用1-of-N编码表示历史词汇

(1)NN-based LM

基于神经网络的LM,原理是学习预测下一个单词

(2)RNN-based LM

使用RNN,考虑历史信息,但是也会存在RNN的长时依赖问题。

如果使用1 of N编码来代表历史信息,历史信息不能太长,使用LSTM(长短期记忆网络)进行优化

能够有效避免长序列训练中的梯度消失问题。

http://www.dtcms.com/a/214030.html

相关文章:

  • 小白场成长之路-计算机网络(三)
  • 课上实验111111
  • rocky linux-系统基本管理
  • Netty学习专栏(五):Netty高性能揭秘(Reactor模式与零拷贝的深度实践)
  • 高能效比服务器
  • 热门大型语言模型(LLM)应用开发框架
  • FFmpeg 4.3 H265 二十二.2,在网络环境RTSP中,断线下如何处理
  • Prompt Engineering 提示工程介绍与使用/调试技巧
  • 深度解析新能源汽车结构与工作原理
  • MySQL的日志和备份
  • 像造汽车一样造房子:装配式建筑4.0如何重塑未来人居
  • Three.js搭建小米SU7三维汽车实战(5)su7登场
  • 汽车零部件行业PLM案例:得瑞客汽车(Dereik) 部署国产PLM
  • 数字ic后端设计从入门到精通5(含fusion compiler, tcl教学)def详解
  • AI时代新词-生成对抗网络(GAN)
  • IBM DB2升级过程
  • 【springboot项目部署】打包部署
  • 饭卡管理系统(接口文档)
  • AJAX-让数据活起来(一):入门
  • 鸿蒙5.0项目开发——接入有道大模型翻译
  • 运维_麒麟_国产系统桌面版安装
  • Python同步异步问题三:一个小错误而可能造成无法营业
  • 5月26日day37打卡
  • 15.2【基础项目】使用 TypeScript 实现密码显示与隐藏功能
  • 基于 uni-app + <movable-view>拖拽实现的标签排序-适用于微信小程序、H5等多端
  • TypeScript 针对 iOS 不支持 JIT 的优化策略总结
  • iOS 响应者链详解
  • GitLab 从 17.10 到 18.0.1 的升级指南
  • OpenSSL 签名格式全攻略:深入解析与应用要点
  • 【东枫科技】基于Docker,Nodejs,GitSite构建一个KB站点