当前位置: 首页 > wzjs >正文

做寝室介绍网站外贸企业网站建设一条龙

做寝室介绍网站,外贸企业网站建设一条龙,甘肃兰州今天的最新消息,wordpress卖电子书N-Gram 模型 什么是N-Gram?为什么叫 N-Gram?N-Gram怎么知道下一个词可能是什么?N-Gram 能做什么?N-Gram的问题 本文回答了四个问题: 一、N-Gram是什么?二、N-Gram为什么叫N-Gram?三、N-Gram具体…

N-Gram 模型

  • 什么是N-Gram?
  • 为什么叫 N-Gram?
  • N-Gram怎么知道下一个词可能是什么?
  • N-Gram 能做什么?
  • N-Gram的问题

本文回答了四个问题:

  • 一、N-Gram是什么?
  • 二、N-Gram为什么叫N-Gram?
  • 三、N-Gram具体是怎么算的?
  • 四、N-Gram能用在什么地方?

什么是N-Gram?

N-gram,本质上就是一种“上下文预测”模型。我们可以简单地把它理解为

给你前面几个词,猜下一个词会是什么?

例如:

  • 打出“我爱”,接下来有可能是“你”、“北京” or “吃饭”。
    那下一个词可能是什么?
    总不能随便猜吧,我们可以通过历史数据来总结规律,看看以往的数据中,“我爱“后边最常出现的是什么,例如最常出现的是“你”,那我们就可以大胆的猜,在现在这个场景下,“我爱”后边就是“你”

N-Gram就是这样一种简单的,最基本,基于历史出现次数的,计算的下一个词出现的概率。

虽然N-Gram很基本,但是他是Transformer这类语言模型的开端。

一些想法】我是找transformer的原理的时候,突发奇想想了解一下整个语言模型的发展脉络,试图通过跟ChatGPT对话了解ChatGPT(及其老祖),师夷长技以制夷了属于是。

为什么叫 N-Gram?

Gram指代Grammer,语句中可拆分的最基本单位,在中文可以简单的认为就是一个字,一个Gram就是一个字,N指的是以多少个为一组进行统计,N-Gram就是看前边N-1个词预测当前词。
例如:

模型名称看几个词例子(预测“苹果”之前的部分)
Unigram看前 0 个(只管当前词)苹果
Bigram看前 1 个吃 苹果
Trigram看前 2 个爱 吃 苹果
4-gram看前 3 个我 爱 吃 苹果
Unigram: 只看当前词
苹果
Bigram: 看前一个词
吃 ->苹果
Trigram: 看前两个词
爱 + 吃 -> 苹果
4-gram: 看前三个词
我 + 爱 + 吃 -> 苹果

一些想法】自然而然就会想到为什么叫N-Gram,N的含义是什么,Gram的含义是什么,结果发现谜底就在谜面上,就是N-Gram实际上是通过N-1个Grammer来猜下一个Gram的,这个可能是因为N指代的是以N个Grammer为一组,那除去要猜的最后一个,自然就前提条件就是通过N-1个来猜咯。

N-Gram怎么知道下一个词可能是什么?

N-gram 模型本质上是一个 统计记忆模型

它从你提供的数据中“计数”:

  • “我 爱 你”出现了 50 次;
  • “我 爱 北京”出现了 20 次;
  • “我 爱 吃 苹 果 很”出现了 5 次;

然后当你输入“我 爱 ”,模型就在所有以“我 爱 ”开头的片段中,看接下来哪个词最常出现,就猜它是你要说的下一个词。

也就是说,N-Gram并没有没有理解语言,它只是看说这两个字之后,接下来最经常说哪个字
如果提供的文本中通篇只有**“我爱你”,而没有“我爱xxx”,那就可以认为一旦出现“我爱”,下一个字就一定是“你”了,“你”**的概率是100%。

用数学描述就是:

w n − 2 w_{n-2} wn2 w n − 1 w_{n-1} wn1接连出现的时候,接连出现 w n w_n wn的概率有多大
P ( w n ∣ w n − 2 , w n − 1 ) = Count ( w n − 2 , w n − 1 , w n ) Count ( w n − 2 , w n − 1 ) P(w_n \mid w_{n-2}, w_{n-1}) = \frac{\text{Count}(w_{n-2}, w_{n-1}, w_n)}{\text{Count}(w_{n-2}, w_{n-1})} P(wnwn2,wn1)=Count(wn2,wn1)Count(wn2,wn1,wn)

一些想法】看起来很傻瓜是不是。。。这个就是最基本的通过历史数据简单的进行概率计算,,就像是破案一样,“你出现在现场的次数最多,所以我猜真凶一定是你!”,虽然看起来有点草率,但是在某些场景下还莫名的好用。当然因为语料有限,有可能会出现训练集没有出现 C o u n t ( w n − 2 , w n − 1 ) = 0 Count(w_{n-2}, w_{n-1}) = 0 Count(wn2,wn1)=0 C o u n t ( w n − 2 , w n − 1 , w n ) = 0 Count(w_{n-2}, w_{n-1}, w_{n}) = 0 Count(wn2,wn1,wn)=0的情况,为了避免这种情况(这样就算不出下一个词可能是什么了),会用到一个称为“平滑”的技术,当然这是后话,最主要的还是概率计算的思路。

N-Gram 能做什么?

虽然简单,但 N-gram 很有用,尤其在早期的语言处理任务中。

举几个场景:

  1. 输入法联想:你打出“今天”,它给你补“星期几”、“下雨”、“放假”,都是基于 N-gram 的预测。
  2. 拼写纠错:你输错一个词,它看上下文哪个词组合最常见,来猜你原本想输入什么。
  3. 语音识别:一个音可能对应多个词,N-gram 用上下文判断哪个词组合更合理。
  4. 搜索建议:你输入“如何提高”,它自动补“工作效率”、“记忆力”,都是靠历史统计。

一些联想】我们接触到的最多的应该就是输入法联想了,还记得有一段时间流行过通过键入前两个或三个词,接下来不停的按输入法推荐的第一个词,直到出现句号,这背后其实就可能是N-Gram算法在发力,毕竟从使用的经验来看,真的是根据你平时的输入习惯来进行下一个词的提示。而且N-Gram的思路是真的简单,实现起来很快,计算量也低,结果也很可控。

N-Gram的问题

  • 只关注局部信息:它只能看到前 N 个词,如果重要信息在更前面就忽略了。
  • 缺少联想:如果某些词组很少出现(比如“我 爱 苏7 Ultra”),它可能根本没见过,就不会预测出来。
间隔很远
没见过
前文很重要的词
N-Gram看不到
出现频率极低的新组合
无法预测

一些想法】毕竟很简单的算法啦,要什么自行车,在一些特定场景能用,好用就行。


文章转载自:

http://cYffBgDE.Lgznf.cn
http://hHt3qYwa.Lgznf.cn
http://2lOXo1IS.Lgznf.cn
http://pFULzmDD.Lgznf.cn
http://KKer8wYq.Lgznf.cn
http://qkpKvs7P.Lgznf.cn
http://3rZNddh2.Lgznf.cn
http://DsczColb.Lgznf.cn
http://hvFmyz5N.Lgznf.cn
http://bWfBgDpO.Lgznf.cn
http://rM1X9GkN.Lgznf.cn
http://HsVpT5dd.Lgznf.cn
http://6kaTrtcU.Lgznf.cn
http://BVHjYLiv.Lgznf.cn
http://TeRkCm7X.Lgznf.cn
http://y2yejV3v.Lgznf.cn
http://3I7xJblZ.Lgznf.cn
http://KmTs44g8.Lgznf.cn
http://R0IiOZfW.Lgznf.cn
http://kCK0BBI8.Lgznf.cn
http://yaFcXgSu.Lgznf.cn
http://DCwAcF2Q.Lgznf.cn
http://CVBkaAIE.Lgznf.cn
http://BIj0bWSt.Lgznf.cn
http://cYcdoWnC.Lgznf.cn
http://A8OFTmlq.Lgznf.cn
http://1gnLKrSo.Lgznf.cn
http://JpNmyc3z.Lgznf.cn
http://PjLyJe4T.Lgznf.cn
http://5Sblr02Z.Lgznf.cn
http://www.dtcms.com/wzjs/645639.html

相关文章:

  • 中山市智能h5网站建设公司freenom申请域名
  • 服装箱包网站建设品牌策划公司名字大全
  • 网站建设开发哪家好宝安中心网站建设
  • 免费做的网站怎么设置域名怎么给网站加外链
  • 芜湖网站开发阿里云做网站电话
  • 网站正在升级建设中广东建设工程执业资格注册中心网站
  • 长沙品质企业建站服务电话仿站网
  • 三亚市建设局网站帮人家做网站
  • 如果建设一个网站seo排名关键词
  • 网站技术可行性天津百度百科
  • 学网站开发月薪多少钱内部网
  • 上海做网站推广公司苏州网站制作聚尚网络
  • 网站建设鸿儒集团网站品牌建设特点
  • 基于php网站建设论文什么浏览器适合看网站
  • 网站做跳转wxparse wordpress
  • 合肥微网站电子商务网站建设与维护 论文
  • 做公司网站哪家好360帝国模板网欢迎大家来访_济南网站建设推广_济南 去114网
  • 福建优化seowordpress换模板 seo
  • 网站建设请款报告wordpress导航模板
  • 专业网站定制平台广西建设监理协会官方网站
  • 嘉兴网站建设技术托管东莞市智通人才市场最新招聘信息
  • 学做网站有前显示海外地址用什么地图?
  • 网站建设的公司做销售网站管理员是什么意思
  • 五屏网站建设公司wordpress3d
  • 园林景观设计案例网站做网站工作条件
  • 北京网站建设公司黄页网站的管理有是
  • 广州网站制作费用学技术哪个行业最吃香
  • 深圳哪里网站制作电子商务网站建设方案案例
  • 西安哪家网络公司做网站网推所是什么意思
  • 那里有做网站网站开发人员需要什么技能