当前位置: 首页 > wzjs >正文

台州市城乡建设局网站婚恋网站开发背景文献

台州市城乡建设局网站,婚恋网站开发背景文献,营销策略的思路,Wordpress 微博评论大模型的发展历程 大语言模型的发展历程一、语言模型是个啥?二、语言模型的 “进化史”(一)统计语言模型(SLM)(二)神经语言模型(NLM)(三)预训练语…

大模型的发展历程

  • 大语言模型的发展历程
    • 一、语言模型是个啥?
    • 二、语言模型的 “进化史”
      • (一)统计语言模型(SLM)
      • (二)神经语言模型(NLM)
      • (三)预训练语言模型(PLM)
      • (四)大语言模型(LLM)
    • 三、语言模型的 “秘密武器”
      • (一)模型参数规模
      • (二)数据数量和质量
    • 四、未来展望

大语言模型的发展历程

哈喽~今天咱们来好好唠唠大语言模型。这可不是什么高深莫测的玩意儿,它就在咱们身边,像 ChatGPT、文心一言这些,都是大语言模型的 “明星成员”。咱今天就来扒一扒它的 “老底”。
在这里插入图片描述

一、语言模型是个啥?

简单来说,语言模型就是能让计算机 “懂得” 人类语言的模型。它能预测下一个词是什么,也能生成像模像样的句子。就像咱们学外语,刚开始可能只会背单词,后来就能用单词造句,语言模型就是让计算机学会 “造句” 的。

举个例子,输入 “今天天气很”,语言模型就能预测下一个词可能是 “好”、“晴朗” 之类的词。是不是挺神奇的?

二、语言模型的 “进化史”

(一)统计语言模型(SLM)

这算是语言模型的 “老祖宗” 了。它基于统计学,用链式法则来建模句子序列。比如,要计算 “我爱学习” 这句话出现的概率,就得算出 “我” 出现的概率、“爱” 在 “我” 后面出现的概率、“学习” 在 “爱” 后面出现的概率,然后把这些概率乘起来。

用公式表示就是: p ( I , a m , f i n e ) = p ( I ∣ S T A R T ) ∗ p ( a m ∣ I ) ∗ p ( f i n e ∣ I , a m ) p(I,am,fine) = p(I|START) * p(am|I) * p(fine|I,am) p(I,am,fine)=p(ISTART)p(amI)p(fineI,am)

但有个麻烦,就是如果有些词组合在训练数据里没出现过,概率就算不出来。这时候就得用 “平滑” 和 “回退” 来解决。平滑就像是给没见过的词也分一点概率,回退则是当高阶模型算不出来时,用低阶模型来代替。

案例:假设我们有 “学生打开书”、“学生打开笔记本” 这两句话,如果要算 “学生打开考试” 这句话的概率,发现 “打开考试” 这个组合没出现过,那就可以用平滑方法,给 “打开考试” 也分配一点概率。

(二)神经语言模型(NLM)

随着深度学习的发展,神经语言模型登场了。它用神经网络来学习词向量,然后预测当前词。比如,用多层感知机(MLP)把单词映射到词向量,再由神经网络预测当前时刻词汇。

它的训练目标函数是:
1 N ∑ i = 1 N log ⁡ p ( w i ∣ w i − n , … , w i − 1 ) \frac{1}{N}\sum_{i=1}^{N}\log p\left(w_{i} \mid w_{i-n}, \ldots, w_{i-1}\right) N1i=1Nlogp(wiwin,,wi1)

循环神经网络(RNN)也是神经语言模型的一种。它的基本单元是:
h t = σ ( W h x x t + W h h h t − 1 + b ) h_t = \sigma(W_{hx} x_t + W_{hh} h_{t-1} + b) ht=σ(Whxxt+Whhht1+b)
y t = W h y h t + c y_t = W_{hy} h_t + c yt=Whyht+c

它能处理序列数据,就像咱们看文章一样,前面的词会影响后面的词。不过,RNN 有 “短记性”,对离得很远的词的记忆会变弱。

案例:用 RNN 来预测下一个词。比如输入 “我今天吃了一顿”,它会根据前面的词来预测下一个词可能是 “饭”、“美食” 之类的。

(三)预训练语言模型(PLM)

预训练语言模型是在大量语料上进行无监督预训练,然后在特定任务上微调的模型。比如,GPT 系列是自回归语言模型,它能根据前面的词生成后面的词;BERT 是自编码语言模型,它能理解词在句子中的含义。

GPT 的目标函数是:
L = − ∑ i = 1 n log ⁡ p ( w i ∣ w 1 , … , w i − 1 ) \mathcal{L} = -\sum_{i=1}^{n} \log p\left(w_{i} \mid w_{1}, \ldots, w_{i-1}\right) L=i=1nlogp(wiw1,,wi1)

BERT 的目标函数是:
L = − ∑ i = 1 n ( y i log ⁡ p ( w i ) + ( 1 − y i ) log ⁡ ( 1 − p ( w i ) ) ) \mathcal{L} = -\sum_{i=1}^{n} \left( y_{i} \log p\left(w_{i}\right) + (1 - y_{i}) \log \left(1 - p\left(w_{i}\right)\right) \right) L=i=1n(yilogp(wi)+(1yi)log(1p(wi)))

案例:GPT-3 有 1750 亿参数,经过海量文本预训练,能生成各种文本,像写文章、写代码都不在话下。

(四)大语言模型(LLM)

大语言模型是参数规模更大、经过海量数据预训练的模型。它的特点就是 “大力出奇迹”,能处理各种复杂任务,像问答、生成、翻译等。

案例:ChatGPT 是大语言模型的代表,它能和人进行多轮对话,回答各种问题,还能写故事、写诗。

三、语言模型的 “秘密武器”

(一)模型参数规模

参数规模越大,模型能学到的知识就越多。就像一个学生,读书越多,知识就越丰富。比如,Chinchilla 模型有 700 亿参数,经过 1.4 万亿个词训练,虽然比一些大模型参数少,但性能却很不错。

(二)数据数量和质量

数据就是模型的 “粮食”,没有足够的数据,模型就学不会东西。而且,数据质量也很重要。如果数据里有很多错误,那模型学到的东西也会有问题。

案例:有些语言模型用维基百科、新闻文章这些高质量数据来训练,所以能生成比较准确的文本。

四、未来展望

大语言模型还在不断发展,未来可能会更智能、更高效。它可能会在更多领域发挥作用,像教育、医疗、金融等。


文章转载自:

http://sQepBtNg.pbzgj.cn
http://iX7fLG1T.pbzgj.cn
http://ceHqqUIX.pbzgj.cn
http://VzMJFFSm.pbzgj.cn
http://IJCKLRYO.pbzgj.cn
http://0CR30hGW.pbzgj.cn
http://NuGoPO4E.pbzgj.cn
http://qK6iS48k.pbzgj.cn
http://yR7we0Wl.pbzgj.cn
http://ZczYYOgT.pbzgj.cn
http://RAqrKTS0.pbzgj.cn
http://R3QhESfk.pbzgj.cn
http://J5km4q4F.pbzgj.cn
http://iJRW6fc9.pbzgj.cn
http://8e5feUgl.pbzgj.cn
http://wTaEe98n.pbzgj.cn
http://XiEUgVLO.pbzgj.cn
http://UouA3gg9.pbzgj.cn
http://ZhsJWbva.pbzgj.cn
http://TDdDmv60.pbzgj.cn
http://wvWkoHr3.pbzgj.cn
http://v6kJOz9n.pbzgj.cn
http://JhC005bL.pbzgj.cn
http://sddVr2q7.pbzgj.cn
http://NCihogd0.pbzgj.cn
http://FxiJDvIR.pbzgj.cn
http://VyEzpOpM.pbzgj.cn
http://7kqL3FTb.pbzgj.cn
http://M4S0n5s1.pbzgj.cn
http://xCKV99AP.pbzgj.cn
http://www.dtcms.com/wzjs/680634.html

相关文章:

  • 咖啡网站设计建设wordpress建设企业官网
  • 达内培训网站开发代做道路毕业设计网站
  • 福州专门做网站网红推广
  • flash网站模板下载图片展示网站模板
  • 数据网站建设哪家好企业建站程序哪个好
  • 做dj网站郑州网站建设乛汉狮网络
  • 最好大连网站建设溧水区住房和城乡建设厅网站
  • 单位门户网站建设的请示公司网页设计的公司
  • 网站诊断工具网站内容如何优化
  • 站长统计芭乐鸭脖小猪株洲网站优化哪家强
  • 阿里云服务器创建多个网站盘锦做网站哪家好
  • dw做的网站怎么传到网络上去济南网站优化的周期
  • 天津专业做网站专业营销型网站
  • 网站怎么弄缩略图上传黄石网站建设黄石
  • 北京网站建设公司兴田德润专业宜昌市住房和城乡建设局网站
  • 温州网站优化搜索wordpress 比价
  • 菏泽北京网站建设电子商务网站功能设计
  • vue做网站的实例中山医疗网站建设
  • 免费空间赞郑州网站制作专业乐云seo
  • 佛山市网站建设分站企业网页设计制作网站教程
  • 中国建设监理协会网站投稿百度对wordpress
  • 做游戏网站多钱湖北标书设计制作
  • 中国建设银行官网站企业年金做详情页比较好的网站
  • wordpress访问网站很慢做一个论坛网站要多少钱
  • 创建qq网站网站开发工程师任职资格
  • 网站开发英文翻译zencart 网站入侵
  • 购物网站开发的基本介绍开发公司空置房物业费会计科目
  • 专业的定制型网站建设更改网站伪静态
  • 建筑做地图分析的网站国外订房网站怎么和做
  • 做平面设计必知的网站网站设计有哪些公司