当前位置: 首页 > news >正文

27.语言模型

语言模型,是NLP方向一直主力研究的,通过训练机器,来让机器学习人类语言的内在规律,理解自然语言,并将其转换为计算机语言。
目前的主流语言模型,如GPT、Deepseek等,并不是简单的搜索背诵。他们的机制更类似于一种猜词游戏,即通过当前的信息,推测下一个相关的信息是什么,通过这种方式进行资源整合。

NLP语言模型具体涉及解决的问题有:搜索、分类、聚类、总结、生成、重写、抽象
NLP模型效果依赖两个方面:一是模型结构,二是语料库的丰富程度。

发展阶段

  • 统计语言模型
    是一种基于概率统计的语言模型,旨在预测下一个单词或句子出现的概率。
    将NLP任务视为一个统计问题,使用机器学习算法从大规模语料库中学习语言的统计规律。
    严重依赖特征工程。模型的效果很大程度上取决于从业者如何设计和提取特征(如词形、词性、词干、上下文窗口等)。

  • 神经网络语言模型:
    基于神经网络学习特征,比传统模型效果更好。
    使用深度学习模型(尤其是循环神经网络RNN、长短期记忆网络LSTM和卷积神经网络CNN)自动学习语言的底层特征表示,取代手工特征工程。

  • 预训练语言模型
    先在超大规模无标注文本数据上训练一个通用的基础模型(学习语言本身的语法、语义、知识等),再针对具体下游任务用少量标注数据进行微调。
    Transformer架构推出后,并行计算能力强,极大地提升了训练效率和长程依赖建模能力。改变了语言模型的结构。
    在这里插入图片描述

统计语言模型

统计语言模型是描述单词、句子或文档的概率分布的模型。主要有以下几种:

  • n-gram模型
    n-gram模型是将一段文本切分成n个连续的词组,然后根据前n-1个词组来预测第n个词组,从而达到预测的目的(3-gram通过前2个词,预测第3个词)。

在这里插入图片描述

  • 平滑方法
    n-gram需要对所有上文进行枚举的操作,加上要处理出现次数为0的问题,所以可能存在过拟合和数据稀疏的问题。因此,需要引入平滑方法:Laplace平滑、Good-Turing平滑、Katz平滑等。

  • 隐马尔科夫模型(HMM)
    HMM是一种将语言转化为概率状态序列的模型,可以学习文本中的隐含结构。一般用于识别词性、命名实体识别等任务。
    命名实体识别:是从非结构化的文本中自动识别出专有名词或特定意义的实体,并将其分类到预定义的类别中。
    可以把它理解为一种“信息高亮”,它能在密密麻麻的文字中,快速地把人名、地名、组织机构名等重要信息标记出来。

  • 最大熵模型
    最大熵模型是一种分类器,用来预测下一个词或字符的条件概率。以最大化信息熵为目标函数,通过最大熵原理确定模型参数。

神经网络语言模型

神经网络语言模型(NNLM),是基于神经网络实现的模型,相比于传统模型有更好的性能。

  • 基于前馈神经网络的NNLM
    2003年提出,通过前馈神经网络训练,用softmax分类。

  • 循环神经网络模型(RNNLM)
    是一种基于循环神经网络的语言模型,优点是对动态的序列进行建模,通过引入长短时记忆单元(LSTM),解决了神经网络在处理长序列的梯度消失问题,提升了性能。
    如果序列过长,随着训练,前面的知识可能被遗忘。

  • TransformerLM
    基于Transformer的语言模型,通过自注意力机制计算不同单词间的关系。
    相比于RNNLM,Transformer具有更强的并行性,计算效率上有更大优势。

预训练模型

基于TransformerLM,后续发展了一批以此为基础的变体,目前各大厂商也都在进行模型的设计训练,推出了一系列预训练语言模型。

  • Word2vec
    是一种基于神经网络的词向量表示方法,于2013年提出,通过将单词转化为一个向量,从计算单词间的相似性,具体来说是通过计算向量间的余弦相似度。
http://www.dtcms.com/a/340498.html

相关文章:

  • Java + 工业物联网 / 智慧楼宇 面试问答模板
  • C#APP.Config配置文件解析
  • 案例分享:BRAV-7123助力家用型人形机器人,智能生活未来已来
  • 项目各功能介绍
  • 今天我们学习计算机网络技术的虚拟局域网VLAN以及了解三层交换机的概念
  • 应用在运行时,向用户索取(相机、存储)等权限,未同步告知权限申请的使用目的,不符合相关法律法规要求--教你如何解决华为市场上架难题
  • leetcode 1277. 统计全为 1 的正方形子矩阵 中等
  • (nice!!!)(LeetCode 每日一题) 1277. 统计全为 1 的正方形子矩阵 (动态规划)
  • Tumblr长文运营:亚矩阵云手机助力多账号轮询与关键词布局系统
  • 亚矩阵:跨境卖家 YouTube 私域矩阵搭建的高效解决方案
  • JavaScript 性能优化实战:从原理到落地的完整指南
  • AI硬件 - 华为显卡的演进
  • 深入理解MySQL Ⅳ -- SQL性能分析工具
  • 力扣48:旋转矩阵
  • [TryHackMe]Mr Robot CTF(hydra爆破+Wordpress更改主题)
  • IPSec安全概述
  • 医疗AI与医院数据仓库的智能化升级:异构采集、精准评估与高效交互的融合方向(上)
  • 信创产品TongLinkQ安装及springboot2整合使用
  • AI 视频翻译工具的调研笔记
  • Spring Boot 实战:从项目搭建到部署优化
  • Causal-Copilot: An Autonomous Causal Analysis Agent 论文解读
  • 基于离散点集的三次样条插值与符号表达式构建:从 Scipy 到 Sympy 的完整实现
  • 记一次前端Vue3+Vite+TS项目中使用Mock.js + vite-plugin-mock插件发布到生产(线上)环境填坑汇总
  • 矩阵的特征分解
  • C语言---分隔符、常量、注释、标识符、关键字、空格
  • LoRa 网关组网方案(二)
  • 【科研绘图系列】R语言绘制平行坐标图
  • 保姆级Debezium抽取SQL Server同步kafka
  • 绕过 C 标准库限制执行系统命令:系统调用、Shellcode 和裸机二进制
  • week2-[一维数组]出现次数