当前位置: 首页 > news >正文

自然语言处理NLP (1)

基础可以先看看:深度学习入门(1)
深度学习入门(2)(计算机视觉)

自然语言和用向量表示单词:基于计数的方法
  1. 自然语言 natural language

    平常说话写作使用的语言

  2. 自然语言处理 NLP

    让计算机理解人类语言的技术

  3. 同义词词典

    将具有相同含义或者相似含义的单词归类到同一个组中,在NLP中用的同义词词典有时会定义单词之间的粒度更细的关系(层级结构关系等),形成一个单词网络

    example:

    1. WordNet

      使用WordNet,可以获得单词的近义词,计算单词之间的相似度

  4. 基于计数的方法

    1. 语料库:用于自然语言处理研究和应用的文本数据

    2. 语料库预处理:corpus单词ID列表 word_to_id单词到ID的字典 id_to_word ID到单词的字典

    3. 单词的分布式表示(类似所有的颜色都可用RGB来表示一样)

    4. 分布式假设:某个单词的含义由它周围的单词形成

    5. 基于计数/统计的方法:对某个单词的周围出现了多少次什么单词进行计数,然后再汇总

    6. 共现矩阵:汇总了所有单词的上下文其他单词出现的次数

    7. 如何测量单词的向量表示的相似度:余弦相似度

      在这里插入图片描述

  5. 改进:

    1. 点互信息 PMI:PMI↑ 相关性↑

      1. P(x): 单词x在语料库出现的概率

        C(x): 单词x在语料库出现的次数

      在这里插入图片描述

      在这里插入图片描述

      ​ 正的点互信息 PPMI:

      在这里插入图片描述

    2. 降维:尽量保留重要信息的基础上减少向量维度

      1. 奇异值分解 SVD

        在这里插入图片描述

        将共现矩阵转化为PPMI,并SVD降维:可以将大的稀疏向量转变为小的密集向量

word2vec和用向量表示单词:基于推理的方法
  1. 基于计数的方法弊端:一次性处理全部学习数据,不适用于大的语料库

  2. 基于推理的方法:选取mini_batch的数据,逐步学习

    输入上下文,模型输出各个单词的出现频率

  3. 基于推理的方法 -神经网络学习

    1. 单词的处理:转换成one-hot独热编码
  4. word2vec

    word2vec中使用的两个神经网络模型:CBOW模型 & skip-gram模型

    1. CBOW模型:根据上下文预测目标词

      输入:上下文 -> one-hot

      并行两个输入(表示上文 & 下文),经过1个隐藏层 两个全连接计算 到输出层

      输出层后加上Softmax层和Cross Entropy Error交叉熵层 反向传播更新参数

    2. skip-gram模型:根据给定单词预测上下文

      输入:给定单词

      经过一个隐藏层 两个全连接计算 输出层并行两个输出(表示上文 & 下文)

      输出层后加上Softmax层和Cross Entropy Error交叉熵层 反向传播更新参数

  5. GloVe(融合基于推理和基于计数)

    将整个语料库的统计数据的信息纳入损失函数,进行mini_batch学习

Error交叉熵层 反向传播更新参数

  1. GloVe(融合基于推理和基于计数)

    将整个语料库的统计数据的信息纳入损失函数,进行mini_batch学习

http://www.dtcms.com/a/300873.html

相关文章:

  • 【笔记】系统
  • 上位机知识篇---AJAX
  • MongoDB分片集群横向扩展
  • 2.qt调试日志输出
  • 区块链共识机制与联邦学习
  • 【C++】数字cmath库常用函数
  • 基于深度学习的图像分类:使用ShuffleNet实现高效分类
  • LeetCode 1577.数的平方等于两数乘积的方法数
  • day061-全网监控
  • 【科研绘图系列】R语言绘制边际云雨图散点图
  • 【unitrix】 6.17 基本非负整数( BaseUnsigned )特质(base_unsigned.rs)
  • 【笔记】拉乌尔定律推导
  • 获取电脑主板的 通用唯一标识符(UUID)
  • C++学习(线程相关)
  • Git+宝塔面板部署Hugo博客
  • 【橘子分布式】gRPC(番外篇-客户端重试机制)
  • 五自由度磁悬浮轴承转子不平衡振动破壁战:全息前馈控制实战密码
  • 【DataWhale】快乐学习大模型 | 202507,Task08笔记
  • STM32移植LVGL9.2.1教程
  • 视频转GIF工具,一键批量制作高清动图
  • CLAP文本-音频基础模型: LEARNING AUDIO CONCEPTS FROM NATURAL LANGUAGE SUPERVISION
  • 设计模式(四)创建型:生成器模式详解
  • 设计模式(三)创建型:抽象工厂模式详解
  • 第五章第二节 对射式红外传感器计次旋转编码器计次
  • 8.c语言指针
  • 标签驱动的可信金融大模型训练全流程-Agentar-Fin-R1工程思路浅尝
  • AI驱动的金融推理:Fin-R1模型如何重塑行业决策逻辑
  • JSON格式化与结构对比
  • 2025年量子计算与前沿技术融合:六大变革性方向深度解析
  • Rust实战:高效开发技巧