当前位置: 首页 > news >正文

基于深度学习的nlp

目录

一、背景

二、有监督学习与前馈神经网络

三、处理自然语言数据

1、常见预处理步骤

2、可观测特征

四、网络结构设计

1、卷积

2、循环神经网络

3、长短期记忆网络-LSTM

4、一些实例

(1)情感分类器

(2)词性标注

(3)弧分解依存句法分析


一、背景

  1. 基于规则(Rule-based)
    依赖专家手工编写语法与词典规则,缺乏扩展性。

  2. 统计学习(Statistical NLP)
    使用n-gram、HMM等概率模型进行建模,需要大量特征工程。

  3. 深度学习驱动(Deep Learning NLP)
    利用神经网络自动学习语言表示,实现端到端训练,显著提升任务表现。

里程碑事件

  • 2013:Word2Vec 提出,词向量革命开启。

  • 2017:Transformer发布,取代RNN成为主流。

  • 2018+:BERT、GPT等预训练模型席卷NLP领域。

二、有监督学习与前馈神经网络

在NLP中,许多任务可转化为有监督分类问题,例如:

  • 情感分析(positive / negative)

  • 新闻分类(体育 / 财经 / 娱乐)

  • 意图识别(查询天气 / 订票)

有监督学习流程

  1. 数据准备:收集标注样本(文本 + 标签)

  2. 特征表示:将文本转化为向量(One-hot、词向量、BERT embedding)

  3. 模型训练:利用训练集优化神经网络参数

  4. 模型评估:在测试集上计算准确率、F1分数等

一些实践经验

三、处理自然语言数据

深度学习的输入必须是数值张量,因此NLP的第一步是文本数字化。

1、常见预处理步骤

                

        

  1. 分词(Tokenization)

  2. 去除噪声
    移除HTML标签、特殊字符、停用词

  3. 向量化表示:One-hot:稀疏且维度高;词向量(Word2Vec、GloVe):稠密低维,捕捉语义;上下文向量(ELMo、BERT):根据上下文动态生成

  4. 序列对齐与填充(Padding):将不同长度文本补齐到统一长度

2、可观测特征

  • 独词特征

    • 词元和词干:例如 books, booking, booked → bookpicture, pictures, pictured → pictur(通过词干提取减少词形变化带来的冗余)。

    • 词典资源:如 WordNet、FrameNet、VerbNet 提供的语义、同义词、上下位词等知识。

    • 分布信息:统计词在不同语境中的出现规律。

  • 文本特征

    • 词袋模型(BOW):将文本表示为词频直方图,不考虑词序

    • 权重:如 TF-IDF,用于衡量某个词对区分文本的重要性。

  • 上下文词特征

    • 窗口:基于相邻词的上下文关系,例如固定大小的窗口聚焦中心词周围的词。

    • 位置:记录词在句子或文本中的具体位置。

  • 词关系特征

    • 不仅关注词自身,还研究词与词之间的依存、共现等关系。

四、网络结构设计

1、卷积

2、循环神经网络

3、长短期记忆网络-LSTM

4、一些实例

(1)情感分类器

(2)词性标注

(3)弧分解依存句法分析

http://www.dtcms.com/a/321503.html

相关文章:

  • ctfshow_萌新web9-web13-----rce
  • Java面试初中级:线程池的主要参数有哪些?
  • GridKernalGateway
  • 谷粒商城:检索服务
  • WSL 安装 Ubuntu
  • 50系显卡ubuntu20.04安装显卡驱动,解决gazebo不调用显卡的问题
  • 接口自动化-YAML
  • 【其他分类】Showrunner AI版的Netflix 互动故事创作平台 进行动画生成与微调、角色场景创建
  • A100用transformers推理gpt-oss
  • 【无标题】无名管道
  • (第二篇)spring cloud之Eureka注册中心
  • JDK、eclipse的安装,配置JDK、Tomcat并使用eclipse创建项目
  • SpringBoot 处理 RESTful 服务中的异常与错误
  • 我和 ChatGPT:一次用 AI 反观自己的技术成长之旅
  • Android 中解决 Button 按钮背景色设置无效的问题
  • Redis 7主从复制与哨兵模式搭建
  • k8s-nfs实现创建sc的两种方式
  • ConcurrentDictionary 详解:.NET 中的线程安全字典
  • 并发编程(五)ThreadLocal
  • 生产环境Tomcat运行一段时间后,如何测试其性能是否满足后续使用
  • Rust语言序列化和反序列化vec<u8>,serde库Serialize, Deserialize,bincode库(2025年最新解决方案详细使用)
  • AI 智能体框架:LlamaIndex
  • 国内如何使用体验到GPT-5呢?附GPT快速升级Plus计划保姆级教程
  • 大模型量化上溢及下溢解析
  • 达梦DMFLDR导出和导入的方法
  • 以任务为中心的智能推荐系统架构设计:原理、实现与挑战分析
  • 深入理解Java集合框架:核心接口、实现类与实战选择
  • Vue2中,Promise.all()调用多个接口的用法
  • Numpy科学计算与数据分析:Numpy文件操作入门之数组数据的读取和保存
  • 智慧社区(十)——声明式日志记录与小区地图功能实现