当前位置: 首页 > news >正文

NLP语言发展路径分享

自然语言处理初期发展历程

早期:离散表示

        one-hot(只表达“有/无”,语义完全丢失)→ n-gram(局部上下文,但高维稀疏)→ TF-IDF(考虑词频与权重,但不能表达词关联),可见,缺点非常明显,达不到要求

过渡:分布式思想萌芽

       LSA等降维尝试,引入“词语义空间”思想,但非神经网络。
突破:神经网络分布式表示

NNLM(深度学习自动学语义嵌入,训练慢)
word2vec(极大提高训练效率与质量,催生“词嵌入”大潮流)

主流趋势

       低维、稠密、有语义的词向量成为自然语言理解基础,后续BERT等“上下文相关词向量”技术,是word2vec之后更高阶的语义学习。
       理念从“词级one-hot”→“全局加权”→“上下文分布”→“深度学习自学表示”。

小结

       one-hot、n-gram、TF-IDF:简单直观,但稀疏、高维、语义弱。
分布式表示、NNLM、word2vec:低维稠密,语义能力强,推动深度学习NLP大发展。
     从one-hot到word2vec,是NLP词表示从“人工特征”到“自动语义学习”的质变。

发展过程中,案例展示

一,one-hot

基本的语意:

对文本的表示:

优缺点:

二、TF-IDF

基础公式描述

公式表达: 

优缺点分析; 

三、N-gram

基础语法表达:

优缺点: 

语言模型: 

离散表示:

四、分布式

表示方法表示:

优缺点:

共现矩阵的表达方式

表达方式:

表达案例: 

优缺点: 

公式展现 

实现代码 

技术实现优缺点: 

五、NNLAM

样本案例:

公式: 

优缺点: 

六、word2vec

案例和算法图

二次方的概率: 

 

PCA实现二维可视化 

 

优缺点 

相关文章:

  • ELK日志文件分析系统——补充(B——Beats)
  • ELK日志文件分析系统——K(Kibana)
  • Spring Boot诞生背景:从Spring的困境到设计破局
  • [windows工具]PDFOCR识别导出Excel工具1.1版本使用教程及注意事项
  • Linux之Python定制篇——新版Ubuntu24.04安装
  • Yocto vs Buildroot:SDK(软件开发套件)创建能力全面对比
  • 一款完美适配不同屏幕宽度的电商网站UI解决方案
  • python蓝色动态线
  • Python打卡训练营Day54
  • 《仿盒马》app开发技术分享-- 回收金提现记录查询(端云一体)
  • C++题解(35) 2025年顺德区中小学生程序设计展示活动(初中组C++) 换位(一)
  • 1.1、WDM基础
  • pyhton基础【9】容器介绍四
  • 解析Buildroot
  • 自增id用完怎么办?
  • Oracle21cR3之客户端安装错误及处理方法
  • 京东API接口最新指南:店铺所有商品接口的接入与使用
  • Axure应用交互设计:多种类型元件实现新增中继器数据
  • 一个应用程序或移动网站项目提供最佳UI解决方案
  • UnityDots学习(六)
  • 做视频网站服务器要求吗/外链互换平台
  • 网站升级公告模板/如何利用网络广告进行推广
  • 京东联盟 wordpress/seo职业技能培训班
  • 建站宝盒源码/今日最近的新闻大事10条
  • 网站的js效果代码大全/seo接单平台
  • 做电子商务网站的总结/网络推广是做什么工作的