当前位置：首页 > news >正文

NLP语言发展路径分享

news 2025/8/18 11:11:21

自然语言处理初期发展历程

早期：离散表示

one-hot（只表达“有/无”，语义完全丢失）→ n-gram（局部上下文，但高维稀疏）→ TF-IDF（考虑词频与权重，但不能表达词关联），可见，缺点非常明显，达不到要求

过渡：分布式思想萌芽

LSA等降维尝试，引入“词语义空间”思想，但非神经网络。
突破：神经网络分布式表示

NNLM（深度学习自动学语义嵌入，训练慢）
word2vec（极大提高训练效率与质量，催生“词嵌入”大潮流）

主流趋势

低维、稠密、有语义的词向量成为自然语言理解基础，后续BERT等“上下文相关词向量”技术，是word2vec之后更高阶的语义学习。
理念从“词级one-hot”→“全局加权”→“上下文分布”→“深度学习自学表示”。

小结

one-hot、n-gram、TF-IDF：简单直观，但稀疏、高维、语义弱。
分布式表示、NNLM、word2vec：低维稠密，语义能力强，推动深度学习NLP大发展。
从one-hot到word2vec，是NLP词表示从“人工特征”到“自动语义学习”的质变。

发展过程中，案例展示

一,one-hot

基本的语意:

对文本的表示:

优缺点:

二、TF-IDF

基础公式描述

公式表达:

优缺点分析；

三、N-gram

基础语法表达:

优缺点:

语言模型:

离散表示:

四、分布式

表示方法表示:

优缺点:

共现矩阵的表达方式

表达方式:

表达案例:

优缺点:

公式展现

实现代码

技术实现优缺点:

五、NNLAM

样本案例:

公式:

优缺点:

六、word2vec

案例和算法图

二次方的概率:

PCA实现二维可视化

优缺点

http://www.dtcms.com/a/251589.html

相关文章：

ELK日志文件分析系统——补充(B——Beats)

ELK日志文件分析系统——K(Kibana)

Spring Boot诞生背景：从Spring的困境到设计破局

[windows工具]PDFOCR识别导出Excel工具1.1版本使用教程及注意事项

Linux之Python定制篇——新版Ubuntu24.04安装

Yocto vs Buildroot：SDK（软件开发套件）创建能力全面对比

一款完美适配不同屏幕宽度的电商网站UI解决方案

python蓝色动态线

Python打卡训练营Day54

《仿盒马》app开发技术分享-- 回收金提现记录查询（端云一体）

C++题解(35) 2025年顺德区中小学生程序设计展示活动（初中组C++）换位（一）

1.1、WDM基础

pyhton基础【9】容器介绍四

解析Buildroot

自增id用完怎么办？

Oracle21cR3之客户端安装错误及处理方法

京东API接口最新指南：店铺所有商品接口的接入与使用

Axure应用交互设计：多种类型元件实现新增中继器数据

一个应用程序或移动网站项目提供最佳UI解决方案

UnityDots学习（六）

【unitrix】 1.9 Z0与其它类型的算术运算(arith_ops.rs)

李沐--动手学深度学习 LSTM

前端错误捕获

模板方法模式Template Method Pattern

移动应用开发实验室web组大一下期末考核题解

Vela sensor uORB 框架学习

适配器模式Adapter Pattern

Java中如何使用lambda表达式分类groupby

STL容器分类总结

探索RAGFlow：解锁生成式AI的无限潜能（2/6）