当前位置：首页 > news >正文

NLP 分词技术学习

news 2025/7/3 21:11:48

文章目录

分词
- 1. 分词方法
- 2. 分词工具
- 3. 分词难点

分词

分词是将连续的中文字符串序列切分成有意义的词语序列的过程，是 NLP 的基础任务之一。需要掌握以下内容：

1. 分词方法

基于规则/词典的方法（字符串匹配）：
- 正向最大匹配法（MM）：从左到右扫描文本，匹配词典中最长的词。
- 逆向最大匹配法（RMM）：从右到左扫描文本，匹配词典中最长的词。
- 双向最大匹配法：结合正向和逆向匹配，选择更合理的切分方式。
  - 更合理：比如选择词数更少，或者单个词的长度最少的方法。
- 最短路径分词法：使切分后的词数最少。
基于统计的方法：
- 隐马尔可夫模型（HMM）：计算词语出现的概率，选择最优切分。
- 条件随机场（CRF）：考虑上下文信息，优化分词结果。
- 互信息（MI）：计算相邻字共现概率，判断是否成词。
基于深度学习的方法：
- BiLSTM-CRF：结合双向LSTM和CRF，提高分词准确性。
- BERT等预训练模型：利用Transformer架构进行端到端分词。

2. 分词工具

Jieba（Python）：支持最大匹配、HMM、自定义词典。
HanLP（Java/Python）：支持多种分词算法，如CRF、感知机等。
LTP（哈工大）：支持分词、词性标注等任务。

3. 分词难点

歧义切分（如“南京市长江大桥”可切分为“南京/市长/江大桥”或“南京市/长江大桥”）。
未登录词识别（如新词、专有名词）。
分词与NER的相互影响（如“苹果手机”是品牌名还是水果+手机？）。

http://www.dtcms.com/a/166513.html

相关文章：

Qwen 2.5 VL多模态模型的应用

力扣——20有效的括号

10、属性和数据处理---c++17

PCB设计工艺规范（二）基本布局要求

虚拟机centos7安装docker

第 12 届蓝桥杯 C++ 青少组中 / 高级组省赛 2021 年 4 月 24 日真题

深入掌握CSS背景图片：从基础到实战

hadoop集群建立

git 怎样把本地仓库推送到新建的远程仓库

Map系列之ConcurrentHashMap源码分析：高并发场景下的性能密码

DirectX12（D3D12）基础教程七深度模板视图\剔除\谓词

【Scrapy】简单项目实战--爬取dangdang图书信息

Java泛型（补档）

2025华东杯B题华东杯数学建模思路代码成品讲解工序安排问题

Learning vtkjs之ImageMarchingSquares

在Java中使用Files类的copy()方法复制文件的示例

Ubuntu20.04安装NVIDIA Warp

【数据结构】——顺序表刷题

Linux远程管理

WPACS基于HTML5的DICOM影像浏览

92.一个简单的输入与显示示例 Maui例子 C#例子

【计算机视觉】目标检测：深度解析MMDetection：OpenMMLab开源目标检测框架实战指南

C++中std::map、std::list和std::deque的底层实现是怎样的？

2025 新生 DL-FWI 培训

MT6765 android上层获取VCM lens位置

上海地区IDC机房服务器托管选型报告（2025年4月30日）

Power Automate:发送邮件时加入表格

pinia实现数据持久化插件pinia-plugin-persist-uni

w313安康学院新型冠状病毒肺炎疫情防控专题网站设计与实现

MySQL慢查询日志分析工具mysqldumpslow教程