当前位置: 首页 > news >正文

NLP 分词技术学习

文章目录

  • 分词
    • 1. 分词方法
    • 2. 分词工具
    • 3. 分词难点

分词

分词是将连续的中文字符串序列切分成有意义的词语序列的过程,是 NLP 的基础任务之一。需要掌握以下内容:

1. 分词方法

  • 基于规则/词典的方法(字符串匹配)

    • 正向最大匹配法(MM):从左到右扫描文本,匹配词典中最长的词。
    • 逆向最大匹配法(RMM):从右到左扫描文本,匹配词典中最长的词。
    • 双向最大匹配法:结合正向和逆向匹配,选择更合理的切分方式。
      • 更合理:比如选择词数更少,或者单个词的长度最少的方法。
    • 最短路径分词法:使切分后的词数最少。
  • 基于统计的方法

    • 隐马尔可夫模型(HMM):计算词语出现的概率,选择最优切分。
    • 条件随机场(CRF):考虑上下文信息,优化分词结果。
    • 互信息(MI):计算相邻字共现概率,判断是否成词。
  • 基于深度学习的方法

    • BiLSTM-CRF:结合双向LSTM和CRF,提高分词准确性。
    • BERT等预训练模型:利用Transformer架构进行端到端分词。

2. 分词工具

  • Jieba(Python):支持最大匹配、HMM、自定义词典。
  • HanLP(Java/Python):支持多种分词算法,如CRF、感知机等。
  • LTP(哈工大):支持分词、词性标注等任务。

3. 分词难点

  • 歧义切分(如“南京市长江大桥”可切分为“南京/市长/江大桥”或“南京市/长江大桥”)。
  • 未登录词识别(如新词、专有名词)。
  • 分词与NER的相互影响(如“苹果手机”是品牌名还是水果+手机?)。

相关文章:

  • Qwen 2.5 VL多模态模型的应用
  • 力扣——20有效的括号
  • 10、属性和数据处理---c++17
  • PCB设计工艺规范(二)基本布局要求
  • 虚拟机centos7安装docker
  • 第 12 届蓝桥杯 C++ 青少组中 / 高级组省赛 2021 年 4 月 24 日真题
  • 深入掌握CSS背景图片:从基础到实战
  • hadoop集群建立
  • git 怎样把本地仓库推送到新建的远程仓库
  • Map系列之ConcurrentHashMap源码分析:高并发场景下的性能密码
  • DirectX12(D3D12)基础教程七 深度模板视图\剔除\谓词
  • 【Scrapy】简单项目实战--爬取dangdang图书信息
  • Java泛型(补档)
  • 2025华东杯B题华东杯数学建模思路代码成品讲解工序安排问题
  • Learning vtkjs之ImageMarchingSquares
  • 在Java中使用Files类的copy()方法复制文件的示例
  • Ubuntu20.04安装NVIDIA Warp
  • 【数据结构】——顺序表刷题
  • Linux远程管理
  • WPACS基于HTML5的DICOM影像浏览
  • 西湖大学2025年上海市综合评价招生简章发布
  • 2025五一档首日电影票房破亿
  • 全文丨中华人民共和国民营经济促进法
  • 深观察丨从“不建议将导师挂名为第一作者”说开去
  • 阿迪达斯一季度营收增近13%,称美国加征关税对业绩带来不确定性
  • 大型长读长RNA测序数据集发布,有助制定精准诊疗策略