当前位置: 首页 > news >正文

【Pycorrector实战】:基于pycorrector进行智能纠错

一、背景

最近做的项目里提到了一个需求,就是针对用户输入的文本要能够智能纠错,要可以识别到文本中有哪些错别字。针对这个需求在网上各种查资料,发现了pycorrector这个神器,感觉还是蛮好用的。这里记录下并且为了分享给各位小伙伴~,不喜勿喷,多谢~。

二、概述

pycorrector is a toolkit for text error correction. 文本纠错,中文文本纠错工具,支持中文音似、形似、语法错误纠正,python3.8开发。pycorrector实现了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、GPT等多种模型的文本纠错,评估各模型的效果,开箱即用。

三、正文

(一)、pycorrector体验

https://www.mulanai.com/product/corrector/#docs

详细介绍地址:https://shibing624.github.io/pycorrector/

Pycorrector执行对文本纠错是需要依赖模型的,模型列表如下:

(二)、pycorrector开源

https://github.com/shibing624/pycorrector

(三)、pycorrector安装

官方写的安装方式有3种:

方式1:直接安装

pip install -U pycorrector

方式2:基于源码安装

pip install -r requirements.txtgit clone https://github.com/shibing624/pycorrector.gitcd pycorrectorpip install --no-deps .

方式3:docker使用

docker run -it -v ~/.pycorrector:/root/.pycorrector shibing624/pycorrector:0.0.2

基于https://shibing624.github.io/pycorrector/这里提到的模型,准备下载一个

Kenlm-CSC模型,于是从https://huggingface.co/shibing624/chinese-kenlm-klm地址中进行下载,发现国内的网络访问不了huggingface。

由于我的Linux服务器可以上外网,基于目前的状况,于是选择了docker方式进行安装,直接执行下面命令:

docker run -it -v ~/.pycorrector:/root/.pycorrector shibing624/pycorrector:0.0.2

当执行之后,自动就把镜像下载下来了,如下:

(四)、pycorrector验证

1、错误检测-执行如下代码:

from pycorrector import Correctorm = Corrector()idx_errors = m.detect('少先队员因该为老人让坐')print(idx_errors)

如下效果:

当执行idx_errors = m.detect('少先队员因该为老人让坐')的时候自动就下载了模型,花了半个小时的时候终于把模型自动下载下来了,如下信息:

zh_giga.no_cna_cmn.prune01244.klm

接着执行:

print(idx_errors)

如下结果:

通过这个截图可以看出来,已经成功的找出来错别字了

[['因该', 4, 6, 'word'], ['坐', 10, 11, 'char']]

2、错误纠正-执行如下代码:

from pycorrector import Correctorm = Corrector()print(m.correct('少先队员因该为老人让坐'))

如下效果:

通过这个截图可以看出来,已经成功的纠正了

('少先队员应该为老人让座', [('因该', '应该', 4, 6), ('坐', '座', 10, 11)])

四、结束语

基于这里相关的能力,完全可以对中文文本进行错别字识别和智能纠错。

http://www.dtcms.com/a/467597.html

相关文章:

  • 个人博客网站搭建模板网站托管服务 优帮云
  • php怎么网站开发诸城网站建设开发
  • 呼和浩特做网站的公司福州品牌网站建设公司
  • 时钟门控ICG单元的timing问题
  • 2.8 提示词调优编码实战(三)
  • 不注册公司可以做网站吗做瞹免费视频网站
  • 做淘宝客网站难吗好用的h5制作软件
  • 给公司做网站多钱五金表带厂东莞网站建设
  • 上海做网站设计黑龙江建设厅网站 孙宇
  • 苏州工程网站建设网站建设服务便宜
  • 手机网站空间代发关键词包收录
  • 垫江网站建设无锡公共建设中心网站
  • 广安发展建设集团公司网站培训机构网站开发
  • 建筑建材网站设计费用广州网站建设易企
  • 寻找新一代跨境数据传输解决方案
  • AMD显卡驱动怎么安装 详细教程分享
  • 网站的制作成品电子商务公司的经营范围有哪些
  • 网站微信建设方案三字顺口公司名字
  • 如何免费注册网站平台专业建站公司费用
  • 品牌网站都有哪些建设通查询
  • 网站关键词排名100做展示类网站
  • 深入应用层协议定制:从确定通信内容到选择数据组织方式的完整攻略
  • 苍山做网站网站上做旅游卖家要学什么
  • 怎样制作一个个人网站建设一个网站的硬件要求吗
  • 面向MCP协议API的智能测试框架:多源数据融合与协议自适应研究
  • 医疗设备控制系统中同步与异步通信的架构设计
  • 怎么上传网站iis世界500强企业名单排名
  • 怎么做游戏网站编辑建设一个网站多少钱呢
  • 建设网站dns如何设置做网站需要那些东西
  • 服务器配置isaacsim报错没有图形化窗口/串流方案