当前位置：首页 > news >正文

【Pycorrector实战】：基于pycorrector进行智能纠错

news 2025/10/11 16:56:32

一、背景

最近做的项目里提到了一个需求，就是针对用户输入的文本要能够智能纠错，要可以识别到文本中有哪些错别字。针对这个需求在网上各种查资料，发现了pycorrector这个神器，感觉还是蛮好用的。这里记录下并且为了分享给各位小伙伴~，不喜勿喷，多谢~。

二、概述

pycorrector is a toolkit for text error correction. 文本纠错，中文文本纠错工具，支持中文音似、形似、语法错误纠正，python3.8开发。pycorrector实现了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、GPT等多种模型的文本纠错，评估各模型的效果，开箱即用。

三、正文

（一）、pycorrector体验

https://www.mulanai.com/product/corrector/#docs

详细介绍地址：https://shibing624.github.io/pycorrector/

Pycorrector执行对文本纠错是需要依赖模型的，模型列表如下：

（二）、pycorrector开源

https://github.com/shibing624/pycorrector

（三）、pycorrector安装

官方写的安装方式有3种：

方式1：直接安装

pip install -U pycorrector

方式2：基于源码安装

pip install -r requirements.txtgit clone https://github.com/shibing624/pycorrector.gitcd pycorrectorpip install --no-deps .

方式3：docker使用

docker run -it -v ~/.pycorrector:/root/.pycorrector shibing624/pycorrector:0.0.2

基于https://shibing624.github.io/pycorrector/这里提到的模型，准备下载一个

Kenlm-CSC模型，于是从https://huggingface.co/shibing624/chinese-kenlm-klm地址中进行下载，发现国内的网络访问不了huggingface。

由于我的Linux服务器可以上外网，基于目前的状况，于是选择了docker方式进行安装，直接执行下面命令：

docker run -it -v ~/.pycorrector:/root/.pycorrector shibing624/pycorrector:0.0.2

当执行之后，自动就把镜像下载下来了，如下：

（四）、pycorrector验证

1、错误检测-执行如下代码：

from pycorrector import Correctorm = Corrector()idx_errors = m.detect('少先队员因该为老人让坐')print(idx_errors)

如下效果：

当执行idx_errors = m.detect('少先队员因该为老人让坐')的时候自动就下载了模型，花了半个小时的时候终于把模型自动下载下来了，如下信息：

zh_giga.no_cna_cmn.prune01244.klm

接着执行：

print(idx_errors)

如下结果：

通过这个截图可以看出来，已经成功的找出来错别字了

[['因该', 4, 6, 'word'], ['坐', 10, 11, 'char']]

2、错误纠正-执行如下代码：

from pycorrector import Correctorm = Corrector()print(m.correct('少先队员因该为老人让坐'))

如下效果：

通过这个截图可以看出来，已经成功的纠正了

('少先队员应该为老人让座', [('因该', '应该', 4, 6), ('坐', '座', 10, 11)])

四、结束语

基于这里相关的能力，完全可以对中文文本进行错别字识别和智能纠错。

查看全文

http://www.dtcms.com/a/467597.html

个人博客网站搭建模板网站托管服务优帮云

php怎么网站开发诸城网站建设开发

呼和浩特做网站的公司福州品牌网站建设公司

时钟门控ICG单元的timing问题

2.8 提示词调优编码实战（三）

不注册公司可以做网站吗做瞹免费视频网站

做淘宝客网站难吗好用的h5制作软件

给公司做网站多钱五金表带厂东莞网站建设

上海做网站设计黑龙江建设厅网站孙宇

苏州工程网站建设网站建设服务便宜

手机网站空间代发关键词包收录

垫江网站建设无锡公共建设中心网站

广安发展建设集团公司网站培训机构网站开发

建筑建材网站设计费用广州网站建设易企

寻找新一代跨境数据传输解决方案

AMD显卡驱动怎么安装详细教程分享

网站的制作成品电子商务公司的经营范围有哪些

网站微信建设方案三字顺口公司名字

如何免费注册网站平台专业建站公司费用

品牌网站都有哪些建设通查询

网站关键词排名100做展示类网站

深入应用层协议定制：从确定通信内容到选择数据组织方式的完整攻略

苍山做网站网站上做旅游卖家要学什么

怎样制作一个个人网站建设一个网站的硬件要求吗

面向MCP协议API的智能测试框架：多源数据融合与协议自适应研究

医疗设备控制系统中同步与异步通信的架构设计

怎么上传网站iis世界500强企业名单排名

怎么做游戏网站编辑建设一个网站多少钱呢

建设网站dns如何设置做网站需要那些东西

服务器配置isaacsim报错没有图形化窗口/串流方案