当前位置: 首页 > news >正文

Improving Chinese Spelling Check by Character Pronunciation Prediction

(1)摘要

中文拼写纠错(CSC)是一项基础的自然语言处理(NLP)任务,旨在检测并纠正中文文本中的拼写错误。由于大多数拼写错误是由语音相似性导致的,因此有效建模汉字的发音是 CSC 成败的关键因素之一。本文考虑引入一个辅助任务——中文发音预测(CPP)来提升 CSC 表现,并首次系统性地讨论了该辅助任务的自适应性和细粒度性。我们提出了 SCOPE 模型,其基于一个共享编码器构建了两个并行的解码器:一个用于主任务 CSC,另一个用于细粒度的辅助任务 CPP
同时,我们设计了一种新颖的自适应权重机制来动态平衡这两个任务。此外,我们还提出了一种精巧的迭代纠错策略,用于在推理阶段进一步提高性能。实证评估表明,SCOPE 在三个 CSC 基准测试集上均取得了新的最先进性能(state-of-the-art),验证了辅助 CPP 任务的有效性和优越性。全面的消融实验进一步证实了辅助任务中自适应性和细粒度性的重要性。本文使用的代码和数据已公开发布在:https://github.com/jiahaozhenbang/SCOPE

(2)介绍

①中文拼写纠错(CSC)旨在检测并纠正中文文本中的拼写错误,是中文自然语言处理中的一项基础任务。拼写错误主要源于人类写作错误和机器识别错误随着深度神经网络的不断发展,基于神经网络的 CSC 方法,特别是基于编码器-解码器结构的方法,近年来已成为研究主流。编码器-解码器模型将 CSC 视为一种特殊的序列到序列(Seq2Seq)问题,即将一个包含拼写错误的句子作为输入,生成一个长度相同的纠正句子作为输出
②大约 76% 的中文拼写错误是由语音相似性引起的。因此,有效建模汉字发音对 CSC 任务而言至关重要。事实上,几乎所有当前先进的 CSC 方法都或显式、或隐式地利用了汉字发音信息隐式利用是指在字符对之间考虑语音相似性,显式利用则是指直接使用字符的拼音信息,将输入字符的拼音编码为额外的语音特征,或将目标字符的拼音解码作为辅助预测任务。本文同样尝试通过引入辅助的字符发音预测(CPP)任务来提升 CSC 表现,但着重于探讨此前从未系统研究过的两个关键方面:辅助任务的自适应性与细粒度性。
(1)自适应性:表 1 中所示的几个样本里,相较于第 4 个样本中**“蓝”与其正确形式“监”的差异**,第 1 个样本中“完”与“玩”在发音上更为相似所以应该给予辅助任务更大的权重
在这里插入图片描述
(2)细粒度:以往的研究主要着眼于预测汉字的完整拼音(例如“高”的拼音是“gao1”)。然而,一个汉语音节本质上由**声母(initial)、韵母(final)和声调(tone)**组成,例如“高”对应的就是“g”、“ao”和“1”。这种更细粒度的发音表示不仅更贴合汉语语音的内部规律,也能更准确地刻画汉字之间的语音相似性。例如在表 1 中的第 2 个样本中,“高”和“告”的完整拼音不同,但它们实际上具有相同的声母和韵母,仅在声调上有所区别
(3)设计了 SCOPE,它引入了一个细粒度的 CPP 辅助任务,并通过一个自适应任务加权机制来提升 CSC 表现。具体来说,SCOPE 首先接收一个包含拼写错误的句子作为输入,**用ChineseBERT对其进行编码,提取语义和语音特征。**然后,在共享编码器的基础上构建两个并行的解码器:一个用于生成目标正确字符(即主任务 CSC),另一个用于预测每个目标字符拼音的声母、韵母和声调(即辅助的细粒度 CPP 任务)
在这里插入图片描述

这两个任务之间的权重可以根据输入与目标字符之间的语音相似度,在每个样本级别上自适应地调整。

(3)模型

①建模的模型描述

在这里插入图片描述

②模型架构

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

②约束迭代纠错

基于预训练语言模型(如 BERT 和 ChineseBERT)的先进 CSC 模型在处理多错文本时表现不佳,常将原本正确表达过度纠正为更常见表达。为此,我们在推理阶段设计了一种简单但有效的约束迭代纠错策略:每个输入句子通过迭代方式进行错误检测与纠正。每次迭代中,仅允许在上一次迭代纠正位置的特定窗口范围内进行修改。若某位置在每轮都被修改,最终将恢复为原始字符而不予纠正。

③基于混淆集的进一步预训练:预训练之后再微调(用于提升初始化效果)

在这里插入图片描述

(4)实验

①数据集与评估方式

在这里插入图片描述
实验结果如下:
在这里插入图片描述

②基线方法

在这里插入图片描述

③基线方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.dtcms.com/a/237552.html

相关文章:

  • 快速了解:单北斗终端的定义、作用与好处!
  • 基于ROS2,撰写python脚本,根据给定的舵-桨动力学模型实现动力学更新
  • RD-Agent-Quant:一个以数据为中心的因素与模型联合优化的多智能体框架
  • ROS2,工作空间中新建了一个python脚本,需要之后作为节点运行。告诉我步骤?
  • Vibe Coding AI编程
  • 管道与进程间通信
  • FreeRTOS事件组-笔记
  • 抖音怎么下载视频?抖音怎么无水印下载别人的视频
  • LeetCode 08.06 面试题 汉诺塔 (Java)
  • springBoot 通过模板导出Excel文档的实现
  • 第一章 计算机系统构成及硬件基础知识
  • 基于Java的离散数学题库系统设计与实现:附完整源码与论文
  • Web前端基础:JavaScript
  • 混合云数据库连接问题:本地与云实例的兼容性挑战
  • AI推理服务的高可用架构设计
  • 如何区分 “通信网络安全防护” 与 “信息安全” 的考核重点?
  • 【JavaWeb】Docker项目部署
  • VirtualBox启动失败@Ubuntu22.04 说是配置文件有问题
  • 数组复制--System.arraycopy
  • Redis:现代应用开发的高效内存数据存储利器
  • 【HTTP三个基础问题】
  • 文件(保存)通讯录
  • win11无法打开.bat文件、打开.bat文件闪退解决方案,星露谷smapi mod安装时,.bat安装文件一闪而
  • 如何从浏览器中导出网站证书
  • bat批量去掉本文件夹中的文件扩展名
  • Windows 系统安装 Redis 详细教程
  • 辊式矫平机:金属板材的“整形大师”
  • 计算机基础知识(第五篇)
  • 在命令行直接执行可以执行成功,加入crontab定时任务执行shell脚本不成功失败的问题解决方法
  • 关于 汇编语言:1. 汇编语言基础