当前位置: 首页 > wzjs >正文

什么是网站快照WordPress如何加代码

什么是网站快照,WordPress如何加代码,wordpress设置html,柳州 网站推广(1)摘要 ①中文拼写纠错(CSC)是一项基础的自然语言处理(NLP)任务,旨在检测并纠正中文文本中的拼写错误。由于大多数拼写错误是由语音相似性导致的,因此有效建模汉字的发音是 CSC 成…

(1)摘要

中文拼写纠错(CSC)是一项基础的自然语言处理(NLP)任务,旨在检测并纠正中文文本中的拼写错误。由于大多数拼写错误是由语音相似性导致的,因此有效建模汉字的发音是 CSC 成败的关键因素之一。本文考虑引入一个辅助任务——中文发音预测(CPP)来提升 CSC 表现,并首次系统性地讨论了该辅助任务的自适应性和细粒度性。我们提出了 SCOPE 模型,其基于一个共享编码器构建了两个并行的解码器:一个用于主任务 CSC,另一个用于细粒度的辅助任务 CPP
同时,我们设计了一种新颖的自适应权重机制来动态平衡这两个任务。此外,我们还提出了一种精巧的迭代纠错策略,用于在推理阶段进一步提高性能。实证评估表明,SCOPE 在三个 CSC 基准测试集上均取得了新的最先进性能(state-of-the-art),验证了辅助 CPP 任务的有效性和优越性。全面的消融实验进一步证实了辅助任务中自适应性和细粒度性的重要性。本文使用的代码和数据已公开发布在:https://github.com/jiahaozhenbang/SCOPE

(2)介绍

①中文拼写纠错(CSC)旨在检测并纠正中文文本中的拼写错误,是中文自然语言处理中的一项基础任务。拼写错误主要源于人类写作错误和机器识别错误随着深度神经网络的不断发展,基于神经网络的 CSC 方法,特别是基于编码器-解码器结构的方法,近年来已成为研究主流。编码器-解码器模型将 CSC 视为一种特殊的序列到序列(Seq2Seq)问题,即将一个包含拼写错误的句子作为输入,生成一个长度相同的纠正句子作为输出
②大约 76% 的中文拼写错误是由语音相似性引起的。因此,有效建模汉字发音对 CSC 任务而言至关重要。事实上,几乎所有当前先进的 CSC 方法都或显式、或隐式地利用了汉字发音信息隐式利用是指在字符对之间考虑语音相似性,显式利用则是指直接使用字符的拼音信息,将输入字符的拼音编码为额外的语音特征,或将目标字符的拼音解码作为辅助预测任务。本文同样尝试通过引入辅助的字符发音预测(CPP)任务来提升 CSC 表现,但着重于探讨此前从未系统研究过的两个关键方面:辅助任务的自适应性与细粒度性。
(1)自适应性:表 1 中所示的几个样本里,相较于第 4 个样本中**“蓝”与其正确形式“监”的差异**,第 1 个样本中“完”与“玩”在发音上更为相似所以应该给予辅助任务更大的权重
在这里插入图片描述
(2)细粒度:以往的研究主要着眼于预测汉字的完整拼音(例如“高”的拼音是“gao1”)。然而,一个汉语音节本质上由**声母(initial)、韵母(final)和声调(tone)**组成,例如“高”对应的就是“g”、“ao”和“1”。这种更细粒度的发音表示不仅更贴合汉语语音的内部规律,也能更准确地刻画汉字之间的语音相似性。例如在表 1 中的第 2 个样本中,“高”和“告”的完整拼音不同,但它们实际上具有相同的声母和韵母,仅在声调上有所区别
(3)设计了 SCOPE,它引入了一个细粒度的 CPP 辅助任务,并通过一个自适应任务加权机制来提升 CSC 表现。具体来说,SCOPE 首先接收一个包含拼写错误的句子作为输入,**用ChineseBERT对其进行编码,提取语义和语音特征。**然后,在共享编码器的基础上构建两个并行的解码器:一个用于生成目标正确字符(即主任务 CSC),另一个用于预测每个目标字符拼音的声母、韵母和声调(即辅助的细粒度 CPP 任务)
在这里插入图片描述

这两个任务之间的权重可以根据输入与目标字符之间的语音相似度,在每个样本级别上自适应地调整。

(3)模型

①建模的模型描述

在这里插入图片描述

②模型架构

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

②约束迭代纠错

基于预训练语言模型(如 BERT 和 ChineseBERT)的先进 CSC 模型在处理多错文本时表现不佳,常将原本正确表达过度纠正为更常见表达。为此,我们在推理阶段设计了一种简单但有效的约束迭代纠错策略:每个输入句子通过迭代方式进行错误检测与纠正。每次迭代中,仅允许在上一次迭代纠正位置的特定窗口范围内进行修改。若某位置在每轮都被修改,最终将恢复为原始字符而不予纠正。

③基于混淆集的进一步预训练:预训练之后再微调(用于提升初始化效果)

在这里插入图片描述

(4)实验

①数据集与评估方式

在这里插入图片描述
实验结果如下:
在这里插入图片描述

②基线方法

在这里插入图片描述

③基线方法

http://www.dtcms.com/wzjs/833361.html

相关文章:

  • 3g版网站制作wordpress如何设置商城
  • 网站建设方案书 内容管理制度电商货源网站大全
  • 2021网站你懂我意思正能量郑州最新情况
  • 力洋网站建设公司商业网站开发
  • 怎么免费建设自己网站今天东莞封路
  • 徐州市 两学一做网站官方入口
  • 微信自媒体网站建设宁波企业网站搭建图片
  • 什么是营销型企业网站旅游景区规划设计公司
  • 销售网站设计搜索引擎查询
  • 公司网站制作都需要图片网站建设合同详细
  • 网站续费模版什么网站建设最便宜
  • 哪里有免费网站空间申请哪家做的濮阳网站建设
  • 青岛建设集团网站常州城乡建设局网站
  • 实体店面做网站推广要多少钱销售型企业有哪些公司
  • 在游戏网站做中介合法中小企业管理培训班
  • 最佳经验网站网站建设服务器如何选择
  • 开发网站的过程福建住房和城乡建设部网站
  • 建立网站要花多少钱外贸公司取什么名字好
  • 做网站需要多少空间阳信县住房和城乡建设局网站
  • 网站建设兼职招聘织梦怎么建设论坛网站
  • 海南建设银行官方网站宁波市市建设法规颁发网站
  • 济宁鱼台网站建设深圳seo公司
  • 网站备案信息批量查询网站建设问题新闻资讯
  • 做携程网站的技术中国手机最好的网站排名
  • 烟台网站建设联系电话华亭县建设局网站2017
  • 个人备案企业网站经典的jq查询网站
  • 网站备案登记做品牌网站哪个好用
  • 上海html5网站建设wordpress 轻云
  • 常州微信网站建设网站建设与运营的公司
  • 熊掌号怎么域名做网站深圳住房和建设部网站