当前位置: 首页 > wzjs >正文

wordpress短信验证天津做优化好的公司

wordpress短信验证,天津做优化好的公司,b站视频推广网站动漫,做测试题的网站(1)摘要 ①中文拼写纠错(CSC)是一项基础的自然语言处理(NLP)任务,旨在检测并纠正中文文本中的拼写错误。由于大多数拼写错误是由语音相似性导致的,因此有效建模汉字的发音是 CSC 成…

(1)摘要

中文拼写纠错(CSC)是一项基础的自然语言处理(NLP)任务,旨在检测并纠正中文文本中的拼写错误。由于大多数拼写错误是由语音相似性导致的,因此有效建模汉字的发音是 CSC 成败的关键因素之一。本文考虑引入一个辅助任务——中文发音预测(CPP)来提升 CSC 表现,并首次系统性地讨论了该辅助任务的自适应性和细粒度性。我们提出了 SCOPE 模型,其基于一个共享编码器构建了两个并行的解码器:一个用于主任务 CSC,另一个用于细粒度的辅助任务 CPP
同时,我们设计了一种新颖的自适应权重机制来动态平衡这两个任务。此外,我们还提出了一种精巧的迭代纠错策略,用于在推理阶段进一步提高性能。实证评估表明,SCOPE 在三个 CSC 基准测试集上均取得了新的最先进性能(state-of-the-art),验证了辅助 CPP 任务的有效性和优越性。全面的消融实验进一步证实了辅助任务中自适应性和细粒度性的重要性。本文使用的代码和数据已公开发布在:https://github.com/jiahaozhenbang/SCOPE

(2)介绍

①中文拼写纠错(CSC)旨在检测并纠正中文文本中的拼写错误,是中文自然语言处理中的一项基础任务。拼写错误主要源于人类写作错误和机器识别错误随着深度神经网络的不断发展,基于神经网络的 CSC 方法,特别是基于编码器-解码器结构的方法,近年来已成为研究主流。编码器-解码器模型将 CSC 视为一种特殊的序列到序列(Seq2Seq)问题,即将一个包含拼写错误的句子作为输入,生成一个长度相同的纠正句子作为输出
②大约 76% 的中文拼写错误是由语音相似性引起的。因此,有效建模汉字发音对 CSC 任务而言至关重要。事实上,几乎所有当前先进的 CSC 方法都或显式、或隐式地利用了汉字发音信息隐式利用是指在字符对之间考虑语音相似性,显式利用则是指直接使用字符的拼音信息,将输入字符的拼音编码为额外的语音特征,或将目标字符的拼音解码作为辅助预测任务。本文同样尝试通过引入辅助的字符发音预测(CPP)任务来提升 CSC 表现,但着重于探讨此前从未系统研究过的两个关键方面:辅助任务的自适应性与细粒度性。
(1)自适应性:表 1 中所示的几个样本里,相较于第 4 个样本中**“蓝”与其正确形式“监”的差异**,第 1 个样本中“完”与“玩”在发音上更为相似所以应该给予辅助任务更大的权重
在这里插入图片描述
(2)细粒度:以往的研究主要着眼于预测汉字的完整拼音(例如“高”的拼音是“gao1”)。然而,一个汉语音节本质上由**声母(initial)、韵母(final)和声调(tone)**组成,例如“高”对应的就是“g”、“ao”和“1”。这种更细粒度的发音表示不仅更贴合汉语语音的内部规律,也能更准确地刻画汉字之间的语音相似性。例如在表 1 中的第 2 个样本中,“高”和“告”的完整拼音不同,但它们实际上具有相同的声母和韵母,仅在声调上有所区别
(3)设计了 SCOPE,它引入了一个细粒度的 CPP 辅助任务,并通过一个自适应任务加权机制来提升 CSC 表现。具体来说,SCOPE 首先接收一个包含拼写错误的句子作为输入,**用ChineseBERT对其进行编码,提取语义和语音特征。**然后,在共享编码器的基础上构建两个并行的解码器:一个用于生成目标正确字符(即主任务 CSC),另一个用于预测每个目标字符拼音的声母、韵母和声调(即辅助的细粒度 CPP 任务)
在这里插入图片描述

这两个任务之间的权重可以根据输入与目标字符之间的语音相似度,在每个样本级别上自适应地调整。

(3)模型

①建模的模型描述

在这里插入图片描述

②模型架构

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

②约束迭代纠错

基于预训练语言模型(如 BERT 和 ChineseBERT)的先进 CSC 模型在处理多错文本时表现不佳,常将原本正确表达过度纠正为更常见表达。为此,我们在推理阶段设计了一种简单但有效的约束迭代纠错策略:每个输入句子通过迭代方式进行错误检测与纠正。每次迭代中,仅允许在上一次迭代纠正位置的特定窗口范围内进行修改。若某位置在每轮都被修改,最终将恢复为原始字符而不予纠正。

③基于混淆集的进一步预训练:预训练之后再微调(用于提升初始化效果)

在这里插入图片描述

(4)实验

①数据集与评估方式

在这里插入图片描述
实验结果如下:
在这里插入图片描述

②基线方法

在这里插入图片描述

③基线方法

http://www.dtcms.com/wzjs/45163.html

相关文章:

  • 网站模板开发平台怎么做社群营销活动策划方案
  • apache网站拒绝访问郑州网站seo优化公司
  • 外贸php网站源码谷歌优化排名哪家强
  • github建wordpress正规seo关键词排名网络公司
  • 网站的代理页面怎么做的兰州seo外包公司
  • 网站建设思路设计地推平台去哪里找
  • 江苏公司网站建设网络营销渠道策略研究
  • 自己能否建设网站免费下载官方百度
  • 备案主体负责人 网站负责人网络科技公司经营范围
  • 最火爆的国际贸易网站怎么做网页宣传
  • 河池公司做网站长沙seo免费诊断
  • wordpress数据库更改账号密码seo优化专员工作内容
  • 室内设计师上网第一站seo短视频发布页
  • 文化馆互联网站建设方案互联网推广运营是做什么的
  • 唐山做网站的公司百度手机提高关键词排名
  • 摄影网站源码 国外如何做好一个营销方案
  • 常熟做网站推广的优化关键词有哪些方法
  • 线上推广引流是做网站吗it培训机构排行榜
  • 网站建设的搜索语句上海网站seo招聘
  • 删除西部数码网站管理助手百度一下百度主页
  • 帮别人做彩票网站吗网站推广软件
  • 阿里云上可以做网站吗上海培训机构
  • 影视logo免费设计seo网络推广怎么做
  • 精装房软装设计公司山西seo推广
  • 阳泉建设网站的公司2023年国家免费技能培训
  • 网站建设需要哪些东西站长工具排行榜
  • 万网域名注册官网中文域名优化官网咨询
  • 网站注册 优帮云如何自己做一个网页
  • 网站建设 网站新产品推广方案怎么写
  • ps教程自学网官网百度seo优化怎么做