共指消解问题的早期研究成果主要来自自然语 言处理领域
共指消解问题的早期研究成果主要来自自然语 言处理领域,近年来统计机器学习领域的学者越来 越多地参与到这项工作中.基于自然语言处理的共 指消解是以句法分析为基础的,代表性方法是Hobbs 算法和向心理论(centering theory).Hobbs算法是 最早的代词消解算法之一,主要思路是基于句法分 析树进行搜索,因此适用于实体与代词出现在同一 句子中的场景,有一定的局限性.早期的Hobbs算 法完全基于句法分析(朴素Hobbs算法),后来则加 入了语义分析并沿用至今“一.向心理论的基本思想 是:将表达模式(utterance)视为语篇(discourse)的 基本组成单元,通过识别表达模式中的实体,可以获 得当前和后续语篇中的关注中心(实体),根据语义 的局部连贯性和显著性,就可以在语篇中跟踪受关 注的实体“.向心理论的提出最初并不是为了解决 代词消解问题,而是为了对语篇中关注中心的局部 连贯性进行建模,因此它虽然一段时间内成为主要 的代词消解手段,但却不是最佳的理论模型.近年 来,学术界开始尝试在向心理论的基础上,利用词性 标注和语法分析技术,提高实体消解方法的适用范 围和准确性.例如I.appin等人[4豇基于句法分析和 词法分析技术提出了消解算法,能够识别语篇中的 万方数据 第3人称代词和反身代词等回指性代词在语篇中指的对象,其性能优于Hobbs算法和基于向心理论 的实体消解方法. 随着统计机器学习方法被引入该领域,共指消 解技术进入了快速发展阶段.McCarthy等人~拍3首 次将C4.5决策树算法应用于解决共指消解问题, 结果在MUC一5公开数据集的多数任务中均取得了 优胜.Bean等人一”。通过实验发现,语义背景知识对 于构造共指消解算法非常有帮助,他们利用Utah 大学发布的AutoSlog系统从原始语料中抽取实体 上下文模式信息,应用Dempster—Shafer概率模型 对实体模式进行建模,在2个公开数据集上(MUC一 4的恐怖主义数据集和路透社自然灾害新闻数据 集)分别取得了76%和87%的共指消解准确率. 除了将共指消解问题视为分类问题之外,还可 以将其作为聚类问题来求解.聚类法的基本思想是 以实体指称项为中心,通过实体聚类实现指称项与 实体对象的匹配.其关键问题是如何定义实体间的 相似性测度.Turney。拍j基于点互信息(pointwise mutual information,PMI)来求解实体所在文档的 相似度,并用于求解T()EFL和ESL考试中的同义 词测试问题,取得了74%的正确率.Cheng等人一-”j 通过对搜索引擎的查询和点击记录进行研究,发现 可以根据用户查询之后的点击行为对实体进行区 分.据此,通过查询和点击记录建立实体指称项与相 关网页URI。之间的关联,进而计算出实体指称项 之间的点击相似度(click similarity),结果表明该方 法能够有效实现共指消解,从而提高搜索覆盖率.