当前位置: 首页 > news >正文

文本内时序关系抽取_2(数据集以及论文讲解)

文章目录

  • 一、TimeBank(及 TimeML 标注体系)
    • 总体定位
    • 数据结构与标注内容
    • 任务与应用
    • 下载与使用
  • 二、Causal-TimeBank(基于 TimeBank 的因果标注扩展)
    • 数据结构与标注内容
    • 任务与应用
    • 下载与使用
  • 三、TDDiscourse(Discourse-Level Temporal Ordering of Events)
    • 总体定位
    • 数据结构与标注内容
    • 下载与使用
  • 小结:三者的逻辑演进
    • 🕐 一、TimeBank —— 时序关系抽取(Temporal Relation Extraction)基线论文
      • 📄 Baseline 论文 1:
        • 🧭 背景
        • 🧩 方法核心
        • ⚙️ 模型结构
        • 📊 实验结果
        • 💡 影响
      • 📄 Baseline 论文 2:
        • 🧭 背景
        • 🧩 方法核心
        • ⚙️ 模型结构
        • 📊 实验结果
        • 💡 影响
    • ⚙️ 二、Causal-TimeBank —— 因果+时序联合抽取基线论文
      • 📄 Baseline 论文 1:
        • 🧭 背景
        • 🧩 方法核心
        • ⚙️ 特征设计
        • 📊 实验结果
        • 💡 影响
      • 📄 Baseline 论文 2:
        • 🧭 背景
        • 🧩 方法核心
        • ⚙️ 模型架构
        • 📊 实验结果
        • 💡 影响
    • 📘 三、TDDiscourse —— 篇章级时序关系基线论文
      • 📄 Baseline 论文:
        • 🧭 背景
        • 🧩 方法核心
        • ⚙️ 模型结构
        • 📊 实验结果
        • 💡 影响
    • 📊 总表:三大数据集的Baseline论文概览
    • 🧭 推荐阅读顺序(如果你准备论文或项目)

TimeBank → Causal-TimeBank → TDDiscourse


一、TimeBank(及 TimeML 标注体系)

总体定位

  • 起点性语料:TimeBank 是整个“时间信息抽取 (Temporal Information Extraction)”研究的起点,也是 TimeML 标注体系的首个标准语料。

  • 首次系统定义了:

    • 事件 (EVENT)
    • 时间表达 (TIMEX3)(如“昨天”“2001年9月11日”)
    • 时序关系 (TLINK)(如 BEFORE / AFTER / INCLUDES / SIMULTANEOUS)
  • Pustejovsky et al. (2003) 提出,与 TimeML 标注标准共同发布。

数据结构与标注内容

  • 数据类型:约 183 篇新闻文本(主要来自 WSJ、AP、CNN)。

  • 标注层次:

    元素含义示例
    EVENT表示一个发生的事件或状态<EVENT eid="e1" class="OCCURRENCE">resigned</EVENT>
    TIMEX3明确的时间表达式<TIMEX3 tid="t1" type="DATE" value="2001-09-11">September 11</TIMEX3>
    SIGNAL连接时间关系的信号词“before”, “after”, “when”, “as soon as” 等
    TLINK时间关系(事件–事件 / 事件–时间)<TLINK eventInstanceID="ei1" relatedToTime="t1" relType="BEFORE"/>
  • 标注格式:XML(遵循 TimeML schema)。
    每篇文本都有 .tml 文件,包含文本 + 标注层。

任务与应用

  • 核心任务:Temporal Relation Extraction (TempRel)

    • 输入:一段文本中事件与时间表达。
    • 输出:事件对之间的时间关系(BEFORE / AFTER / INCLUDES …)。
  • 评测数据集:TimeBank 以及 TimeBank-Dense、AQUAINT 等被广泛用作时序预测的标准评测基线。

  • 研究意义

    • 建立统一语义框架,使不同系统可比较。
    • 推动时序抽取由规则走向机器学习。

下载与使用

  • 官方站点:https://timeml.github.io/site/timebank/timebank.html

  • 语料来源:LDC (Linguistic Data Consortium)

    • 数据集名称:LDC2006T08 (“TimeBank 1.2”)
    • 获取方式:需通过 LDC 订阅或机构访问权限。
  • 配套工具

    • TimeML Parser / TARSQI Toolkit(开源)可解析 .tml 文件。
    • 研究者常基于此进行自动化事件与关系抽取实验。

二、Causal-TimeBank(基于 TimeBank 的因果标注扩展)

##总体定位

  • TimeBank 的“因果扩展版”(Paramita Mirza 等,2014)。
  • 目标:把“因果关系(CLINK)”引入 TimeBank 的生态,使因果与时序两种关系共存、可联合研究。
  • 意义:首次让研究者可以同时训练/评测 “因果—时序联动” 模型。

数据结构与标注内容

  • 在 TimeBank 的基础上增加 CLINK(Causal Link) 层。

    • 每个 CLINK 表示 “事件 A 导致事件 B”。

    • 例如:

      <CLINK eventInstanceID="ei1" relatedToEvent="ei2" relType="CLINK"/>
      
    • 通常因果关系隐含时间先后(因→果 应 BEFORE)。

  • 语料规模:约 318 篇新闻(TimeBank+附加文本)。

  • 标注对象:

    • 因果关系来自句内及近句事件。
    • 部分标注包括显式信号词(because, due to, as a result of)。

任务与应用

  • 核心任务

    1. Causal Relation Extraction (CRE)

      • 判断两事件之间是否存在因果关系。
    2. Temporal + Causal 联合建模

      • 例如 CATENA 框架:用 “因果 ⇒ 时间先后” 作为一致性约束。
  • 典型研究引用

    • CATENA: Causal and Temporal Relation Extraction from Natural Language Texts (ACL 2016)
    • Mirza & Tonelli 2014 (ACL 2014)

下载与使用

  • 官方仓库:
    🔗 https://github.com/paramitamirza/Causal-TimeBank

  • 内容结构:

    /data/Causal-TimeBank/*.tml  (含 TimeML + CLINK 标注)README.md (标注说明)
    
  • 开放许可:完全公开,可直接下载。

  • 使用建议

    • 与 TimeBank 一样,可用 TARSQI 或自写解析器提取 EVENT/CLINK。
    • 适合验证 “因果 → 时序一致性” 的约束性建模。

三、TDDiscourse(Discourse-Level Temporal Ordering of Events)

总体定位

  • 提出者:Aakanksha Naik 等(EMNLP 2019)。

  • 目标:突破早期语料只标注句内或相邻事件的问题,扩展到篇章级(跨句/远距离)

  • 特点:

    • 每个样本是一对事件,可能来自同一句、相邻句,甚至相隔多句。
    • 强调全局一致性和长距离依赖,是 TempRel 研究的里程碑。

数据结构与标注内容

  • 来源语料:新闻文本(News Discourse)。

  • 标注形式:

    • 事件对 (e₁, e₂) 之间的关系:BEFORE / AFTER / OVERLAP / VAGUE。
    • 采用类似 TimeML 语义,但聚焦于事件对层面。
  • 数据规模:

    • 约 25k 事件对,覆盖 1,100 篇新闻文档。
    • 标注者为语言学专业人员;IAA 较高。
  • 数据组织:

    /data/TDDiscourse/train.jsondev.jsontest.json
    

    每条样本记录事件 ID、上下文句子、标注标签等。

##任务与应用

  • 核心任务

    • 篇章级时序关系分类(Temporal Relation Classification at Discourse Level)。
  • 研究价值

    • 推动模型从局部 pairwise 关系向全局一致性建模转变。
    • 为图结构推理(ILP、PSL、Graph-based Reasoning)提供实验场。
    • 适合研究 “全局一致性 / 长距离依赖 / 不确定性推理”
  • 典型模型参考

    • Naik et al., EMNLP 2019 原论文基线(BiLSTM + BERT)。
    • 后续研究:GCN、ILP 约束、Global Decoding 等。

下载与使用

  • 官方 GitHub:
    🔗 https://github.com/aakanksha19/TDDiscourse

  • 文件说明:

    • 包含标注数据、预处理脚本、基线模型(BERT)。
  • 许可:MIT License,完全可复现。

  • 使用建议

    • 用于评测篇章级时序模型的鲁棒性。
    • 可与 MATRES 或 Causal-TimeBank 联合,用于统一建模或迁移学习。

小结:三者的逻辑演进

阶段数据集研究重点创新点开放情况
🅰️TimeBank事件–时间–关系的统一语义框架首个 TimeML 标准LDC(半开放)
🅱️Causal-TimeBank因果 + 时序联合标注引入 CLINK(因果关系)GitHub 开源
🅲TDDiscourse篇章级远距离时序跨句长依赖、一致性推理GitHub 开源

代表性baseline论文,**详细介绍


🕐 一、TimeBank —— 时序关系抽取(Temporal Relation Extraction)基线论文

📄 Baseline 论文 1:

“Tempeval-3: Evaluating Time Expressions, Events, and Temporal Relations”
Verhagen et al., SemEval 2013

🧭 背景

TimeBank 是所有 TempEval 任务的基础语料(特别是 TimeBank-Dense 与 AQUAINT)。
Tempeval-3 比赛确立了最具代表性的 TimeBank 基线体系。

🧩 方法核心

Tempeval-3 的参赛系统普遍遵循三步框架:

  1. 事件与时间识别 (Event/TIMEX Extraction):通过 CRF 或规则抽取事件与时间表达。
  2. 特征工程 + 分类器 (Relation Classification):对 (event₁, event₂) 事件对构造语法、距离、词汇等特征,用 SVM / MaxEnt 分类。
  3. 全局一致性约束 (Global Inference):采用 ILP(Integer Linear Programming)强制“BEFORE-TRANSITIVE”等逻辑一致性。
⚙️ 模型结构
  • 词法 + 句法 + 语义特征
  • 二元分类器(如 SVM)
  • ILP 优化推理模块
  • 输出:每对事件之间的关系标签(BEFORE / AFTER / INCLUDES / VAGUE)
📊 实验结果
  • 数据:TimeBank-Dense(扩展自 TimeBank)
  • F1 ≈ 35–45%(当时的水平)
  • SOTA 系统 ClearTK 与 NavyTime 作为强基线。
💡 影响
  • 定义了时序抽取任务的评测体系与指标(precision / recall / F1 per relation type)
  • 后续所有深度模型(如 CAEVO、CATENA、TIMERS)都以其为起点。

📄 Baseline 论文 2:

“CAevo: A Causal and Temporal Relation Extraction System”
Chambers et al., TACL 2014

🧭 背景

在 TimeBank 的基础上提出“逐层推理(Sieve-based architecture)”,整合规则、机器学习与逻辑约束。

🧩 方法核心
  • 将关系抽取分成多层筛子 (sieve):

    1. 明确信号词(before, after)
    2. 句法线索(temporal clauses)
    3. learned classifiers
    4. 全局 consistency constraints
  • 每层逐步填充事件对关系,后层只补充缺失部分。

⚙️ 模型结构
  • 模块式结构:规则 + ML + ILP
  • 使用 TimeBank 语料训练
  • 可同时推断句内与跨句关系。
📊 实验结果
  • 在 TimeBank-Dense 上,F1 达 0.40 左右
  • 展示了逻辑一致性显著提高结果质量。
💡 影响
  • CAEVO 成为很多后续模型的基线框架(如 CATENA)。
  • 它的思想启发了“因果→时序一致性”推理。

⚙️ 二、Causal-TimeBank —— 因果+时序联合抽取基线论文

📄 Baseline 论文 1:

“An Annotated Corpus for Causality”
Paramita Mirza & Sara Tonelli, ACL 2014

🧭 背景

首次在 TimeBank 的 TimeML 标注上添加因果关系层 (CLINK),形成 Causal-TimeBank。
目标:建立统一的时序-因果研究语料。

🧩 方法核心
  • 提出自动识别事件因果关系的系统。

  • 方法框架

    1. 抽取所有事件对;
    2. 利用词汇线索(because, due to, cause, result in);
    3. 结合句法依存路径、语义距离等特征;
    4. 训练 SVM 二分类器判断是否 CLINK。
⚙️ 特征设计
  • Lexical cues(显式因果词)
  • Dependency path features(依存路径)
  • Event attributes(动词类型、语义类)
  • Discourse connectives(话语连接词)
📊 实验结果
  • 数据:Causal-TimeBank(共 318 篇文档)
  • F1 ≈ 0.54(句内因果识别)
  • 显示加入句法特征能显著提升性能。
💡 影响
  • 奠定了“Causal Relation Extraction”研究的起点。
  • 成为后续 CATENA、EventStoryLine 等任务的标准基线。

📄 Baseline 论文 2:

“CATENA: Causal and Temporal Relation Extraction from Natural Language Texts”
Paramita Mirza & Benno Stein, ACL 2016

🧭 背景

在 Causal-TimeBank 基础上提出联合建模系统 CATENA,同时识别时序 (TLINK) 与因果 (CLINK),并通过逻辑约束联合推理。

🧩 方法核心
  1. 分别训练时序分类器与因果分类器;

  2. 建立推理规则:

    • 若 e₁ causes e₂ → e₁ BEFORE e₂
    • 若 e₁ AFTER e₂ → 不可能 e₁ causes e₂
  3. 通过 ILP 实现一致性优化,输出联合预测。

⚙️ 模型架构
  • 特征工程:句法 + 词汇 + 分布式向量 + 因果信号词
  • 模块式:Temporal module + Causal module + Inference layer
  • 约束优化:ILP 全局推理。
📊 实验结果
  • 数据:Causal-TimeBank
  • 因果抽取 F1 ≈ 0.56;联合一致性任务 F1 ≈ 0.45
  • 相比独立任务提升约 10%。
💡 影响
  • CATENA 是迄今最著名的“因果-时序联合”框架。
  • 成为后续神经网络和图推理模型的标准 baseline(如 TACL 2019 的 GCN 版本)。

📘 三、TDDiscourse —— 篇章级时序关系基线论文

📄 Baseline 论文:

“TDDiscourse: A Dataset for Discourse-Level Temporal Ordering of Events”
Aakanksha Naik, Carolyn Rosé, Yulia Tsvetkov, EMNLP 2019

🧭 背景

早期 TimeBank / MATRES 等数据集多局限句内或相邻句。
TDDiscourse 旨在扩展到篇章层面,使模型能学习跨句的全局时间顺序。

🧩 方法核心

提出了一个基于上下文的双阶段模型

  1. 事件编码阶段

    • 使用 BERT 表示每个事件及其上下文(句级、段级)。
  2. 关系预测阶段

    • 输入事件对(eᵢ, eⱼ),拼接两事件向量及上下文信息;
    • 使用双向 LSTM + MLP 分类器预测关系标签:BEFORE / AFTER / OVERLAP / VAGUE。
⚙️ 模型结构
  • Encoder: BERT-base (contextualized embeddings)
  • Classifier: BiLSTM + Dense Layer
  • Loss: Cross-Entropy
  • Optional Global Constraints: soft consistency rules (transitivity)。
📊 实验结果
  • 数据集:TDDiscourse

  • 准确率:

    • Sentence-internal pairs: ~72%
    • Cross-sentence pairs: ~55%
  • 分析:性能随句距增加明显下降,表明篇章级推理更困难。

💡 影响
  • 成为“篇章级时序抽取”的第一个基准数据集与模型。
  • 之后的 TIMERS (ACL 2022)、TEMPGEN (2023) 等工作都在其上扩展。
  • 为大模型时代的全篇时序理解任务提供基础。

📊 总表:三大数据集的Baseline论文概览

数据集Baseline论文核心方法特征/模型结构F1或Acc.影响
TimeBankTempeval-3 (SemEval’13)CRF+SVM+ILP手工特征+全局一致性~40%确立评测标准
TimeBankCAEVO (TACL’14)Sieve推理系统模块式规则+学习+逻辑~40%时序抽取经典基线
Causal-TimeBankMirza & Tonelli (ACL’14)因果关系分类词汇+句法+SVM~54%首个因果关系语料
Causal-TimeBankCATENA (ACL’16)因果-时序联合建模双分类器+ILP约束~45–56%联合建模标准框架
TDDiscourseNaik et al. (EMNLP’19)BERT+BiLSTM分类器上下文编码+句距特征~55–72%篇章级时序抽取起点

🧭 推荐阅读顺序(如果你准备论文或项目)

  1. [Tempeval-3 + CAEVO] → 理解时序关系的传统特征工程与逻辑一致性。
  2. [Causal-TimeBank + CATENA] → 学会联合因果与时序的推理框架。
  3. [TDDiscourse] → 拓展至篇章级时序理解(现代BERT基线)。

http://www.dtcms.com/a/508573.html

相关文章:

  • 河南国基建设集团有限公司网站软件开发技术流程图
  • 网站做支付宝 微信模块网优工程师前景和待遇
  • h5游戏免费下载:兔子快跑
  • 我想来做外贸网站来推广网站交互性
  • 中国室内设计网站排名中国建设银行内部网站
  • 做ppt会去什么网站找图有什么网站是python做的
  • 陕西荣天建设网站什么网站可以做告白的网页
  • 做 在线观看免费网站用什么建网站 cms
  • 网站开发设计工程师岗位职责怎样制作网站教程哪家好
  • 8款开源AI应用开发平台实测对比
  • 石家庄市城乡和建设局网站小说网站做公众号好还是网站好
  • Transformers中不同的generation strategies生成策略
  • 网站标题psdwordpress商城 微信支付宝
  • Spring MVC文件上传与下载全面详解:从原理到实战
  • 广州网站建设 乐云seo营销策划方案模板
  • 学院网站信息化建设总结朝阳住房和城乡建设官方网站
  • 【Android Gradle学习笔记】第八天:NDK的使用
  • OpenCV(十三):通道的分离与合并
  • 【猿辅导-注册安全分析报告-无验证方式导致安全隐患】
  • 基于YOLOv8与SCConv的轻量化目标检测模型-协同优化空间与通道特征重构
  • 卫计网站建设工作计划怎么做网页商城
  • 攻略做的比较好的网站邯郸电商设计
  • 青海某公路水渠自动化监测服务项目
  • 大厂级企业后端:配置变更与缓存失效的自动化处理方案
  • 打破协议壁垒:耐达讯自动化Modbus转Profinet网关实现光伏逆变器全数据采集
  • 深圳创新网站建设适合穷人的18个创业项目投资小
  • Docker部署RocketMQ时Broker IP地址问题及解决方案
  • 生产环境定时器陷阱:CLOCK_REALTIME与CLOCK_MONOTONIC的生死抉择
  • 建设电子商务网站流程网站改版汇报
  • 长清网站建设费用长椿街网站建设