当前位置: 首页 > news >正文

HCL-MTC、HiTIN

1. HCL-MTC复现

开源:https://github.com/hanggun/HCL-MTC.git

数据不太好

2. HiTIN

论文:HiTIN:Hierarchy-aware Tree Isomorphism Network for Hierarchical Text Classification

开源:https://github.com/Rooooyy/HiTIN.git

发表会议:ACL 2023

HiTIN 在训练参数量不显著增加的情况下,实现了最优的 Micro-F1 性能

说明 HiTIN 效果好,模型更轻量、更高效

2.1. 简略解读

2.1.1. 处理图示

图1 HiTIN 的一个示例,其中 K=2。

  1. 输入文档首先被输入到文本编码器中以生成文本表示
  2. 接下来,标签层次结构通过编码树构建算法转换为编码树
    1. 图示原始标签层次为三层
    2. 本例设定k=2,根据CIRCA 算法压缩构建编码树使得标签体系为两层
  1. 文本表示被映射到编码树的叶节点,并迭代更新非叶节点的嵌入
  2. 最后,生成整个编码树的特征向量,并通过sigmoid 函数计算分类概率
  3. 此外,HiTIN 由二元交叉熵损失和递归正则化进行监督

2.1.2. 构建编码树CIRCA 算法

以最小化结构熵为目标,将标签层级转化为固定高度的无权重编码树

  • 输入是原始的标签层次结构,看作一个图 GL
  • 使用 CIRCA 算法,通过最小化 K 维结构熵来构建一个高度为 K的编码树 TL,论文中 实验结果证明K=2时 效果最佳

2.1.3. 模型对比

图2 使用 TextRCNN 编码器的主要实验结果

图3 使用 BERT 编码器的主要实验结果

HiTIN 模型在不同文本编码器TextRCNN 、 BERT下,比现有基线模型在层级文本分类任务上的性Macro-F1 指标数据更显著,说明HiTIN在捕捉标签层级关系和平衡不同频率标签分类性能上的效果。

2.1.4. 编码树的最佳高度

图4 展示了 WOS、RCV1-v2 和 NYTimes 上不同高度编码树的测试性能

随着 K 的增长,HiTIN 的性能严重下降。尽管三个数据集的标签层次深度不同,但编码树的最佳高度始终为 2。

2.1.5. 局限性

模型性能依赖文本编码器,BERT 等预训练模型虽表现更优,但在非预训练数据领域,如 BERT 未适配的学术文本 WOS提升有限。

3. 总结

本周一开始任务是复现HCL-MTC这个模型,但是失败。重新查找相关模型,找到了HiTIN模型,能够实现多层级多标签任务,可以适配本问答系统,且该模型不仅仅适配两层级的多标签任务,对之后的可能扩展有帮助。本周只做到了简略解读论文,了解基本的处理步骤。

http://www.dtcms.com/a/528740.html

相关文章:

  • 平方根求解-趋近法步长保守策略数学推导
  • JSP 文件上传
  • 基于深度生成模型的单细胞多时间点数据分析与药物发现
  • FreeRTOS信号量实战:停车场管理
  • 做网站一般不选用的图片格式万能浏览器手机版下载安装
  • Federated Learning-Empowered AI-Generated Content in Wireless Networks
  • 网站建设外包还是自己做乐清网站建设公司
  • 计算机网络自顶向下方法4——详解协议层次及其服务模型
  • 【开题答辩全过程】以 暴肌兔健康饮食推荐系统的设计与实现为例,包含答辩的问题和答案
  • 网站找不到首页网站开发分前台后台
  • 网站微信支付怎么做深圳品牌做网站公司哪家好
  • jEasyUI 创建异步树形菜单
  • fabric.js 中originX originY center设置问题
  • java开发手册与规范
  • 展示网站开发 大概多少钱wordpress+4.2.4中文
  • 深圳建设局官网站对网站建设需求
  • linux:查看某个文件下开启的进程占用的是哪个端口?
  • 【开题答辩过程】以《基于微信小程序的街道水电费缴纳系统》为例,不会开题答辩的可以进来看看
  • (数据结构)栈和队列
  • 体育西网站开发方案成都和奇乐网站建设公司怎么样
  • 网站管理后台 模板河南省建设厅网站总经济师
  • 网站建设难学吗广西建设厅官网站
  • Linux内核RDMA通信管理器ConfigFS配置接口深度解析
  • R语言模型分析(一)
  • gitee简易的命令入门教程
  • 永康建设局网站电话佛山建网站
  • Profinet 转 TCP/IP 协议转换网关:打破 PLC 与打标卡协议壁垒的工业通讯利器
  • 做网站花了2万多做网站的专业公司
  • OceanBase常见Hint使用
  • LeetCode算法日记 - Day 83: 乘积最大的子数组