告别静态图谱!TextSSL如何用「稀疏学习」实现更智能的文档分类?
文章链接:https://mp.weixin.qq.com/s/danmd9lSQpmck4tVsM37bQ
今天分享一篇将图神经网络应用于文本分类的创新模型——TextSSL。在传统的文档理解中,模型往往难以同时捕捉文本的局部句法细节和全局语义关联。针对这一挑战,TextSSL提出了一种基于动态稀疏图结构学习的新范式,通过构建句内句法子图和句间语义关联,使模型能够像人类一样"精读"文档——既关注词语间的局部搭配,又理解跨句子的长程依赖关系。
Text GNN文章: 突破传统!图神经网络Text GCN如何实现文本分类新高度?
Text Level GNN文章:【重磅开源】TextGNN的“终结者”来了!单卡轻松训练亿级文本,推理无需全语料!
TextING文本分类:突破传统!TextING:用图神经网络为每篇文本「量身定制」关系图谱
接下来,我将深入对这篇论文展开全面解读。和以往一样,我会严格依照论文的结构框架,从研究背景、核心论点、实验设计到最终结论,逐一对文章的各个关键部分进行细致剖析 ,力求为大家呈现这篇时间序列预测论文的全貌,挖掘其中的研究价值与创新点。
🌟 公众号回复以下【】内编号获取专属资源: 【000】:💻 ChatGPT接入公众号代码。 【333】:📊 AI时序算法论文集&数据集。 【666】:📝 算法面试常考手撕代码。 【777】:🌐 AI开源项目合集[CV/NLP/LLMs]。 【888】:📲 添加小编微信,加入AI算法学习交流群。 📋 本公众号已接入AI对话机器人,直接提问即可收到回复。 🎁 期待你在这里找到技术成长与缘分的交汇点!💫 |
1. Abstract
近年来,图神经网络(GNNs)被广泛应用于文档分类任务。然而,现有方法大多基于静态的词共现图且缺乏句子层级信息,这带来了三大挑战:(1)词汇歧义性,(2)词汇同义性,以及(3)动态上下文依赖性。为解决这些挑战,本文提出了一种新颖的基于GNN的稀疏结构学习模型,用于归纳式文档分类。具体而言,首先通过句子级词共现图的不相交并集生成文档级图。该模型通过一组可训练的边连接不同句子间的离散词汇,并采用结构学习机制稀疏地筛选具有动态上下文依赖关系的边。具有稀疏结构的图能够通过GNN联合挖掘文档中的局部和全局上下文信息。在归纳学习阶段,优化后的文档图被送入通用读出函数,以端到端的方式完成图层级分类和优化。在多个真实数据集上的实验表明,所提出模型性能优于当前最先进方法,并验证了为每个文档学习稀疏结构的必要性。
2. Introduction
文档分类作为自然语言处理(NLP)领域最基础的任务之一,旨在通过算法自动将输入文档划分到一个或多个类别中。该任务的核心在于提取能够表征文档的特征。传统方法采用人工设计的特征(如词袋模型、词频-逆文档频率)。随着深度学习技术的发展,Word2Vec(Mikolov et al. 2013)等相关工作开始利用上下文信息学习词表征。考虑到词汇在序列中的顺序,许多模型采用基于序列的模型,包括循环神经网络(RNN)(Mikolov et al. 2010; Tai, Socher, and Manning 2015; Liu, Qiu, and Huang 2016)和卷积神经网络(CNN)(Kim 2014;
文章链接:https://mp.weixin.qq.com/s/danmd9lSQpmck4tVsM37bQ