当前位置：首页 > news >正文

ACL 2025 Findings | 无监督概念发掘，提高文本解释的可理解性

news 2025/8/13 15:13:20

5月29日，第63届国际计算语言学学会年会（Annual Meeting of the Association for Computational Linguistics，ACL 2025）公布录用论文清单。会议将于7月27日至8月1日在奥地利维也纳举行。本文将介绍一篇关于模型可解释的ACL 2025 Findings录用论文。

★
题目：Enhancing the Comprehensibility of Text Explanations via Unsupervised Concept Discovery

作者：Yifan Sun, Danding Wang, Qiang Sheng, Juan Cao, Jintao Li

ArXiv: https://arxiv.org/abs/2505.20293

（点击“阅读原文”可直接跳转）

研究背景

深度神经语言模型具有高度的复杂性和不透明性，其决策机制难以被人类理解。传统的大多数可解释性方法采用特征归因的方式，虽然能够确定重要特征的位置，却未能揭示这些特征的确切含义。因此，可解释性方法的研究焦点逐渐转向更深层次的需求——不仅要指出重要特征的位置，更要揭示这些特征背后的含义与逻辑，以接近人类认知的方式解释模型。

在此背景下，研究者们提出了基于概念的可解释方法。该方法将输入特征映射到一系列人类可理解的概念上，并量化每个概念对模型预测结果的具体影响。现有方法主要分为两类：①一类需要人工预定义概念集作为监督，这类方法无法自动发现新概念，应用场景受限；②另一类无需概念标注监督，但由于在训练过程中缺乏可量化的指标优化概念的可理解性，导致发现的概念含义模糊、难以理解。如何自动发现可理解的概念解释，仍然是一个尚未解决的问题。

针对上述问题，本文提出了一个流程自解释的方法 ECO-Concept，该方法具有以下创新：（1）无需人工概念标注，通过竞争注意力机制自动发现语义概念；（2）借鉴人类认知过程，采用自然语言总结与重现能力作为可理解性评估标准；（3）在模型训练过程中实现实时评估与反馈优化，以增强提取概念的可理解性。

图1 与现有基于概念方法的对比

研究方法

本文提出的方法包含两个核心模块：概念提取器和概念评估器。概念提取器接收编码后的文本输入，生成概念注意力矩阵。而后将各概念的注意力分数在词元维度聚合，输入分类器进行预测。概念评估器则使用大型语言模型（LLM）对提取出的概念进行可理解性评估，并通过计算可理解性损失来进一步指导概念的优化。

图2 方法流程框架

概念提取

本文使用基于槽注意力的机制自动提取语义概念。其核心思想是利用多个槽来竞争性地解释输入特征的不同部分。通过多轮注意力竞争，这些槽逐渐调整以代表不同的与任务相关的概念。
为了提高概念的可解释性，引入了两个正则化项：一致性（Consistency）和独特性（Distinctiveness）。一致性确保同一概念在不同样本中的激活特征具有一致的语义，独特性确保不同概念覆盖不同的语义元素。