当前位置：首页 > news >正文

【内容检测 EXPO-HM】优化训练方式提升解释性与准确性

news 2025/11/13 6:00:08

《EXPO-HM: LEARNING TO EXPLAIN-THEN-DETECT FOR HATEFUL MEME DETECTION》提出了一种仇恨内容检测的算法，训练结构创新比较大，引入了困惑度作为GRPO的学习目标，同时对SFT也进行了调整（得出了人类撰写SFT数据效果较差的结论），得到了更加可解释、更准确的仇恨检测模型，相关经验技巧可用于语言模型训练，代码即将开源。

他们的另一相关篇工作也非常有意思，开源了代码地址。

第一章：问题背景——为什么我们需要“先解释再检测”的仇恨模因识别系统？

在当今社交媒体高度发达的网络环境中，仇恨模因（hateful memes） 已成为一种极具隐蔽性和传播力的网络暴力形式。模因（meme）通常由一张图片叠加一句讽刺、戏谑甚至煽动性的文字组成，其多模态特性（图像+文本）让传统基于关键词或单一模态的有害内容过滤系统面临巨大挑战。

1.1 传统方法的局限：只有“是/否”，没有“为什么”

过去几年，研究者普遍将仇恨模因识别任务建模为一个二分类问题：给定一个模因，模型判断它是“有害（hateful）”还是“无害（benign）”。这种方法虽然在标准数据集（如 HatefulMemes）上取得了不错的准确率，但在真实内容审核场景中却严重不足。

为什么？因为人类审核员（moderators）在做决策时，不仅需要知道“这个内容是否违规”，更需要知道：

攻击类型：是嘲讽（mocking）、贬低（inferiority）、煽动暴力（inciting violence），还是使用侮辱性词汇（slurs）？
受害群体：攻击对象是基于种族、宗教、性别、性取向还是残障身份？
判断依据：模型是基于哪些视觉或文本线索做出判断的？

如果系统只输出一个“是”或“否”，审核员无法快速验证其合理性，也无法向用户解释为何某条内容被删除——这在平台透明度和用户信任度方面都是重大缺陷。

示例（来自论文附录 F）：
一个模因显示：“这个‘蔬菜’最难吃的部分是轮椅。”

传统模型（如 GRPO） 可能判断为“无害”，解释为：“这是个文字游戏，轮椅只是比喻，没有攻击特定群体。”
ExPO-HM 则识别出：“‘蔬菜’在此语境中是对残障人士的贬损性用语，属于非人化（dehumanizing）攻击，因此是有害的。”

显然，后者不仅判断更准确，而且提供了可解释、可行动的审核依据。

1.2 “先解释再检测”（Explain-then-Detect）：向人类审核员学习

受人类审核流程的启发，研究者提出了 “先解释再检测” 的新范式：

模型首先生成一段自然语言的推理（rationale），说明为何认为该模因有害（或无害）；
然后基于这段推理，再做出最终的分类决策。

从形式上看，模型的输出结构如下：

<think>[解释：分析图像与文本如何共同构成攻击，指出攻击类型和目标群体]
</think>
<answer>[最终判断：hateful / benign]
</answer>

这种设计模仿了人类审核员对照内容审核政策手册（moderation policy manual）逐步推理的过程。例如，政策可能规定：

“若内容将某一群体描述为‘低于人类’或使用动物比喻，则构成‘非人化’违规。”

模型在训练时若能学会引用这类规则进行推理，就能显著提升判断的可靠性与一致性。

1.3 现有“先解释再检测”方法为何效果不佳？

尽管想法很好，但现有基于 思维链（Chain-of-Thought, CoT）提示 或 多智能体框架 的 Explain-then-Detect 系统，在二分类准确率上反而不如直接微调（SFT）的基线模型。

论文指出两大核心问题：

解释不聚焦政策关键点：模型生成的解释常常忽略真正的违规要素（如攻击类型、目标群体），导致推理与决策脱节。
奖励信号太弱：在强化学习（如 GRPO）中，仅用“最终分类是否正确”作为奖励信号，无法有效指导中间推理过程的优化——这就像只告诉学生“答案对错”，却不解释“解题步骤哪里有问题”。

1.4 本文解决方案：ExPO-HM

为解决上述问题，论文提出 ExPO-HM（Explain-then-Detect Policy Optimization for Hateful Memes），其核心思想是模拟人类审核员的训练流程，包含三个关键阶段：

基于政策手册的监督微调（SFT-PM）：先用结构化的审核政策（由细粒度标签转换而来）对模型进行预训练，使其学会“按规则思考”。
课程学习的强化训练（GRPO-CL）：先训练模型在细粒度任务（如识别攻击类型）上推理，再过渡到二分类任务，避免模型过早“走捷径”。
引入条件决策熵（CDE）作为奖励：不仅看结果对错，还看决策是否基于清晰、确信的推理。若模型在正确判断时表现出高置信度（即 CDE 低），就给予更高奖励；若错误却“盲目自信”，则重罚。

第二章：ExPO-HM 方法详解 —— 如何教会模型"先解释再检测"

在第一章中，我们指出：当前主流的仇恨模因（hateful memes）检测系统存在两个核心问题：

缺乏可解释性：仅输出"有害/无害"二值判断，无法为内容审核员提供决策依据；
解释质量差：现有"先解释再检测"（Explain-then-Detect）方法（如 CoT、GRPO）在准确率上反而低于直接微调（SFT）模型。

为解决这些问题，论文提出 ExPO-HM（Explain-then-Detect Policy Optimization for Hateful Memes），其设计灵感直接来源于人类审核员的训练流程：先学习政策手册，再通过由易到难的任务练习推理能力。

本章将系统解析 ExPO-HM 的三大核心技术组件：

SFT-PM（基于政策手册的监督微调）
GRPO-CL（课程学习下的强化训练）
CDE（条件决策熵）作为推理质量度量与奖励信号

2.1 问题形式化与模型结构

给定一个模因 $Ii∈RC×H×WI_i \in \mathbb{R}^{C \times H \times W}$ （图像+叠加文本），标准任务是预测二元标签 $ci∗∈{0,1}c_i^* \in \{0, 1\}$ （0=无害，1=有害）。但在真实内容审核场景中，系统还需支持以下两类任务：

细粒度标签 $z_i^*$ ：包括攻击类型（如"非人化"、“煽动暴力”）和受害群体（如"残障"、“宗教”）；
自然语言解释 $e_i^*$ ：说明为何该模因违规。

因此，ExPO-HM 的输出采用 长链式思维（Long CoT）格式：

<think>[解释：分析图像与文本如何共同构成对某群体的某种攻击]
</think>
<answer>[最终判断：hateful / benign 或具体类别]
</answer>

记整个输出序列为 $y = (e, d)$ ，其中 $e$ 是解释（rationale）， $d$ 是文本化标签（如 “hateful”）。

大型多模态模型（LMM）在此扮演策略网络 $πθ\pi_\theta$ ，其参数为 $θ\theta$ ，定义如下自回归生成分布：

$πθ(y∣x)=∏t=1∣y∣πθ(yt∣y<t,x)\pi_\theta(y \mid x) = \prod_{t=1}^{|y|} \pi_\theta(y_t \mid y_{<t}, x)$

其中输入 $x = (I, p)$ 由模因图像 $I$ 与提示词 $p$ 拼接构成。

2.2 第一阶段：SFT-PM —— 用政策手册预训练模型

输入与输出定义

输入：模因图像 $I$ 与结构化政策提示 $p$ 组合为 $x = (I, p)$ ；
输出：细粒度文本标签 $\in \mathcal{Y}_{\text{fine}}$ ，例如 “Dehumanizing” 或 “Disability”。

数据来源与提示构造

ExPO-HM 将数据集中的细粒度标注（如攻击类型、受害群体）转化为结构化政策手册式提示。例如，HatefulMemes 数据集中攻击类型的政策提示为：

这张模因是否对某个群体使用了以下任意一种攻击方式？

非人化（Dehumanizing）：明确或隐含地将某一群体描绘为低于人类的存在；
贬低（Inferiority）：声称某一群体低人一等、不值得或不重要；
煽动暴力（Inciting violence）：呼吁或鼓励对某一群体实施身体或其他形式的伤害；
嘲讽（Mocking）：贬低或拿某一群体开玩笑；
蔑视（Contempt）：表达对某一群体的强烈厌恶、仇恨或极端负面情绪；
侮辱性词汇（Slurs）：使用带有偏见或贬义的词语描述某一群体；
排斥（Exclusion）：主张将某一群体隔离、驱逐或边缘化。
如果该模因未使用上述任何攻击方式，请回答：无害。

模型需基于此提示输出匹配标签（如 “Dehumanizing”）。
注意：此阶段不使用人工撰写的解释文本（gold rationale），因其往往偏离政策逻辑，反而损害泛化能力（见 4.5 节）。

2.3 第二阶段：GRPO-CL —— 课程学习引导推理演进

在 SFT-PM 的基础上，ExPO-HM 采用 GRPO（Group Relative Policy Optimization）进行强化学习，并引入课程学习（Curriculum Learning）：

前 50% 训练步：仅使用细粒度数据（如攻击类型、受害群体任务）；
后 50% 训练步：混合 50% 细粒度数据 + 50% 二分类数据（"hateful/benign"任务）。

数据定义

二分类数据：来自原始数据集（如 HatefulMemes），标签为 $ci∗∈{0,1}c_i^* \in \{0, 1\}$ ，文本化后为 “benign” / “hateful”；
细粒度数据：来自扩展标注（如 Fine-Grained Hateful Meme Classification），包括：
- 攻击类型标签：如 “dehumanizing”, “mocking”, “inciting violence”；
- 受害群体标签：如 “religion”, “disability”, “sex”。

GRPO 奖励机制

GRPO 通过组内奖励归一化估计优势函数，无需 critic 网络：

$Ag=rg−mean({r1,…,rG})std({r1,…,rG})+ϵA_g = \frac{r_g - \text{mean}(\{r_1, \dots, r_G\})}{\text{std}(\{r_1, \dots, r_G\}) + \epsilon}$

其中 $r_g$ 是第 $g$ 个采样输出的综合奖励（含格式、准确率、CDE，见 2.4 节）， $ϵ\epsilon$ 为防除零小常数。

为何有效？
若直接训练二分类，模型倾向生成极短解释（平均 28 个 token），仅做表面判断。课程学习强制模型先掌握政策要素（如什么是"非人化"），再做高层综合判断，解释长度提升至 52 token，推理质量显著增强。

2.4 第三阶段：CDE 奖励 —— 让模型"自信且正确"

传统 GRPO 仅依赖格式奖励 $rformatr_{\text{format}}$ 和准确率奖励 $raccr_{\text{acc}}$ ，无法衡量推理质量。ExPO-HM 引入 条件决策熵（Conditional Decision Entropy, CDE）作为新奖励信号。

CDE 定义

给定输入 $x$ ，模型生成解释 $e$ ，然后基于 $e$ 做出决策 $d$ 。CDE 定义为：

$\mid e, x) = -\mathbb{E}_{d \sim \pi_\theta(\cdot \mid e, x)} \left[ \log \pi_\theta(d \mid e, x) \right]$

CDE 越低 → 决策分布越集中 → 自信；
CDE 越高 → 决策分布越均匀 → 犹豫。

CDE 计算方式

实验中使用 蒙特卡洛估计：

对每个输入 $x_i$ ，采样 $K = 16$ 条解释 $eik∼πθ(⋅∣xi)e_{ik} \sim \pi_\theta(\cdot \mid x_i)$ ；
对每条解释 $e_{ik}$ ，计算其条件决策熵 $\mid e_{ik}, x_i)$ ；
平均得到 CDE 估计值：

$H^(d∣e,x)=1K∣D∣∑i=1∣D∣∑k=1KH(d∣eik,xi)\hat{H}(d \mid e, x) = \frac{1}{K|D|} \sum_{i=1}^{|D|} \sum_{k=1}^{K} H(d \mid e_{ik}, x_i)$

实际实现中，CDE 仅在决策部分（answer）计算，不惩罚解释多样性。

CDE 奖励函数

设 $\mid e, x)$ ， $δ=1[d=d∗]\delta = \mathbb{1}[d = d^*]$ （判断是否正确），则 CDE 奖励为分段函数：

$δ=0,h≥b（错误但明显不确定，几乎无罚）r_{\text{CDE}}(h, \delta) = \begin{cases} w, & \text{if } \delta = 1, h \le a \quad \text{（自信且正确，高奖励）} \\ w \cdot \frac{b - h}{b - a}, & \text{if } \delta = 1, a < h < b \quad \text{（正确但不够确信，中奖励）} \\ 0, & \text{if } \delta = 1, h \ge b \\ -\rho w, & \text{if } \delta = 0, h \le a \quad \text{（错误且盲目自信，重罚）} \\ w \cdot \frac{h - a}{b - a}, & \text{if } \delta = 0, a < h < b \quad \text{（错误但犹豫，轻罚）} \\ h, & \text{if } \delta = 0, h \ge b \quad \text{（错误但明显不确定，几乎无罚）} \end{cases}$

默认超参： $a = 0.1$ , $b = 0.5$ , $w = 0.2$ , $ρ=0.25\rho = 0.25$ 。

效果：加入 CDE 后，ExPO-HM 在 HatefulMemes 上的 CDE 从 0.056（GRPO-CL）降至 0.026，LLM 评判分数从 5.8 提升至 6.2，验证了"正确+自信"推理的有效性。

2.5 整体训练流程

ExPO-HM 的完整训练流程如下：

SFT-PM Warmup：在政策手册增强的细粒度数据上微调 LMM；
GRPO Curriculum Learning：
- 第一阶段（前 50% 步）：仅训练细粒度任务；
- 第二阶段（后 50% 步）：混合细粒度与二分类任务（比例 1:1）；
GRPO + CDE Reward：总奖励为
$r_{\text{format}} + r_{\text{acc}} + w \cdot r_{\text{CDE}}$

该流程使模型在保持高准确率的同时，生成可解释、可操作、符合政策的推理，真正实现"先解释再检测"的审核友好范式。

第三章：实验分析 —— 为什么 ExPO-HM 既更准，又更可解释？

在前两章中，我们介绍了仇恨模因（hateful memes）检测的现实挑战与 ExPO-HM 的方法论设计。本章将深入剖析实验结果，不仅验证其在多项任务上的 SOTA 表现，更重点解读一些反直觉但极具启发性的发现——这些结论对构建可解释、可行动的 AI 审核系统具有深远意义。

3.1 主实验：ExPO-HM 全面领先

我们在三个主流数据集（HatefulMemes、MAMI、PrideMM）上评估 ExPO-HM，涵盖三大任务：

二分类（有害 vs 无害）
细粒度分类（攻击类型、受害群体、LGBTQ+ 立场等）
推理质量（LLM-as-judge 评分 + CDE）

表 1 关键结果摘要（Qwen2.5-VL-7B）

方法	HatefulMemes (二分类 F1)	攻击类型 F1	受害群体 F1	LLM 推理解释评分
RA-HMD（SOTA 直接检测）	80.2	—	—	5.4
GRPO（标准强化学习）	74.5	61.2	64.5	5.2
ExPO-HM（本文）	81.1	75.6	77.2	6.2

✅ 关键结论 1：ExPO-HM 是首个在二分类准确率上超越直接检测模型（如 RA-HMD）的“先解释再检测”系统。这意味着，可解释性不再以牺牲性能为代价。

此外，在细粒度任务上，ExPO-HM 相比 GRPO 提升高达 +14.4 F1（攻击类型） 和 +12.7 F1（受害群体），表明其真正理解了审核政策的结构化逻辑。

3.2 有趣的发现一：“解释越长 ≠ 质量越高”，但“课程学习能让解释更有内容”

一个常见误区是认为“解释越长越好”。然而实验发现：

标准 GRPO 在二分类任务中平均解释长度仅 28 个 token，内容空洞（如“这张图没有攻击任何群体”）；
ExPO-HM（GRPO-CL） 平均长度达 52 个 token，且包含具体攻击类型（如“使用‘蔬菜’一词对残障人士进行非人化”）。

🔍 启示：长度本身不是目标，但课程学习（先练细粒度再练二分类）迫使模型生成更具体的政策引用，从而自然拉长解释，且信息密度更高。

这说明：训练顺序比解释长度更重要。人类审核员也是先学“什么是非人化”，再判断“这张图是否非人化”。

3.3 有趣的发现二：人类写的解释（gold rationale）反而会损害模型性能！

Hatred 数据集提供了人工撰写的解释文本（gold rationale）。研究者尝试用这些解释做 SFT（记为 SFT-R），结果令人意外：

Warmup 策略	二分类 F1（SFT 阶段）	二分类 F1（经 GRPO-CL + CDE 后）
SFT-B（仅二分类标签）	74.1	73.5
SFT-R（人类解释）	72.2	79.2
SFT-PM（政策手册）	74.3	81.1

❗ 关键结论 2：虽然 SFT-R 在最终性能上优于 SFT-B，但SFT-PM 仍是最佳选择。更惊人的是，SFT-R 在 SFT 阶段表现最差。

原因分析：

人类解释往往偏离政策逻辑，使用主观语言（如“我觉得这很冒犯”），而非结构化规则（如“这属于非人化攻击”）；
模型若模仿此类“离策略”（off-policy）解释，会混淆审核标准，导致泛化能力下降。

💡 启示：在可解释 AI 训练中，高质量 ≠ 人类风格，而应追求政策对齐（policy-aligned）。

3.4 有趣的发现三：CDE 与 LLM 评分高度负相关（r = -0.78）

我们提出 条件决策熵（CDE） 作为推理质量的代理指标。实验验证其有效性：

在 HatefulMemes 上，对 60 个不同配置（含随机种子）计算 CDE 与 LLM-as-judge 评分；
Pearson 相关系数 r = -0.78，Spearman ρ = -0.81（p < 0.001）。

📉 这意味着：CDE 越低，LLM 认为解释质量越高。

进一步分析 CDE 分布（图 3）：

ExPO-HM：正确预测时 CDE ≈ 0.019，错误时 ≈ 0.048 → 高置信正确，低置信错误；
GRPO：正确时 CDE ≈ 0.278，错误时 ≈ 0.226 → 始终犹豫不决。

✅ 关键结论 3：CDE 不仅可作为训练奖励，还可作为无需人工标注的自动评估指标，大幅降低评估成本。

3.5 消融实验：三大组件缺一不可

表 2 显示各组件贡献：

组件	二分类 F1	攻击类型 F1	LLM 评分	CDE
仅 GRPO（基线）	74.5	61.2	5.2	0.263
+ SFT-PM	75.8	70.8	5.6	0.092
+ GRPO-CL	78.4	74.3	5.8	0.056
+ CDE	81.1	75.6	6.2	0.026

🔧 结论：

SFT-PM 是基础：教会模型“政策语言”；
GRPO-CL 是桥梁：引导从细粒度到二分类的推理迁移；
CDE 是助推器：奖励“自信且正确”，惩罚“盲目自信”。

小结：ExPO-HM 的三大范式突破

从“黑箱报警”到“政策驱动推理”：模型输出不再是 yes/no，而是可操作的审核依据；
从“牺牲性能换解释”到“解释提升性能”：首次实现 Explain-then-Detect 在准确率上超越 Direct Detection；
从“依赖人工解释”到“结构化政策学习”：证明高质量推理不需模仿人类语言，而需对齐审核规则。

第四章：实用提示词与典型案例分析

ExPO-HM 的成功在很大程度上依赖于其精心设计的 政策手册式提示词（policy-manual-style prompts）。这些提示不是通用的“请解释你的推理”，而是结构化、任务导向、对齐审核政策的指令，能有效引导模型生成准确且可操作的解释。

本章将展示文中核心提示词的中文翻译版本，并结合论文附录 F 中的真实案例，说明 ExPO-HM 如何通过高质量推理识别那些表面“无害”但实则充满攻击性的仇恨模因。

4.1 中文版政策手册提示词（可直接用于工程实践）

1. 攻击类型识别提示（用于 HatefulMemes）

这张模因是否对某个群体使用了以下任意一种攻击方式？

非人化（Dehumanizing）：明确或隐含地将某一群体描绘为低于人类的存在；
贬低（Inferiority）：声称某一群体低人一等、不值得或不重要；
煽动暴力（Inciting violence）：呼吁或鼓励对某一群体实施身体或其他形式的伤害；
嘲讽（Mocking）：贬低或拿某一群体开玩笑；
蔑视（Contempt）：表达对某一群体的强烈厌恶、仇恨或极端负面情绪；
侮辱性词汇（Slurs）：使用带有偏见或贬义的词语描述某一群体；
排斥（Exclusion）：主张将某一群体隔离、驱逐或边缘化。
如果该模因未使用上述任何攻击方式，请回答：无害。

2. 受害群体识别提示（用于 HatefulMemes）

这张模因是否对以下受保护群体表达了仇恨或负面偏见？

宗教：由共同信仰体系定义的群体；
种族：由种族化身体特征定义的群体；
性别：由生理性别或性别认同定义的群体；
国籍：由国家或地区出身定义的群体；
残障：因身体或精神状况而产生长期依赖的群体。
如果该模因未针对任何受保护群体，请回答：无害。

3. LGBTQ+ 立场识别提示（用于 PrideMM）

基于该模因的内容与语境，其对 LGBTQ+ 个体或社群的立场是什么？
请选择以下选项之一：

中立：内容未明确表达支持或反对；
支持：内容表达积极态度或支持；
反对：内容表达负面态度或反对。

这些提示词的共同特点是：

封闭式选项，限制模型自由发挥；
明确定义，避免歧义；
与真实审核政策对齐，便于人类审核员理解和验证。

4.2 典型案例分析：ExPO-HM 如何“看穿”伪装？

以下案例均来自论文附录 F，展示了 GRPO（基线） 与 ExPO-HM 在相同输入下的推理与判断差异。

案例一：轮椅与“蔬菜”的隐喻攻击

模因文字：
“蔬菜最难吃的部分是轮椅。”
真实标签：仇恨内容（hateful）
GRPO 判断与解释：

判断：无害
解释：该模因使用轮椅作为视觉隐喻，谈论蔬菜中最难吃的部分，属于文字游戏，并非侮辱。轮椅是辅助行动的工具，不是贬义符号。
ExPO-HM 判断与解释：

判断：仇恨内容
解释：该模因使用“蔬菜”一词指代残障人士，这是一种非人化（dehumanizing）的侮辱性用语。将轮椅与“难吃”关联，进一步强化了对残障人士的贬低。此类语言属于仇恨言论。

✅ 关键洞察：表面是“文字游戏”，实则是利用社会对残障群体的刻板印象进行隐性攻击。ExPO-HM 通过政策对齐的推理，准确识别出违规要素。

案例二：用狗指代人类

模因图片：几张狗的照片，配文：“一群男人”
真实标签：仇恨内容
GRPO 判断与解释：

判断：无害
解释：这是网络常见梗，用动物代表人群以制造幽默效果，无明确攻击意图。
ExPO-HM 判断与解释：

判断：仇恨内容
解释：该模因将人类男性比作狗，属于非人化攻击。虽然动物拟人是常见网络修辞，但在攻击性语境中，这种比喻会贬低目标群体的人格尊严，构成仇恨言论。