【内容检测 EXPO-HM】 优化训练方式 提升解释性与准确性
《EXPO-HM: LEARNING TO EXPLAIN-THEN-DETECT FOR HATEFUL MEME DETECTION》提出了一种仇恨内容检测的算法,训练结构创新比较大,引入了困惑度作为GRPO的学习目标,同时对SFT也进行了调整(得出了人类撰写SFT数据效果较差的结论),得到了更加可解释、更准确的仇恨检测模型,相关经验技巧可用于语言模型训练,代码即将开源。
他们的另一相关篇工作也非常有意思,开源了代码地址。
第一章:问题背景——为什么我们需要“先解释再检测”的仇恨模因识别系统?
在当今社交媒体高度发达的网络环境中,仇恨模因(hateful memes) 已成为一种极具隐蔽性和传播力的网络暴力形式。模因(meme)通常由一张图片叠加一句讽刺、戏谑甚至煽动性的文字组成,其多模态特性(图像+文本)让传统基于关键词或单一模态的有害内容过滤系统面临巨大挑战。
1.1 传统方法的局限:只有“是/否”,没有“为什么”
过去几年,研究者普遍将仇恨模因识别任务建模为一个二分类问题:给定一个模因,模型判断它是“有害(hateful)”还是“无害(benign)”。这种方法虽然在标准数据集(如 HatefulMemes)上取得了不错的准确率,但在真实内容审核场景中却严重不足。
为什么?因为人类审核员(moderators)在做决策时,不仅需要知道“这个内容是否违规”,更需要知道:
- 攻击类型:是嘲讽(mocking)、贬低(inferiority)、煽动暴力(inciting violence),还是使用侮辱性词汇(slurs)?
- 受害群体:攻击对象是基于种族、宗教、性别、性取向还是残障身份?
- 判断依据:模型是基于哪些视觉或文本线索做出判断的?
如果系统只输出一个“是”或“否”,审核员无法快速验证其合理性,也无法向用户解释为何某条内容被删除——这在平台透明度和用户信任度方面都是重大缺陷。
示例(来自论文附录 F):
一个模因显示:“这个‘蔬菜’最难吃的部分是轮椅。”
- 传统模型(如 GRPO) 可能判断为“无害”,解释为:“这是个文字游戏,轮椅只是比喻,没有攻击特定群体。”
- ExPO-HM 则识别出:“‘蔬菜’在此语境中是对残障人士的贬损性用语,属于非人化(dehumanizing)攻击,因此是有害的。”
显然,后者不仅判断更准确,而且提供了可解释、可行动的审核依据。
1.2 “先解释再检测”(Explain-then-Detect):向人类审核员学习
受人类审核流程的启发,研究者提出了 “先解释再检测” 的新范式:
模型首先生成一段自然语言的推理(rationale),说明为何认为该模因有害(或无害);
然后基于这段推理,再做出最终的分类决策。
从形式上看,模型的输出结构如下:
<think>[解释:分析图像与文本如何共同构成攻击,指出攻击类型和目标群体]
</think>
<answer>[最终判断:hateful / benign]
</answer>
这种设计模仿了人类审核员对照内容审核政策手册(moderation policy manual)逐步推理的过程。例如,政策可能规定:
“若内容将某一群体描述为‘低于人类’或使用动物比喻,则构成‘非人化’违规。”
模型在训练时若能学会引用这类规则进行推理,就能显著提升判断的可靠性与一致性。
1.3 现有“先解释再检测”方法为何效果不佳?
尽管想法很好,但现有基于 思维链(Chain-of-Thought, CoT)提示 或 多智能体框架 的 Explain-then-Detect 系统,在二分类准确率上反而不如直接微调(SFT)的基线模型。
论文指出两大核心问题:
- 解释不聚焦政策关键点:模型生成的解释常常忽略真正的违规要素(如攻击类型、目标群体),导致推理与决策脱节。
- 奖励信号太弱:在强化学习(如 GRPO)中,仅用“最终分类是否正确”作为奖励信号,无法有效指导中间推理过程的优化——这就像只告诉学生“答案对错”,却不解释“解题步骤哪里有问题”。
1.4 本文解决方案:ExPO-HM
为解决上述问题,论文提出 ExPO-HM(Explain-then-Detect Policy Optimization for Hateful Memes),其核心思想是模拟人类审核员的训练流程,包含三个关键阶段:
- 基于政策手册的监督微调(SFT-PM):先用结构化的审核政策(由细粒度标签转换而来)对模型进行预训练,使其学会“按规则思考”。
- 课程学习的强化训练(GRPO-CL):先训练模型在细粒度任务(如识别攻击类型)上推理,再过渡到二分类任务,避免模型过早“走捷径”。
- 引入条件决策熵(CDE)作为奖励:不仅看结果对错,还看决策是否基于清晰、确信的推理。若模型在正确判断时表现出高置信度(即 CDE 低),就给予更高奖励;若错误却“盲目自信”,则重罚。
第二章:ExPO-HM 方法详解 —— 如何教会模型"先解释再检测"
在第一章中,我们指出:当前主流的仇恨模因(hateful memes)检测系统存在两个核心问题:
- 缺乏可解释性:仅输出"有害/无害"二值判断,无法为内容审核员提供决策依据;
- 解释质量差:现有"先解释再检测"(Explain-then-Detect)方法(如 CoT、GRPO)在准确率上反而低于直接微调(SFT)模型。
为解决这些问题,论文提出 ExPO-HM(Explain-then-Detect Policy Optimization for Hateful Memes),其设计灵感直接来源于人类审核员的训练流程:先学习政策手册,再通过由易到难的任务练习推理能力。
本章将系统解析 ExPO-HM 的三大核心技术组件:
- SFT-PM(基于政策手册的监督微调)
- GRPO-CL(课程学习下的强化训练)
- CDE(条件决策熵)作为推理质量度量与奖励信号
2.1 问题形式化与模型结构
给定一个模因 Ii∈RC×H×WI_i \in \mathbb{R}^{C \times H \times W}Ii∈RC×H×W(图像+叠加文本),标准任务是预测二元标签 ci∗∈{0,1}c_i^* \in \{0, 1\}ci∗∈{0,1}(0=无害,1=有害)。但在真实内容审核场景中,系统还需支持以下两类任务:
- 细粒度标签 zi∗z_i^*zi∗:包括攻击类型(如"非人化"、“煽动暴力”)和受害群体(如"残障"、“宗教”);
- 自然语言解释 ei∗e_i^*ei∗:说明为何该模因违规。
因此,ExPO-HM 的输出采用 长链式思维(Long CoT)格式:
<think>[解释:分析图像与文本如何共同构成对某群体的某种攻击]
</think>
<answer>[最终判断:hateful / benign 或具体类别]
</answer>
记整个输出序列为 y=(e,d)y = (e, d)y=(e,d),其中 eee 是解释(rationale),ddd 是文本化标签(如 “hateful”)。
大型多模态模型(LMM)在此扮演策略网络 πθ\pi_\thetaπθ,其参数为 θ\thetaθ,定义如下自回归生成分布:
πθ(y∣x)=∏t=1∣y∣πθ(yt∣y<t,x)\pi_\theta(y \mid x) = \prod_{t=1}^{|y|} \pi_\theta(y_t \mid y_{<t}, x) πθ(y∣x)=t=1∏∣y∣πθ(yt∣y<t,x)
其中输入 x=(I,p)x = (I, p)x=(I,p) 由模因图像 III 与提示词 ppp 拼接构成。
2.2 第一阶段:SFT-PM —— 用政策手册预训练模型
输入与输出定义
- 输入:模因图像 III 与结构化政策提示 ppp 组合为 x=(I,p)x = (I, p)x=(I,p);
- 输出:细粒度文本标签 d∈Yfined \in \mathcal{Y}_{\text{fine}}d∈Yfine,例如 “Dehumanizing” 或 “Disability”。
数据来源与提示构造
ExPO-HM 将数据集中的细粒度标注(如攻击类型、受害群体)转化为结构化政策手册式提示。例如,HatefulMemes 数据集中攻击类型的政策提示为:
这张模因是否对某个群体使用了以下任意一种攻击方式?
- 非人化(Dehumanizing):明确或隐含地将某一群体描绘为低于人类的存在;
- 贬低(Inferiority):声称某一群体低人一等、不值得或不重要;
- 煽动暴力(Inciting violence):呼吁或鼓励对某一群体实施身体或其他形式的伤害;
- 嘲讽(Mocking):贬低或拿某一群体开玩笑;
- 蔑视(Contempt):表达对某一群体的强烈厌恶、仇恨或极端负面情绪;
- 侮辱性词汇(Slurs):使用带有偏见或贬义的词语描述某一群体;
- 排斥(Exclusion):主张将某一群体隔离、驱逐或边缘化。
如果该模因未使用上述任何攻击方式,请回答:无害。
模型需基于此提示输出匹配标签(如 “Dehumanizing”)。
注意:此阶段不使用人工撰写的解释文本(gold rationale),因其往往偏离政策逻辑,反而损害泛化能力(见 4.5 节)。
2.3 第二阶段:GRPO-CL —— 课程学习引导推理演进
在 SFT-PM 的基础上,ExPO-HM 采用 GRPO(Group Relative Policy Optimization)进行强化学习,并引入课程学习(Curriculum Learning):
- 前 50% 训练步:仅使用细粒度数据(如攻击类型、受害群体任务);
- 后 50% 训练步:混合 50% 细粒度数据 + 50% 二分类数据("hateful/benign"任务)。
数据定义
- 二分类数据:来自原始数据集(如 HatefulMemes),标签为 ci∗∈{0,1}c_i^* \in \{0, 1\}ci∗∈{0,1},文本化后为 “benign” / “hateful”;
- 细粒度数据:来自扩展标注(如 Fine-Grained Hateful Meme Classification),包括:
- 攻击类型标签:如 “dehumanizing”, “mocking”, “inciting violence”;
- 受害群体标签:如 “religion”, “disability”, “sex”。
GRPO 奖励机制
GRPO 通过组内奖励归一化估计优势函数,无需 critic 网络:
Ag=rg−mean({r1,…,rG})std({r1,…,rG})+ϵA_g = \frac{r_g - \text{mean}(\{r_1, \dots, r_G\})}{\text{std}(\{r_1, \dots, r_G\}) + \epsilon} Ag=std({r1,…,rG})+ϵrg−mean({r1,…,rG})
其中 rgr_grg 是第 ggg 个采样输出的综合奖励(含格式、准确率、CDE,见 2.4 节),ϵ\epsilonϵ 为防除零小常数。
为何有效?
若直接训练二分类,模型倾向生成极短解释(平均 28 个 token),仅做表面判断。课程学习强制模型先掌握政策要素(如什么是"非人化"),再做高层综合判断,解释长度提升至 52 token,推理质量显著增强。
2.4 第三阶段:CDE 奖励 —— 让模型"自信且正确"
传统 GRPO 仅依赖格式奖励 rformatr_{\text{format}}rformat 和准确率奖励 raccr_{\text{acc}}racc,无法衡量推理质量。ExPO-HM 引入 条件决策熵(Conditional Decision Entropy, CDE)作为新奖励信号。
CDE 定义
给定输入 xxx,模型生成解释 eee,然后基于 eee 做出决策 ddd。CDE 定义为:
H(d∣e,x)=−Ed∼πθ(⋅∣e,x)[logπθ(d∣e,x)]H(d \mid e, x) = -\mathbb{E}_{d \sim \pi_\theta(\cdot \mid e, x)} \left[ \log \pi_\theta(d \mid e, x) \right] H(d∣e,x)=−Ed∼πθ(⋅∣e,x)[logπθ(d∣e,x)]
- CDE 越低 → 决策分布越集中 → 自信;
- CDE 越高 → 决策分布越均匀 → 犹豫。
CDE 计算方式
实验中使用 蒙特卡洛估计:
- 对每个输入 xix_ixi,采样 K=16K = 16K=16 条解释 eik∼πθ(⋅∣xi)e_{ik} \sim \pi_\theta(\cdot \mid x_i)eik∼πθ(⋅∣xi);
- 对每条解释 eike_{ik}eik,计算其条件决策熵 H(d∣eik,xi)H(d \mid e_{ik}, x_i)H(d∣eik,xi);
- 平均得到 CDE 估计值:
H^(d∣e,x)=1K∣D∣∑i=1∣D∣∑k=1KH(d∣eik,xi)\hat{H}(d \mid e, x) = \frac{1}{K|D|} \sum_{i=1}^{|D|} \sum_{k=1}^{K} H(d \mid e_{ik}, x_i) H^(d∣e,x)=K∣D∣1i=1∑∣D∣k=1∑KH(d∣eik,xi)
实际实现中,CDE 仅在决策部分(answer)计算,不惩罚解释多样性。
CDE 奖励函数
设 h=H(d∣e,x)h = H(d \mid e, x)h=H(d∣e,x),δ=1[d=d∗]\delta = \mathbb{1}[d = d^*]δ=1[d=d∗](判断是否正确),则 CDE 奖励为分段函数:
rCDE(h,δ)={w,if δ=1,h≤a(自信且正确,高奖励)w⋅b−hb−a,if δ=1,a<h<b(正确但不够确信,中奖励)0,if δ=1,h≥b−ρw,if δ=0,h≤a(错误且盲目自信,重罚)w⋅h−ab−a,if δ=0,a<h<b(错误但犹豫,轻罚)h,if δ=0,h≥b(错误但明显不确定,几乎无罚)r_{\text{CDE}}(h, \delta) = \begin{cases} w, & \text{if } \delta = 1, h \le a \quad \text{(自信且正确,高奖励)} \\ w \cdot \frac{b - h}{b - a}, & \text{if } \delta = 1, a < h < b \quad \text{(正确但不够确信,中奖励)} \\ 0, & \text{if } \delta = 1, h \ge b \\ -\rho w, & \text{if } \delta = 0, h \le a \quad \text{(错误且盲目自信,重罚)} \\ w \cdot \frac{h - a}{b - a}, & \text{if } \delta = 0, a < h < b \quad \text{(错误但犹豫,轻罚)} \\ h, & \text{if } \delta = 0, h \ge b \quad \text{(错误但明显不确定,几乎无罚)} \end{cases} rCDE(h,δ)=⎩⎨⎧w,w⋅b−ab−h,0,−ρw,w⋅b−ah−a,h,if δ=1,h≤a(自信且正确,高奖励)if δ=1,a<h<b(正确但不够确信,中奖励)if δ=1,h≥bif δ=0,h≤a(错误且盲目自信,重罚)if δ=0,a<h<b(错误但犹豫,轻罚)if δ=0,h≥b(错误但明显不确定,几乎无罚)
默认超参:a=0.1a = 0.1a=0.1, b=0.5b = 0.5b=0.5, w=0.2w = 0.2w=0.2, ρ=0.25\rho = 0.25ρ=0.25。
效果:加入 CDE 后,ExPO-HM 在 HatefulMemes 上的 CDE 从 0.056(GRPO-CL)降至 0.026,LLM 评判分数从 5.8 提升至 6.2,验证了"正确+自信"推理的有效性。
2.5 整体训练流程
ExPO-HM 的完整训练流程如下:
- SFT-PM Warmup:在政策手册增强的细粒度数据上微调 LMM;
- GRPO Curriculum Learning:
- 第一阶段(前 50% 步):仅训练细粒度任务;
- 第二阶段(后 50% 步):混合细粒度与二分类任务(比例 1:1);
- GRPO + CDE Reward:总奖励为
r=rformat+racc+w⋅rCDEr = r_{\text{format}} + r_{\text{acc}} + w \cdot r_{\text{CDE}} r=rformat+racc+w⋅rCDE
该流程使模型在保持高准确率的同时,生成可解释、可操作、符合政策的推理,真正实现"先解释再检测"的审核友好范式。
第三章:实验分析 —— 为什么 ExPO-HM 既更准,又更可解释?
在前两章中,我们介绍了仇恨模因(hateful memes)检测的现实挑战与 ExPO-HM 的方法论设计。本章将深入剖析实验结果,不仅验证其在多项任务上的 SOTA 表现,更重点解读一些反直觉但极具启发性的发现——这些结论对构建可解释、可行动的 AI 审核系统具有深远意义。
3.1 主实验:ExPO-HM 全面领先
我们在三个主流数据集(HatefulMemes、MAMI、PrideMM)上评估 ExPO-HM,涵盖三大任务:
- 二分类(有害 vs 无害)
- 细粒度分类(攻击类型、受害群体、LGBTQ+ 立场等)
- 推理质量(LLM-as-judge 评分 + CDE)
表 1 关键结果摘要(Qwen2.5-VL-7B)
| 方法 | HatefulMemes (二分类 F1) | 攻击类型 F1 | 受害群体 F1 | LLM 推理解释评分 |
|---|---|---|---|---|
| RA-HMD(SOTA 直接检测) | 80.2 | — | — | 5.4 |
| GRPO(标准强化学习) | 74.5 | 61.2 | 64.5 | 5.2 |
| ExPO-HM(本文) | 81.1 | 75.6 | 77.2 | 6.2 |
✅ 关键结论 1:ExPO-HM 是首个在二分类准确率上超越直接检测模型(如 RA-HMD)的“先解释再检测”系统。这意味着,可解释性不再以牺牲性能为代价。
此外,在细粒度任务上,ExPO-HM 相比 GRPO 提升高达 +14.4 F1(攻击类型) 和 +12.7 F1(受害群体),表明其真正理解了审核政策的结构化逻辑。
3.2 有趣的发现一:“解释越长 ≠ 质量越高”,但“课程学习能让解释更有内容”
一个常见误区是认为“解释越长越好”。然而实验发现:
- 标准 GRPO 在二分类任务中平均解释长度仅 28 个 token,内容空洞(如“这张图没有攻击任何群体”);
- ExPO-HM(GRPO-CL) 平均长度达 52 个 token,且包含具体攻击类型(如“使用‘蔬菜’一词对残障人士进行非人化”)。
🔍 启示:长度本身不是目标,但课程学习(先练细粒度再练二分类)迫使模型生成更具体的政策引用,从而自然拉长解释,且信息密度更高。
这说明:训练顺序比解释长度更重要。人类审核员也是先学“什么是非人化”,再判断“这张图是否非人化”。
3.3 有趣的发现二:人类写的解释(gold rationale)反而会损害模型性能!
Hatred 数据集提供了人工撰写的解释文本(gold rationale)。研究者尝试用这些解释做 SFT(记为 SFT-R),结果令人意外:
| Warmup 策略 | 二分类 F1(SFT 阶段) | 二分类 F1(经 GRPO-CL + CDE 后) |
|---|---|---|
| SFT-B(仅二分类标签) | 74.1 | 73.5 |
| SFT-R(人类解释) | 72.2 | 79.2 |
| SFT-PM(政策手册) | 74.3 | 81.1 |
❗ 关键结论 2:虽然 SFT-R 在最终性能上优于 SFT-B,但SFT-PM 仍是最佳选择。更惊人的是,SFT-R 在 SFT 阶段表现最差。
原因分析:
- 人类解释往往偏离政策逻辑,使用主观语言(如“我觉得这很冒犯”),而非结构化规则(如“这属于非人化攻击”);
- 模型若模仿此类“离策略”(off-policy)解释,会混淆审核标准,导致泛化能力下降。
💡 启示:在可解释 AI 训练中,高质量 ≠ 人类风格,而应追求政策对齐(policy-aligned)。
3.4 有趣的发现三:CDE 与 LLM 评分高度负相关(r = -0.78)
我们提出 条件决策熵(CDE) 作为推理质量的代理指标。实验验证其有效性:
- 在 HatefulMemes 上,对 60 个不同配置(含随机种子)计算 CDE 与 LLM-as-judge 评分;
- Pearson 相关系数 r = -0.78,Spearman ρ = -0.81(p < 0.001)。
📉 这意味着:CDE 越低,LLM 认为解释质量越高。
进一步分析 CDE 分布(图 3):
- ExPO-HM:正确预测时 CDE ≈ 0.019,错误时 ≈ 0.048 → 高置信正确,低置信错误;
- GRPO:正确时 CDE ≈ 0.278,错误时 ≈ 0.226 → 始终犹豫不决。
✅ 关键结论 3:CDE 不仅可作为训练奖励,还可作为无需人工标注的自动评估指标,大幅降低评估成本。
3.5 消融实验:三大组件缺一不可
表 2 显示各组件贡献:
| 组件 | 二分类 F1 | 攻击类型 F1 | LLM 评分 | CDE |
|---|---|---|---|---|
| 仅 GRPO(基线) | 74.5 | 61.2 | 5.2 | 0.263 |
| + SFT-PM | 75.8 | 70.8 | 5.6 | 0.092 |
| + GRPO-CL | 78.4 | 74.3 | 5.8 | 0.056 |
| + CDE | 81.1 | 75.6 | 6.2 | 0.026 |
🔧 结论:
- SFT-PM 是基础:教会模型“政策语言”;
- GRPO-CL 是桥梁:引导从细粒度到二分类的推理迁移;
- CDE 是助推器:奖励“自信且正确”,惩罚“盲目自信”。
小结:ExPO-HM 的三大范式突破
- 从“黑箱报警”到“政策驱动推理”:模型输出不再是 yes/no,而是可操作的审核依据;
- 从“牺牲性能换解释”到“解释提升性能”:首次实现 Explain-then-Detect 在准确率上超越 Direct Detection;
- 从“依赖人工解释”到“结构化政策学习”:证明高质量推理不需模仿人类语言,而需对齐审核规则。
第四章:实用提示词与典型案例分析
ExPO-HM 的成功在很大程度上依赖于其精心设计的 政策手册式提示词(policy-manual-style prompts)。这些提示不是通用的“请解释你的推理”,而是结构化、任务导向、对齐审核政策的指令,能有效引导模型生成准确且可操作的解释。
本章将展示文中核心提示词的中文翻译版本,并结合论文附录 F 中的真实案例,说明 ExPO-HM 如何通过高质量推理识别那些表面“无害”但实则充满攻击性的仇恨模因。
4.1 中文版政策手册提示词(可直接用于工程实践)
1. 攻击类型识别提示(用于 HatefulMemes)
这张模因是否对某个群体使用了以下任意一种攻击方式?
- 非人化(Dehumanizing):明确或隐含地将某一群体描绘为低于人类的存在;
- 贬低(Inferiority):声称某一群体低人一等、不值得或不重要;
- 煽动暴力(Inciting violence):呼吁或鼓励对某一群体实施身体或其他形式的伤害;
- 嘲讽(Mocking):贬低或拿某一群体开玩笑;
- 蔑视(Contempt):表达对某一群体的强烈厌恶、仇恨或极端负面情绪;
- 侮辱性词汇(Slurs):使用带有偏见或贬义的词语描述某一群体;
- 排斥(Exclusion):主张将某一群体隔离、驱逐或边缘化。
如果该模因未使用上述任何攻击方式,请回答:无害。
2. 受害群体识别提示(用于 HatefulMemes)
这张模因是否对以下受保护群体表达了仇恨或负面偏见?
- 宗教:由共同信仰体系定义的群体;
- 种族:由种族化身体特征定义的群体;
- 性别:由生理性别或性别认同定义的群体;
- 国籍:由国家或地区出身定义的群体;
- 残障:因身体或精神状况而产生长期依赖的群体。
如果该模因未针对任何受保护群体,请回答:无害。
3. LGBTQ+ 立场识别提示(用于 PrideMM)
基于该模因的内容与语境,其对 LGBTQ+ 个体或社群的立场是什么?
请选择以下选项之一:
- 中立:内容未明确表达支持或反对;
- 支持:内容表达积极态度或支持;
- 反对:内容表达负面态度或反对。
这些提示词的共同特点是:
- 封闭式选项,限制模型自由发挥;
- 明确定义,避免歧义;
- 与真实审核政策对齐,便于人类审核员理解和验证。
4.2 典型案例分析:ExPO-HM 如何“看穿”伪装?
以下案例均来自论文附录 F,展示了 GRPO(基线) 与 ExPO-HM 在相同输入下的推理与判断差异。
案例一:轮椅与“蔬菜”的隐喻攻击
-
模因文字:
“蔬菜最难吃的部分是轮椅。” -
真实标签:仇恨内容(hateful)
-
GRPO 判断与解释:
判断:无害
解释:该模因使用轮椅作为视觉隐喻,谈论蔬菜中最难吃的部分,属于文字游戏,并非侮辱。轮椅是辅助行动的工具,不是贬义符号。 -
ExPO-HM 判断与解释:
判断:仇恨内容
解释:该模因使用“蔬菜”一词指代残障人士,这是一种非人化(dehumanizing)的侮辱性用语。将轮椅与“难吃”关联,进一步强化了对残障人士的贬低。此类语言属于仇恨言论。
✅ 关键洞察:表面是“文字游戏”,实则是利用社会对残障群体的刻板印象进行隐性攻击。ExPO-HM 通过政策对齐的推理,准确识别出违规要素。
案例二:用狗指代人类
-
模因图片:几张狗的照片,配文:“一群男人”
-
真实标签:仇恨内容
-
GRPO 判断与解释:
判断:无害
解释:这是网络常见梗,用动物代表人群以制造幽默效果,无明确攻击意图。 -
ExPO-HM 判断与解释:
判断:仇恨内容
解释:该模因将人类男性比作狗,属于非人化攻击。虽然动物拟人是常见网络修辞,但在攻击性语境中,这种比喻会贬低目标群体的人格尊严,构成仇恨言论。
✅ 关键洞察:ExPO-HM 区分了“幽默拟人”与“攻击性非人化”,体现了对语境与意图的深层次理解。
4.3 工程启示
- 不要依赖通用 CoT 提示(如“请逐步思考”),而应将审核政策转化为结构化提示;
- 提示词设计决定推理质量:封闭选项 + 明确定义 = 可控、可评估、可行动的输出;
- 强化学习需配合课程学习与 CDE 奖励,否则模型会“走捷径”或生成空洞解释。
通过将政策、提示、训练机制三者紧密结合,ExPO-HM 实现了从“黑箱报警”到“可解释决策”的关键跃迁,为构建负责任的 AI 内容审核系统提供了新范式。
