当前位置: 首页 > news >正文

【内容检测 EXPO-HM】 优化训练方式 提升解释性与准确性

《EXPO-HM: LEARNING TO EXPLAIN-THEN-DETECT FOR HATEFUL MEME DETECTION》提出了一种仇恨内容检测的算法,训练结构创新比较大,引入了困惑度作为GRPO的学习目标,同时对SFT也进行了调整(得出了人类撰写SFT数据效果较差的结论),得到了更加可解释、更准确的仇恨检测模型,相关经验技巧可用于语言模型训练,代码即将开源。

他们的另一相关篇工作也非常有意思,开源了代码地址。

第一章:问题背景——为什么我们需要“先解释再检测”的仇恨模因识别系统?

在当今社交媒体高度发达的网络环境中,仇恨模因(hateful memes) 已成为一种极具隐蔽性和传播力的网络暴力形式。模因(meme)通常由一张图片叠加一句讽刺、戏谑甚至煽动性的文字组成,其多模态特性(图像+文本)让传统基于关键词或单一模态的有害内容过滤系统面临巨大挑战。

1.1 传统方法的局限:只有“是/否”,没有“为什么”

过去几年,研究者普遍将仇恨模因识别任务建模为一个二分类问题:给定一个模因,模型判断它是“有害(hateful)”还是“无害(benign)”。这种方法虽然在标准数据集(如 HatefulMemes)上取得了不错的准确率,但在真实内容审核场景中却严重不足

为什么?因为人类审核员(moderators)在做决策时,不仅需要知道“这个内容是否违规”,更需要知道:

  • 攻击类型:是嘲讽(mocking)、贬低(inferiority)、煽动暴力(inciting violence),还是使用侮辱性词汇(slurs)?
  • 受害群体:攻击对象是基于种族、宗教、性别、性取向还是残障身份?
  • 判断依据:模型是基于哪些视觉或文本线索做出判断的?

如果系统只输出一个“是”或“否”,审核员无法快速验证其合理性,也无法向用户解释为何某条内容被删除——这在平台透明度和用户信任度方面都是重大缺陷。

示例(来自论文附录 F)
一个模因显示:“这个‘蔬菜’最难吃的部分是轮椅。”

  • 传统模型(如 GRPO) 可能判断为“无害”,解释为:“这是个文字游戏,轮椅只是比喻,没有攻击特定群体。”
  • ExPO-HM 则识别出:“‘蔬菜’在此语境中是对残障人士的贬损性用语,属于非人化(dehumanizing)攻击,因此是有害的。”

显然,后者不仅判断更准确,而且提供了可解释、可行动的审核依据

1.2 “先解释再检测”(Explain-then-Detect):向人类审核员学习

受人类审核流程的启发,研究者提出了 “先解释再检测” 的新范式:

模型首先生成一段自然语言的推理(rationale),说明为何认为该模因有害(或无害);
然后基于这段推理,再做出最终的分类决策。

从形式上看,模型的输出结构如下:

<think>[解释:分析图像与文本如何共同构成攻击,指出攻击类型和目标群体]
</think>
<answer>[最终判断:hateful / benign]
</answer>

这种设计模仿了人类审核员对照内容审核政策手册(moderation policy manual)逐步推理的过程。例如,政策可能规定:

“若内容将某一群体描述为‘低于人类’或使用动物比喻,则构成‘非人化’违规。”

模型在训练时若能学会引用这类规则进行推理,就能显著提升判断的可靠性与一致性

1.3 现有“先解释再检测”方法为何效果不佳?

尽管想法很好,但现有基于 思维链(Chain-of-Thought, CoT)提示多智能体框架 的 Explain-then-Detect 系统,在二分类准确率上反而不如直接微调(SFT)的基线模型

论文指出两大核心问题:

  1. 解释不聚焦政策关键点:模型生成的解释常常忽略真正的违规要素(如攻击类型、目标群体),导致推理与决策脱节。
  2. 奖励信号太弱:在强化学习(如 GRPO)中,仅用“最终分类是否正确”作为奖励信号,无法有效指导中间推理过程的优化——这就像只告诉学生“答案对错”,却不解释“解题步骤哪里有问题”。

1.4 本文解决方案:ExPO-HM

为解决上述问题,论文提出 ExPO-HM(Explain-then-Detect Policy Optimization for Hateful Memes),其核心思想是模拟人类审核员的训练流程,包含三个关键阶段:

  1. 基于政策手册的监督微调(SFT-PM):先用结构化的审核政策(由细粒度标签转换而来)对模型进行预训练,使其学会“按规则思考”。
  2. 课程学习的强化训练(GRPO-CL):先训练模型在细粒度任务(如识别攻击类型)上推理,再过渡到二分类任务,避免模型过早“走捷径”。
  3. 引入条件决策熵(CDE)作为奖励:不仅看结果对错,还看决策是否基于清晰、确信的推理。若模型在正确判断时表现出高置信度(即 CDE 低),就给予更高奖励;若错误却“盲目自信”,则重罚。

第二章:ExPO-HM 方法详解 —— 如何教会模型"先解释再检测"

在第一章中,我们指出:当前主流的仇恨模因(hateful memes)检测系统存在两个核心问题:

  1. 缺乏可解释性:仅输出"有害/无害"二值判断,无法为内容审核员提供决策依据;
  2. 解释质量差:现有"先解释再检测"(Explain-then-Detect)方法(如 CoT、GRPO)在准确率上反而低于直接微调(SFT)模型。

为解决这些问题,论文提出 ExPO-HM(Explain-then-Detect Policy Optimization for Hateful Memes),其设计灵感直接来源于人类审核员的训练流程:先学习政策手册,再通过由易到难的任务练习推理能力。

本章将系统解析 ExPO-HM 的三大核心技术组件:

  • SFT-PM(基于政策手册的监督微调)
  • GRPO-CL(课程学习下的强化训练)
  • CDE(条件决策熵)作为推理质量度量与奖励信号

2.1 问题形式化与模型结构

给定一个模因 Ii∈RC×H×WI_i \in \mathbb{R}^{C \times H \times W}IiRC×H×W(图像+叠加文本),标准任务是预测二元标签 ci∗∈{0,1}c_i^* \in \{0, 1\}ci{0,1}(0=无害,1=有害)。但在真实内容审核场景中,系统还需支持以下两类任务:

  • 细粒度标签 zi∗z_i^*zi:包括攻击类型(如"非人化"、“煽动暴力”)和受害群体(如"残障"、“宗教”);
  • 自然语言解释 ei∗e_i^*ei:说明为何该模因违规。

因此,ExPO-HM 的输出采用 长链式思维(Long CoT)格式:

<think>[解释:分析图像与文本如何共同构成对某群体的某种攻击]
</think>
<answer>[最终判断:hateful / benign 或具体类别]
</answer>

记整个输出序列为 y=(e,d)y = (e, d)y=(e,d),其中 eee 是解释(rationale),ddd 是文本化标签(如 “hateful”)。

大型多模态模型(LMM)在此扮演策略网络 πθ\pi_\thetaπθ,其参数为 θ\thetaθ,定义如下自回归生成分布:

πθ(y∣x)=∏t=1∣y∣πθ(yt∣y<t,x)\pi_\theta(y \mid x) = \prod_{t=1}^{|y|} \pi_\theta(y_t \mid y_{<t}, x) πθ(yx)=t=1yπθ(yty<t,x)

其中输入 x=(I,p)x = (I, p)x=(I,p) 由模因图像 III 与提示词 ppp 拼接构成。


2.2 第一阶段:SFT-PM —— 用政策手册预训练模型

输入与输出定义

  • 输入:模因图像 III结构化政策提示 ppp 组合为 x=(I,p)x = (I, p)x=(I,p)
  • 输出:细粒度文本标签 d∈Yfined \in \mathcal{Y}_{\text{fine}}dYfine,例如 “Dehumanizing” 或 “Disability”。

数据来源与提示构造

ExPO-HM 将数据集中的细粒度标注(如攻击类型、受害群体)转化为结构化政策手册式提示。例如,HatefulMemes 数据集中攻击类型的政策提示为:

这张模因是否对某个群体使用了以下任意一种攻击方式?

  • 非人化(Dehumanizing):明确或隐含地将某一群体描绘为低于人类的存在;
  • 贬低(Inferiority):声称某一群体低人一等、不值得或不重要;
  • 煽动暴力(Inciting violence):呼吁或鼓励对某一群体实施身体或其他形式的伤害;
  • 嘲讽(Mocking):贬低或拿某一群体开玩笑;
  • 蔑视(Contempt):表达对某一群体的强烈厌恶、仇恨或极端负面情绪;
  • 侮辱性词汇(Slurs):使用带有偏见或贬义的词语描述某一群体;
  • 排斥(Exclusion):主张将某一群体隔离、驱逐或边缘化。
    如果该模因未使用上述任何攻击方式,请回答:无害

模型需基于此提示输出匹配标签(如 “Dehumanizing”)。
注意:此阶段不使用人工撰写的解释文本(gold rationale),因其往往偏离政策逻辑,反而损害泛化能力(见 4.5 节)。


2.3 第二阶段:GRPO-CL —— 课程学习引导推理演进

在 SFT-PM 的基础上,ExPO-HM 采用 GRPO(Group Relative Policy Optimization)进行强化学习,并引入课程学习(Curriculum Learning):

  • 前 50% 训练步:仅使用细粒度数据(如攻击类型、受害群体任务);
  • 后 50% 训练步:混合 50% 细粒度数据 + 50% 二分类数据("hateful/benign"任务)。

数据定义

  • 二分类数据:来自原始数据集(如 HatefulMemes),标签为 ci∗∈{0,1}c_i^* \in \{0, 1\}ci{0,1},文本化后为 “benign” / “hateful”;
  • 细粒度数据:来自扩展标注(如 Fine-Grained Hateful Meme Classification),包括:
    • 攻击类型标签:如 “dehumanizing”, “mocking”, “inciting violence”;
    • 受害群体标签:如 “religion”, “disability”, “sex”。

GRPO 奖励机制

GRPO 通过组内奖励归一化估计优势函数,无需 critic 网络:

Ag=rg−mean({r1,…,rG})std({r1,…,rG})+ϵA_g = \frac{r_g - \text{mean}(\{r_1, \dots, r_G\})}{\text{std}(\{r_1, \dots, r_G\}) + \epsilon} Ag=std({r1,,rG})+ϵrgmean({r1,,rG})

其中 rgr_grg 是第 ggg 个采样输出的综合奖励(含格式、准确率、CDE,见 2.4 节),ϵ\epsilonϵ 为防除零小常数。

为何有效
若直接训练二分类,模型倾向生成极短解释(平均 28 个 token),仅做表面判断。课程学习强制模型先掌握政策要素(如什么是"非人化"),再做高层综合判断,解释长度提升至 52 token,推理质量显著增强。


2.4 第三阶段:CDE 奖励 —— 让模型"自信且正确"

传统 GRPO 仅依赖格式奖励 rformatr_{\text{format}}rformat准确率奖励 raccr_{\text{acc}}racc,无法衡量推理质量。ExPO-HM 引入 条件决策熵(Conditional Decision Entropy, CDE)作为新奖励信号。

CDE 定义

给定输入 xxx,模型生成解释 eee,然后基于 eee 做出决策 ddd。CDE 定义为:

H(d∣e,x)=−Ed∼πθ(⋅∣e,x)[log⁡πθ(d∣e,x)]H(d \mid e, x) = -\mathbb{E}_{d \sim \pi_\theta(\cdot \mid e, x)} \left[ \log \pi_\theta(d \mid e, x) \right] H(de,x)=Edπθ(e,x)[logπθ(de,x)]

  • CDE 越低 → 决策分布越集中 → 自信
  • CDE 越高 → 决策分布越均匀 → 犹豫

CDE 计算方式

实验中使用 蒙特卡洛估计

  • 对每个输入 xix_ixi,采样 K=16K = 16K=16 条解释 eik∼πθ(⋅∣xi)e_{ik} \sim \pi_\theta(\cdot \mid x_i)eikπθ(xi)
  • 对每条解释 eike_{ik}eik,计算其条件决策熵 H(d∣eik,xi)H(d \mid e_{ik}, x_i)H(deik,xi)
  • 平均得到 CDE 估计值:

H^(d∣e,x)=1K∣D∣∑i=1∣D∣∑k=1KH(d∣eik,xi)\hat{H}(d \mid e, x) = \frac{1}{K|D|} \sum_{i=1}^{|D|} \sum_{k=1}^{K} H(d \mid e_{ik}, x_i) H^(de,x)=KD1i=1Dk=1KH(deik,xi)

实际实现中,CDE 仅在决策部分(answer)计算,不惩罚解释多样性。

CDE 奖励函数

h=H(d∣e,x)h = H(d \mid e, x)h=H(de,x)δ=1[d=d∗]\delta = \mathbb{1}[d = d^*]δ=1[d=d](判断是否正确),则 CDE 奖励为分段函数:

rCDE(h,δ)={w,if δ=1,h≤a(自信且正确,高奖励)w⋅b−hb−a,if δ=1,a<h<b(正确但不够确信,中奖励)0,if δ=1,h≥b−ρw,if δ=0,h≤a(错误且盲目自信,重罚)w⋅h−ab−a,if δ=0,a<h<b(错误但犹豫,轻罚)h,if δ=0,h≥b(错误但明显不确定,几乎无罚)r_{\text{CDE}}(h, \delta) = \begin{cases} w, & \text{if } \delta = 1, h \le a \quad \text{(自信且正确,高奖励)} \\ w \cdot \frac{b - h}{b - a}, & \text{if } \delta = 1, a < h < b \quad \text{(正确但不够确信,中奖励)} \\ 0, & \text{if } \delta = 1, h \ge b \\ -\rho w, & \text{if } \delta = 0, h \le a \quad \text{(错误且盲目自信,重罚)} \\ w \cdot \frac{h - a}{b - a}, & \text{if } \delta = 0, a < h < b \quad \text{(错误但犹豫,轻罚)} \\ h, & \text{if } \delta = 0, h \ge b \quad \text{(错误但明显不确定,几乎无罚)} \end{cases} rCDE(h,δ)=w,wbabh,0,ρw,wbaha,h,if δ=1,ha(自信且正确,高奖励)if δ=1,a<h<b(正确但不够确信,中奖励)if δ=1,hbif δ=0,ha(错误且盲目自信,重罚)if δ=0,a<h<b(错误但犹豫,轻罚)if δ=0,hb(错误但明显不确定,几乎无罚)

默认超参:a=0.1a = 0.1a=0.1, b=0.5b = 0.5b=0.5, w=0.2w = 0.2w=0.2, ρ=0.25\rho = 0.25ρ=0.25

效果:加入 CDE 后,ExPO-HM 在 HatefulMemes 上的 CDE 从 0.056(GRPO-CL)降至 0.026,LLM 评判分数从 5.8 提升至 6.2,验证了"正确+自信"推理的有效性。


2.5 整体训练流程

ExPO-HM 的完整训练流程如下:

  1. SFT-PM Warmup:在政策手册增强的细粒度数据上微调 LMM;
  2. GRPO Curriculum Learning
    • 第一阶段(前 50% 步):仅训练细粒度任务;
    • 第二阶段(后 50% 步):混合细粒度与二分类任务(比例 1:1);
  3. GRPO + CDE Reward:总奖励为
    r=rformat+racc+w⋅rCDEr = r_{\text{format}} + r_{\text{acc}} + w \cdot r_{\text{CDE}} r=rformat+racc+wrCDE

该流程使模型在保持高准确率的同时,生成可解释、可操作、符合政策的推理,真正实现"先解释再检测"的审核友好范式。


第三章:实验分析 —— 为什么 ExPO-HM 既更准,又更可解释?

在前两章中,我们介绍了仇恨模因(hateful memes)检测的现实挑战与 ExPO-HM 的方法论设计。本章将深入剖析实验结果,不仅验证其在多项任务上的 SOTA 表现,更重点解读一些反直觉但极具启发性的发现——这些结论对构建可解释、可行动的 AI 审核系统具有深远意义。


3.1 主实验:ExPO-HM 全面领先

我们在三个主流数据集(HatefulMemesMAMIPrideMM)上评估 ExPO-HM,涵盖三大任务:

  • 二分类(有害 vs 无害)
  • 细粒度分类(攻击类型、受害群体、LGBTQ+ 立场等)
  • 推理质量(LLM-as-judge 评分 + CDE)

表 1 关键结果摘要(Qwen2.5-VL-7B)

方法HatefulMemes (二分类 F1)攻击类型 F1受害群体 F1LLM 推理解释评分
RA-HMD(SOTA 直接检测)80.25.4
GRPO(标准强化学习)74.561.264.55.2
ExPO-HM(本文)81.175.677.26.2

关键结论 1:ExPO-HM 是首个在二分类准确率上超越直接检测模型(如 RA-HMD)的“先解释再检测”系统。这意味着,可解释性不再以牺牲性能为代价

此外,在细粒度任务上,ExPO-HM 相比 GRPO 提升高达 +14.4 F1(攻击类型)+12.7 F1(受害群体),表明其真正理解了审核政策的结构化逻辑。


3.2 有趣的发现一:“解释越长 ≠ 质量越高”,但“课程学习能让解释更有内容”

一个常见误区是认为“解释越长越好”。然而实验发现:

  • 标准 GRPO 在二分类任务中平均解释长度仅 28 个 token,内容空洞(如“这张图没有攻击任何群体”);
  • ExPO-HM(GRPO-CL) 平均长度达 52 个 token,且包含具体攻击类型(如“使用‘蔬菜’一词对残障人士进行非人化”)。

🔍 启示长度本身不是目标,但课程学习(先练细粒度再练二分类)迫使模型生成更具体的政策引用,从而自然拉长解释,且信息密度更高。

这说明:训练顺序比解释长度更重要。人类审核员也是先学“什么是非人化”,再判断“这张图是否非人化”。


3.3 有趣的发现二:人类写的解释(gold rationale)反而会损害模型性能!

Hatred 数据集提供了人工撰写的解释文本(gold rationale)。研究者尝试用这些解释做 SFT(记为 SFT-R),结果令人意外:

Warmup 策略二分类 F1(SFT 阶段)二分类 F1(经 GRPO-CL + CDE 后)
SFT-B(仅二分类标签)74.173.5
SFT-R(人类解释)72.279.2
SFT-PM(政策手册)74.381.1

关键结论 2:虽然 SFT-R 在最终性能上优于 SFT-B,但SFT-PM 仍是最佳选择。更惊人的是,SFT-R 在 SFT 阶段表现最差

原因分析

  • 人类解释往往偏离政策逻辑,使用主观语言(如“我觉得这很冒犯”),而非结构化规则(如“这属于非人化攻击”);
  • 模型若模仿此类“离策略”(off-policy)解释,会混淆审核标准,导致泛化能力下降。

💡 启示:在可解释 AI 训练中,高质量 ≠ 人类风格,而应追求政策对齐(policy-aligned)。


3.4 有趣的发现三:CDE 与 LLM 评分高度负相关(r = -0.78)

我们提出 条件决策熵(CDE) 作为推理质量的代理指标。实验验证其有效性:

  • 在 HatefulMemes 上,对 60 个不同配置(含随机种子)计算 CDE 与 LLM-as-judge 评分;
  • Pearson 相关系数 r = -0.78,Spearman ρ = -0.81(p < 0.001)

📉 这意味着:CDE 越低,LLM 认为解释质量越高

进一步分析 CDE 分布(图 3):

  • ExPO-HM:正确预测时 CDE ≈ 0.019,错误时 ≈ 0.048高置信正确,低置信错误
  • GRPO:正确时 CDE ≈ 0.278,错误时 ≈ 0.226始终犹豫不决

关键结论 3:CDE 不仅可作为训练奖励,还可作为无需人工标注的自动评估指标,大幅降低评估成本。


3.5 消融实验:三大组件缺一不可

表 2 显示各组件贡献:

组件二分类 F1攻击类型 F1LLM 评分CDE
仅 GRPO(基线)74.561.25.20.263
+ SFT-PM75.870.85.60.092
+ GRPO-CL78.474.35.80.056
+ CDE81.175.66.20.026

🔧 结论

  • SFT-PM 是基础:教会模型“政策语言”;
  • GRPO-CL 是桥梁:引导从细粒度到二分类的推理迁移;
  • CDE 是助推器:奖励“自信且正确”,惩罚“盲目自信”。

小结:ExPO-HM 的三大范式突破

  1. 从“黑箱报警”到“政策驱动推理”:模型输出不再是 yes/no,而是可操作的审核依据;
  2. 从“牺牲性能换解释”到“解释提升性能”:首次实现 Explain-then-Detect 在准确率上超越 Direct Detection;
  3. 从“依赖人工解释”到“结构化政策学习”:证明高质量推理不需模仿人类语言,而需对齐审核规则。

第四章:实用提示词与典型案例分析

ExPO-HM 的成功在很大程度上依赖于其精心设计的 政策手册式提示词(policy-manual-style prompts)。这些提示不是通用的“请解释你的推理”,而是结构化、任务导向、对齐审核政策的指令,能有效引导模型生成准确且可操作的解释。

本章将展示文中核心提示词的中文翻译版本,并结合论文附录 F 中的真实案例,说明 ExPO-HM 如何通过高质量推理识别那些表面“无害”但实则充满攻击性的仇恨模因。


4.1 中文版政策手册提示词(可直接用于工程实践)

1. 攻击类型识别提示(用于 HatefulMemes)

这张模因是否对某个群体使用了以下任意一种攻击方式?

  • 非人化(Dehumanizing):明确或隐含地将某一群体描绘为低于人类的存在;
  • 贬低(Inferiority):声称某一群体低人一等、不值得或不重要;
  • 煽动暴力(Inciting violence):呼吁或鼓励对某一群体实施身体或其他形式的伤害;
  • 嘲讽(Mocking):贬低或拿某一群体开玩笑;
  • 蔑视(Contempt):表达对某一群体的强烈厌恶、仇恨或极端负面情绪;
  • 侮辱性词汇(Slurs):使用带有偏见或贬义的词语描述某一群体;
  • 排斥(Exclusion):主张将某一群体隔离、驱逐或边缘化。
    如果该模因未使用上述任何攻击方式,请回答:无害

2. 受害群体识别提示(用于 HatefulMemes)

这张模因是否对以下受保护群体表达了仇恨或负面偏见?

  • 宗教:由共同信仰体系定义的群体;
  • 种族:由种族化身体特征定义的群体;
  • 性别:由生理性别或性别认同定义的群体;
  • 国籍:由国家或地区出身定义的群体;
  • 残障:因身体或精神状况而产生长期依赖的群体。
    如果该模因未针对任何受保护群体,请回答:无害

3. LGBTQ+ 立场识别提示(用于 PrideMM)

基于该模因的内容与语境,其对 LGBTQ+ 个体或社群的立场是什么?
请选择以下选项之一:

  • 中立:内容未明确表达支持或反对;
  • 支持:内容表达积极态度或支持;
  • 反对:内容表达负面态度或反对。

这些提示词的共同特点是:

  • 封闭式选项,限制模型自由发挥;
  • 明确定义,避免歧义;
  • 与真实审核政策对齐,便于人类审核员理解和验证。

4.2 典型案例分析:ExPO-HM 如何“看穿”伪装?

以下案例均来自论文附录 F,展示了 GRPO(基线)ExPO-HM 在相同输入下的推理与判断差异。

案例一:轮椅与“蔬菜”的隐喻攻击

  • 模因文字
    “蔬菜最难吃的部分是轮椅。”

  • 真实标签仇恨内容(hateful)

  • GRPO 判断与解释

    判断:无害
    解释:该模因使用轮椅作为视觉隐喻,谈论蔬菜中最难吃的部分,属于文字游戏,并非侮辱。轮椅是辅助行动的工具,不是贬义符号。

  • ExPO-HM 判断与解释

    判断:仇恨内容
    解释:该模因使用“蔬菜”一词指代残障人士,这是一种非人化(dehumanizing)的侮辱性用语。将轮椅与“难吃”关联,进一步强化了对残障人士的贬低。此类语言属于仇恨言论。

关键洞察:表面是“文字游戏”,实则是利用社会对残障群体的刻板印象进行隐性攻击。ExPO-HM 通过政策对齐的推理,准确识别出违规要素。


案例二:用狗指代人类

  • 模因图片:几张狗的照片,配文:“一群男人”

  • 真实标签仇恨内容

  • GRPO 判断与解释

    判断:无害
    解释:这是网络常见梗,用动物代表人群以制造幽默效果,无明确攻击意图。

  • ExPO-HM 判断与解释

    判断:仇恨内容
    解释:该模因将人类男性比作狗,属于非人化攻击。虽然动物拟人是常见网络修辞,但在攻击性语境中,这种比喻会贬低目标群体的人格尊严,构成仇恨言论。

关键洞察:ExPO-HM 区分了“幽默拟人”与“攻击性非人化”,体现了对语境与意图的深层次理解。


4.3 工程启示

  • 不要依赖通用 CoT 提示(如“请逐步思考”),而应将审核政策转化为结构化提示
  • 提示词设计决定推理质量:封闭选项 + 明确定义 = 可控、可评估、可行动的输出;
  • 强化学习需配合课程学习与 CDE 奖励,否则模型会“走捷径”或生成空洞解释。

通过将政策、提示、训练机制三者紧密结合,ExPO-HM 实现了从“黑箱报警”到“可解释决策”的关键跃迁,为构建负责任的 AI 内容审核系统提供了新范式。

http://www.dtcms.com/a/600805.html

相关文章:

  • 医疗小程序05我的就诊卡
  • React与Vue 的声明式 UI 对比原理篇(1)
  • vue3实现列表无缝滚动
  • 如何开通自己的网站北京门户网站制作
  • 【前端面试】Vue篇
  • AI重塑IT职场:挑战与机遇并存
  • 微信小程序uniapp开发附源码——长图拼接
  • MySQL【表的内外连接】
  • 名字姓名起名打分评分抖音快手微信小程序看广告流量主开源
  • Windows下使用 Docker 安装MySQL
  • 微信小程序里用 setData() 修改数据并打印输出 的几种写法
  • 微信小程序map组件聚合簇样式自定义
  • 河北住房和城乡建设厅网站电话海报设计图片简单
  • 好的俄文网站设计大学学风建设专题网站
  • 领域驱动设计系列文章汇总
  • C++11拓展语法
  • 智慧医疗:FHIR R5、联邦学习与MLOps三位一体的AI产品化实战指南(下)
  • 创建一个达梦库需要多大空间
  • Redis_11_类型补充+命令补充+RESP
  • 网站设计哪家便宜seo网站做推广公司
  • 用于感知图像超分辨率的自编码监督(易于理解版本)
  • 地图可视化实践录:空间分析库Turf.js的学习
  • 长沙制作网站公司哪家好广州seo推广营销
  • 11、prometheus-PromQL-5-聚合计算函数
  • (114页PPT)上海x友集团管理咨询及IT规划项目第一期报告管理诊断分析咨询报告(附下载方式)
  • C语言编译器 Visual Studio:实现高效编程与调试环境优化
  • 王树森深度强化学习 DRL(六)连续控制 DDPG + 随机策略
  • 【SatWetCH4 第一期】全球湿地甲烷排放通量估算过程模型 SatWetCH4 介绍
  • Opencv(十一) : 图像缩放
  • 开源 Objective-C IOS 应用开发(四)Xcode工程文件结构