当前位置: 首页 > news >正文

[论文阅读] 人工智能 | 用大型语言模型玩转多语言主观性检测:CheckThat! 2025赛事中的亮眼表现

用大型语言模型玩转多语言主观性检测:CheckThat! 2025赛事中的亮眼表现

CEA-LIST at CheckThat! 2025: Evaluating LLMs as Detectors of Bias and Opinion in Text

arXiv:2507.07539
CEA-LIST at CheckThat! 2025: Evaluating LLMs as Detectors of Bias and Opinion in Text
Akram Elbouanani, Evan Dufraisse, Aboubacar Tuo, Adrian Popescu
Comments: Notebook for the CheckThat! Lab at CLEF 2025
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

研究背景:为什么要区分句子的“主观”与“客观”?

你有没有过这样的经历:刷新闻时看到一句“这款手机性价比极高”,马上能意识到这是个人观点;但看到“这款手机售价3999元”,就知道这是客观事实。在自然语言处理(NLP)领域,这种区分“主观句”和“客观句”的任务,就是主观性检测

主观句指的是表达个人观点、情感、评价的句子(比如“这部电影太精彩了”),客观句则是陈述可验证事实的句子(比如“这部电影时长120分钟”)。别小看这个任务,它在现实中用处可大了:

  • 事实核查时,得先分清哪些是需要验证的事实,哪些是无需较真的观点;
  • 媒体分析中,判断报道是客观陈述还是带有偏见的评论,能帮我们看清信息全貌;
  • 甚至在法律文书里,识别证人证词中的主观表述,可能会影响案件判断。

但过去,这个任务主要靠“微调小模型”(SLMs)——也就是给小模型喂大量标注数据,让它专门学这个任务。可小模型有个大麻烦:太依赖高质量数据。如果数据少、标注乱,它就歇菜了。而现在火遍全网的大型语言模型(LLMs),比如GPT系列,据说不用大量微调也能干活。那么,LLMs真的能搞定主观性检测吗?尤其是在多语言场景下(比如同时处理英语、阿拉伯语、波兰语),它能表现得比小模型好吗?这就是这篇论文要解决的问题。

主要作者及单位信息

本文作者团队来自法国巴黎萨克雷大学(Université Paris-Saclay)CEA-List(法国原子能委员会下属研究机构),成员包括Akram Elbouanani、Evan Dufraisse、Aboubacar Tuo和Adrian Popescu。他们在2025年CLEF国际会议的CheckThat!赛事中,用LLMs拿下了多个语言赛道的好成绩,实力不容小觑。

创新点:LLMs+巧妙提示,打败“挑食”的小模型

这篇论文的核心亮点,就在于用“少样本提示”让LLMs在多语言主观性检测中逆袭。具体来说:

  1. 不依赖大量标注数据:过去的小模型得“吃饱”标注数据才干活,而LLMs只需给几个例子(少样本),再加上清晰的任务说明(提示),就能开工。
  2. 抗噪声能力强:当数据标注混乱(比如阿拉伯语数据集里,有些明显主观的句子被标成了客观),LLMs受影响更小,而小模型很容易被带偏。
  3. 多语言通吃:不管是英语、阿拉伯语还是波兰语,同一个LLM加不同语言的提示,就能应付,不用为每种语言单独训练模型。

更有意思的是,作者试过让多个LLM“辩论”(一个说句子主观,一个说客观,第三个当裁判),但发现效果反而不如简单的少样本提示。这说明:有时候,简单直接的提示比花里胡哨的技巧更管用

研究方法:一步步教你用LLMs做主观性检测

作者的实验思路很清晰,就像做菜一样,一步步调试“配方”,找到最佳组合:

步骤1:准备食材——多语言数据集

用的是CheckThat! 2025提供的数据集,包含英语、阿拉伯语、意大利语等多种语言的句子,每个句子被标为“OBJ(客观)”或“SUBJ(主观)”。但这些数据有点“挑食”:比如意大利语的客观句占76%,而保加利亚语的主客观句比例更均衡。

步骤2:选工具——LLMs vs 微调小模型

  • 对照组:用RoBERTa、XLM-RoBERTa等小模型,经过大量数据微调(相当于“专项训练”)。
  • 实验组:用GPT-4o-mini、LLaMA 70B、Qwen 72B等LLMs,不微调,只靠“提示”干活。

步骤3:调配方——提示工程+少样本学习

  1. 提示设计

    • 简单提示:只说“判断句子是OBJ还是SUBJ”;
    • 详细提示:把规则列清楚(比如“带直接引语的句子算客观”“带推测的句子算主观”)。
  2. 少样本示例

    • 给6个或12个例子(一半OBJ,一半SUBJ);
    • 例子选法:随机挑、挑和测试句相似的、挑和测试句差异大的。
  3. 特殊技巧

    • 让LLMs“辩论”:两个LLM分别论证句子主观/客观,第三个LLM当裁判;
    • 用“是/否”提问(比如“这个句子是主观的吗?”)代替直接分类。

步骤4:尝味道——评估效果

用“宏观F1分数”(兼顾主客观两类的准确率)和“主观句召回率”(不漏掉主观句)来打分。

博客摘要

本文总结了一篇关于用大型语言模型(LLMs)进行多语言主观性检测的论文。研究背景聚焦于区分主观句(个人观点)和客观句(事实陈述)的重要性,以及传统微调小模型(SLMs)依赖高质量数据的痛点。作者团队来自法国巴黎萨克雷大学和CEA-List,他们在CheckThat! 2025赛事中,通过设计详细提示和少样本示例,让LLMs在多语言任务中表现出色,拿下阿拉伯语、波兰语第一名等佳绩。其创新点在于LLMs对噪声数据的强韧性和无需大量标注数据的优势。研究方法包括对比不同提示设计、少样本示例选法和特殊技巧(如辩论式提示),最终发现简单的“随机少样本+详细提示”效果最佳。该研究为多语言NLP提供了省钱省力的新方案,尤其适合数据质量差或小语种场景。

  1. 一段话总结:
    该研究聚焦于在CheckThat! 2025的主观性检测任务中,评估大型语言模型(LLMs)的表现。研究采用少样本提示策略,发现精心设计提示的LLMs在多语言主观性检测中能与微调的小型语言模型(SLMs)抗衡甚至超越,尤其在嘈杂或低质量数据环境中表现出色。团队在多个语言赛道取得优异成绩,包括阿拉伯语和波兰语的第一名,且在阿拉伯语数据集上因对标注不一致的强韧性表现突出。尽管尝试了如LLMs辩论等高级提示工程技术,但效果有限,精心设计的标准少样本提示已足够有效,这凸显了基于LLM的少样本学习在多语言情感任务中的有效性和适应性。

  1. 思维导图:
    在这里插入图片描述

  1. 详细总结:

研究概述

  • 研究主题:在CheckThat! 2025的Task 1(主观性检测)中,评估大型语言模型(LLMs)在多语言主观性检测中的表现,采用少样本提示策略。
  • 研究团队:Akram Elbouanani等来自法国巴黎萨克雷大学、CEA-List的研究者。

研究背景与目标

  • 主观性检测意义:区分主观(表达个人观点等)和客观(可验证事实等)语言,在事实核查、媒体分析等领域至关重要。
  • LLMs优势:无需大量特定任务微调,能识别微妙语言线索,适应特定标注指南。
  • 以往情况:CheckThat!实验室中LLMs应用较少,表现未持续超过优化的SLMs。
  • 研究目标:证明LLMs通过精心提示等技术可在主观性检测中与微调SLMs抗衡甚至超越,探究提示工程等对LLMs性能的提升作用。

相关工作

  • 主观语言检测发展:从早期基于规则到数据驱动,transformer模型表现优异,LLMs在捕捉隐性主观性上有优势。
  • 提示策略:提示工程、少样本学习等对优化LLMs在特定任务表现很重要。
  • 多智能体LLM系统:新兴范式,有优势但也存在挑战。
  • CheckThat!实验室发展:不同阶段有不同主流模型,近年LLMs经优化可媲美专业模型。

数据集

  • 数据情况:多语言句子级标注数据集,标签为OBJ(客观)或SUBJ(主观)。
  • 数据分布:不同语言和数据分割(训练集、开发集等)的句子数量及OBJ、SUBJ分布不同,存在类别不平衡,如意大利语和阿拉伯语OBJ标签占多数,保加利亚语分布较均衡。
  • 研究重点:主要关注英语和阿拉伯语,因其类别分布和数据集大小不同,假设其 insights 可迁移到其他语言。

研究方法

  • 提示工程:评估提示措辞和标签框架的影响,比较极简与详细提示、不同标签表述、二进制问题与直接分类等。
  • 少样本学习策略:尝试0样本、6样本、12样本设置,比较基于语义相似性、语义相异性和随机抽样的样本选择策略,确保样本类别平衡。
  • 多智能体LLM推理:设计辩论设置、对抗性推理、扩展框架等实验。

研究结果

  • 评估指标:主要用宏观平均F1分数,关注SUBJ召回率,采用多种方法缓解数据不平衡。

  • 微调transformers表现:RoBERTa-Base在英语上整体表现最佳(宏观F1为0.70),但主观类召回率低;阿拉伯语模型整体表现较弱。

  • 提示工程和少样本学习表现(GPT-4o-mini在英语上):

    系统宏观F1宏观PP SubjR Subj
    基本提示0.540.570.320.67
    扩展提示0.660.650.460.56
    + 6样本随机0.760.780.690.60
    + 12样本随机0.760.770.660.63
  • 少样本选择策略:随机选择在多数模型上优于语义相似策略,不同模型表现有差异。

  • 提示重构和辩论式推理:标签重构有小幅提升;辩论式提示中,“主观vs客观”设置宏观F1达0.77,提升主观召回率。

  • LLM集成结果:集成多种模型在英语上宏观F1达0.79,表现最佳。

  • 最终结果:团队在多语言任务中成绩优异,阿拉伯语和波兰语获第一名,意大利语等获前列名次,阿拉伯语领先第二名0.10宏观F1分数。

数据集质量

  • 阿拉伯语数据集问题:所有配置下宏观F1低于0.55,存在标注不一致,与之前数据集相比可复现性差。
  • 验证与改善:翻译和人工重新标注实验表明标注质量是性能瓶颈。

结论

  • LLMs与精心设计的少样本提示结合,在多语言主观性检测中可媲美甚至超越微调SLMs,尤其在数据质量差时表现稳健。
  • 提示质量关键,复杂策略未必更有效,对多语言NLP任务有重要意义。

  1. 关键问题:
  • 问题1:在该研究中,LLMs相较于微调的SLMs在多语言主观性检测任务中有哪些优势?
    答案:LLMs无需大量特定任务的标注数据进行微调,能利用预训练处理多种任务;在嘈杂或低质量数据环境中表现更稳健,如阿拉伯语数据集存在标注不一致时,LLMs受影响较小;在多语言场景下适应性更强,通过精心设计的提示可在多种语言任务中取得优异成绩,如在阿拉伯语和波兰语任务中获第一名,在多个语言赛道进入前列。
  • 问题2:研究中采用的少样本学习策略有哪些,效果如何?
    答案:少样本学习策略包括尝试0样本、6样本、12样本的设置,以及基于语义相似性、语义相异性和随机抽样的样本选择策略,且确保样本类别平衡。效果上,加入6或12个随机选择的少样本示例能显著提升性能,GPT-4o-mini在英语上宏观F1达0.76;随机选择样本在多数模型上优于语义相似策略,如GPT-4o-mini随机选择宏观F1为0.76,而相似策略为0.70,不同模型表现略有差异。
  • 问题3:该研究在阿拉伯语数据集上表现突出的原因是什么?
    答案:主要原因是阿拉伯语数据集存在标注不一致的问题,而研究采用的少样本LLM方法对这种噪声的耐受性更强。微调模型严重依赖高质量标注训练数据,易受标注不一致影响,而LLMs的上下文学习相对不受训练示例中确切标签质量的影响,因此在该数据集上表现更优异,领先第二名0.10宏观F1分数。

主要贡献:LLMs凭什么赢?

  1. 成绩亮眼:在CheckThat! 2025赛事中,拿下阿拉伯语、波兰语第一名,英语、意大利语等进入前四。

  2. 抗噪能力强:在阿拉伯语数据集上,LLMs的宏观F1分数比第二名高0.10。原因是阿拉伯语数据标注混乱,但LLMs对这种“噪声”不敏感,而小模型直接懵了。

  3. 省钱省力:不用为每种语言标注大量数据,给几个例子+翻译好的提示,LLMs就能开工。这对小语种NLP太友好了!

  4. 颠覆认知:复杂的“辩论式提示”“语义相似示例”效果不如简单的“随机少样本+详细提示”。这说明,用好LLMs的关键是“把任务说清楚”,而不是搞复杂技巧。

总结:LLMs开启多语言NLP新玩法

这篇论文证明:只要提示设计得当,LLMs在多语言主观性检测中能吊打微调小模型,尤其在数据质量差的时候优势更明显。这不仅为NLP工程师省了标注数据的钱,还为小语种处理、实时信息分析等场景提供了新思路。

当然,LLMs也不是万能的——如果数据标注完美,小模型可能还能拼一下。但现实中,高质量数据哪那么好找?所以,LLMs+少样本提示,绝对是性价比超高的选择。

http://www.dtcms.com/a/278782.html

相关文章:

  • Unity3D + VS2022连接雷电模拟器调试
  • 【PTA数据结构 | C语言版】字符串连接操作(不限长)
  • 分布式一致性协议
  • Android动画:属性动画以及实现点击图标缩放的动画效果
  • Relocations in generic ELF (EM: 40)
  • “国乙黑月光”指的是谁?
  • YOLOv11调参指南
  • Maven 依赖原则和依赖冲突
  • Docker入门指南(超详细)
  • Jetpack Compose 重组陷阱:一个“乌龙”带来的启示
  • yolo8+声纹识别(实时字幕)
  • 从“炼丹”到“流水线”——如何用Prompt Engineering把LLM微调成本打下来?
  • 前端缓存优化全景指南:从HTTP到应用层的性能加速实践
  • 学习软件测试的第十五天
  • PHP password_verify() 函数
  • 设备巡检系统的主要用途
  • Java 大视界 -- 基于 Java 的大数据可视化在城市地下管网管理与风险预警中的应用
  • 2025-07-14如何批量下载behance网站里的图片?
  • 神经网络项目--基于FPGA的AI简易项目(1-9图片数字识别)
  • 如何基于FFMPEG 实现视频推拉流
  • liunx常用命令(二)
  • SLAM 前端
  • 一文读懂循环神经网络(RNN)—语言模型+n元语法(1)
  • LightGBM(Light Gradient Boosting Machine)
  • 3分钟搭建自动签到打卡RPA程序:验证码自动识别
  • ImportError: DLL load failed while importing _base: 找不到指定的程序。
  • 深浅拷贝以及函数缓存
  • Node.js + Express的数据库AB View切换方案设计
  • 触想CX-3588主板在安保巡检领域的落地实践:解锁机器人自主智能
  • 【【异世界历险之数据结构世界(二叉树)】】