当前位置: 首页 > news >正文

ACL 2024 大模型方向优秀论文:洞察NLP前沿​关键突破!

关注gongzhonghao【计算机sci论文精选

近年来,以Transformer架构为核心的大语言模型重塑了自然语言处理领域的技术范式。当前ACL相关研究呈现多维度深化态势,从开源社区推动轻量化架构与低成本训练技术革新,到学术界探索检索增强等机制突破长尾知识覆盖局限,再到医疗、海洋等垂直领域专用模型开发成为新热点。

今天小图给大家精选3篇ACL有关大模型方向的论文,请注意查收!

How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs

方法:

文章首先构建了一个包含40种说服技巧的分类体系,涵盖信息、情感、权威等多个维度,为生成PAP提供了理论基础。接着,通过微调预训练语言模型,构建了一个能够将普通有害查询转化为PAP的“说服性释义器”,并利用这一工具在14个风险类别上进行了广泛的扫描实验。最后,文章通过迭代优化PAP生成过程,进一步提高了攻击成功率,并对现有防御机制进行了深入分析,提出了新的防御策略。

图片

创新点:

  • 提出了一个基于社会科学研究的说服技巧分类体系,首次系统地将人类说服技巧应用于AI安全研究,为后续研究提供了新的工具。

  • 自动生成了具有高攻击成功率的说服性对抗性提示,在多种大型语言模型上验证了其有效性,证明了日常语言交互中的说服行为对AI安全构成的威胁。

  • 发现现有防御机制在应对PAP时存在显著缺陷,并提出了针对PAP的适应性防御策略,为AI安全防御提供了新的方向。

图片

论文链接:

https://arxiv.org/abs/2401.06373

图灵学术论文辅导

论文二:Having Beer after Prayer? Measuring Cultural Bias in Large Language Models

方法:

文章首先从Wikidata和CommonCrawl中提取具有文化差异的实体,并从Twitter/X中获取自然语言提示,构建了CAMeL资源库。接着,利用CAMeL对多种语言模型在故事生成、命名实体识别、情感分析和文本填充等任务上进行跨文化性能测试。最后,分析了阿拉伯语预训练语料库的文化相关性,发现西方内容的高比例可能是导致语言模型文化偏见的关键因素。

图片

创新点:

  • 构建了CAMeL资源库,为评估语言模型的文化偏见提供了基础。

  • 通过CAMeL,首次系统地评估了16种不同语言模型在阿拉伯语环境下的跨文化表现,揭示了令人担忧的文化刻板印象和不公平现象。

  • 分析了6个阿拉伯语预训练语料库,为改进语言模型的文化适应性提供了数据支持。

图片

论文链接:

https://aclanthology.org/2024.acl-long.862/

图灵学术论文辅导

论文三:Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

方法:

文章首先基于mT5预训练模型,通过整合xP3x、Aya集合、Aya数据集、数据溯源集合以及翻译合成数据等多源数据,构建了包含203M数据点的训练语料库。接着,通过调整不同数据源的权重,进行了多种采样策略的实验,以优化模型在不同任务和语言上的表现。最后,通过多语言评估体系和安全上下文蒸馏技术,对模型的性能和安全性进行了全面测试和优化。

图片

创新点:

  • Aya模型将语言覆盖范围扩展到101种语言,其中超过半数为资源较少的语言,显著扩大了多语言指令微调模型的适用范围。

  • 引入了广泛的多语言评估体系,涵盖99种语言和多种任务类型,包括区分性任务、生成性任务以及人类和LLM评估,全面衡量模型性能。

  • 实施了多语言安全上下文蒸馏技术,有效降低了模型在对抗性提示下的有害输出比例,提升了多语言环境下的安全性。

图片

论文链接:

https://aclanthology.org/2024.acl-long.845/

本文选自gongzhonghao【计算机sci论文精选

http://www.dtcms.com/a/307741.html

相关文章:

  • SpringMVC核心原理与实战指南
  • C++游戏开发(2)
  • 解决Android Studio中创建的模拟器第二次无法启动的问题
  • Android Studio怎么显示多排table,打开文件多行显示文件名
  • Android Studio 中Revert Commit、Undo Commit 和 Drop Commit 使用场景
  • 【智能体agent】入门之--1.初体验
  • HighgoDB查询慢SQL和阻塞SQL
  • 微信小程序性能优化与内存管理
  • HTTP 请求头(Request Headers)清单
  • 【13】大恒相机SDK C#开发 —— Fom1中实时处理的8个图像 实时显示在Form2界面的 pictureBox中
  • MySQL 中的聚簇索引和非聚簇索引的区别
  • 淘宝 API HTTP/2 多路复用与连接优化实践:提升商品数据采集吞吐量
  • Ceph、K8s、CSI、PVC、PV 深入详解
  • TTS语音合成|f5-tts语音合成服务器部署,实现http访问
  • 【n8n】如何跟着AI学习n8n【03】:HTTPRequest节点、Webhook节点、SMTP节点、mysql节点
  • 【11】大恒相机SDK C++开发 ——原图像数据IFrameData内存中上下颠倒,怎么裁剪ROI 实时显示在pictureBox中
  • 5G毫米波射频前端设计:从GaN功放到混合信号集成方案
  • 初始sklearn 数据集获取、分类、划分与特征工程
  • mysql笔记02:DML插入、更新、删除数据
  • 【读书笔记】Design Patterns (1994)✅
  • 贝锐蒲公英X4 Pro 5G新品路由器:异地组网+8网口+双频WiFi全都有
  • 大模型005
  • 反射之专题
  • C++:结构体(Structure)
  • Flux.1系列模型解析--Flux.1
  • OpenCV 中的「通道」(Channel)详解
  • C# 入门教程(四)委托详解
  • 国产芯+单北斗防爆终端:W5-D防爆智能手机,助力工业安全通信升级
  • Flutter Chen Generator - yaml配置使用
  • 一个清洁机器人的城市漂流记