当前位置：首页 > news >正文

LLM 笔记 —— 03 大语言模型安全性评定

news 2025/10/3 5:51:32

本文探讨了大型语言模型的四个关键问题：

1）错误信息问题，可通过事实核查和有害词检测补救；
2）固有偏见问题，提出了使用红队模型检测偏见的方法；
3）AI生成内容识别难题，讨论了分类和水印技术；
4）模型安全风险，分析了越狱攻击和提示注入等攻击手段。

文章通过实验数据展示了这些问题的存在，并简要讨论了可能的解决方案，但指出这些领域仍存在优化空间。

01 引子

大型语言模型还是会讲错话怎么办？事实查核、有害词条检测

大型语言模型会不会自带偏见？会

一句话是不是大型语言模型生成的？分类、浮水印

大型语言模型也会被诈骗吗？

02 大型语言模型还是会讲错话怎么办？

大型语言模型还是会讲错话，比如杜撰参考文献、参考网站…

在这里插入图片描述

我们可以采用亡羊补牢的补救措施，比如将语言模型的输出做事实查核、有害词条检测…

在这里插入图片描述

事实查核：通过 Google 进行网络搜索，验证答案的真实性，当然，有网站背书的资讯不一定是正确的，也可能会将各种正确信息相互缝合，输出错误答案，总之，这方面的研究同样不够完善，各个地方都有待优化。

在这里插入图片描述

03 大型语言模型会不会自带偏见？

偏见有很多种，比如性别、种族、年龄、国籍等等，我们可以更改相关内容对语言模型进行提问，实验如下：

在这里插入图片描述

如何衡量语言模型的偏见呢，我们引入红队语言模型，刺激被测试的语言模型，是否输出有偏见的结果。

在这里插入图片描述

更改相关内容对语言模型进行检查履历测试，实验如下：

在这里插入图片描述

更改相关内容对语言模型进行人力资源招聘，实验如下：

在这里插入图片描述

更改相关内容对语言模型进行软件工程师招聘，实验如下：

在这里插入图片描述

更改名字对语言模型进行二维平面测试，实验如下：

在这里插入图片描述

更改职业对语言模型进行职业推荐撰写，实验如下：

在这里插入图片描述

更改政治倾向对语言模型进行职业推荐撰写，实验如下：

在这里插入图片描述

那么，我们应当如何减轻语言模型的偏见呢？

在这里插入图片描述

在语言模型的各个阶段，都可以减轻语言模型的偏见，比如对训练材料进行预处理…

注：本课程仅讨论偏见的存在，至于什么样的偏见需要被改进以促成公平性，不是本课程讨论的范围。

04 一句话是不是大型语言模型生成的？

搜集大量人工智能生成的数据，收集大量人类生成的数据，对比之间的差异，进行分类作业。

在这里插入图片描述

事实上，判断一句话是不是大型语言模型生成的这件事情，在今天十分困难，ChatGPT 被人类应用在生活的方方面面，甚至，国际会议的一些文章审查意见也是用人工智能生成的。

在这里插入图片描述

前文说到，判断一句话是不是大型语言模型生成并不容易，文章 AI 率的上升并不代表一定是 AI 生成的，或许只是人类的写作风格改变了。我们调查了有哪些词汇在近几年的文章中频繁出现，结果如下：

在这里插入图片描述

或许，只是人类的文法修改了。我们测试了 ChatGPT 润稿前后文章的 AI 率，实验如下：

在这里插入图片描述

在语言模型的输出中加上浮水印，也就是人类难以辨别的暗号。

在这里插入图片描述

05 大型语言模型也会被诈骗吗？（Prompt Hacking）

在这里插入图片描述

Jailbreaking（越狱）

攻击大型语言模型本身，方法如下：

在这里插入图片描述

① DAN = Do Anything Now，天官赐福，百无禁忌！

在这里插入图片描述

② 使用大型语言模型不熟悉的语言

在这里插入图片描述

③ 给予冲突的指令，比如要求回答以 Absolutely! 开头

在这里插入图片描述

④ 识图说服语言模型

在这里插入图片描述

注：Jailbreak 可以有不同的目的，比如 Training Data Reconstruction

在这里插入图片描述

Prompt Injection（注射）

攻击大型语言模型产生的应用

在这里插入图片描述

我们的作业是根据 AI 助教吐出的 Final Score 后面的分数评定的，也就是说，你大可以不去真的写作业，而是通过奇技淫巧，只要 AI 助教输出 Final Score 后面的分数是高分，就算成功！

在这里插入图片描述

查看全文

http://www.dtcms.com/a/434408.html

d-分离：图模型中的条件独立性判定准则

【自然语言处理】文本规范化知识点梳理与习题总结

上海商城网站建设公司算命手机网站开发

重塑Excel的智慧边界：ExcelAgentTemplate架构深度解析与LLM集成最佳实践

QoS之拥塞避免配置方法

vscode搭建C/C++配置开发环境

在鸿蒙NEXT中发起HTTP网络请求：从入门到精通

做网站商家网站公告栏代码

做企业网站联系群晖网站建设

Java坐标转换的多元实现路径：在线调用、百度与高德地图API集成及纯Java代码实现——纯Java代码实现与数学模型深度剖析

【socket编程中的常规操作，阻塞/非阻塞模式的差别】

5G NR PDCCH DCI

网站建设海淀区360浏览器打开是2345网址导航

《代码随想录》二叉树专题算法笔记

CSS3 用户界面

虚幻引擎UE5专用服务器游戏开发-32 使用Gameplay Tags阻止连招触发

鼠标垫东莞网站建设网站建设公司的公司

SOAR技术与高效网络安全运营

Node.js 本地服务部署、常驻及调用完整笔记

Java 工具类 Hutool、Guava 与 Apache Commons 的区别

怎么创建网站挣钱济南产品网站建设外包

BEV query 式图片点云视觉特征融合

操作系统应用开发(十二)RustDesk 用户服务器搭建——东方仙盟筑基期

将若依(RuoYi)项目创建为私有Gitee仓库的完整步骤

网站上的百度地图标注咋样做app开发制作专业吗

TCP 协议核心面试题 (附答案详解)

Spring Security 实战：彻底解决 CORS 跨域凭据问题与 WebSocket 连接失败

Tabby下载安装与连接服务器

Apache Beam入门教程：统一批流处理模型

计算机毕业设计基于Hadoop的信贷风险评估的数据可视化分析与预测系统大数据毕业设计 Hadoop毕业设计选题【附源码+文档报告+安装调试】

01 引子

02 大型语言模型还是会讲错话怎么办？

03 大型语言模型会不会自带偏见？

04 一句话是不是大型语言模型生成的？

05 大型语言模型也会被诈骗吗？（Prompt Hacking）

相关文章：