当前位置：首页 > news >正文

详解大模型四类漏洞

news 2025/7/12 6:43:10

关键词：大模型，大模型安全，漏洞研究

1. 引入

promptfoo（参考1）是一款开源大语言模型（LLM）测试工具，能对 LLM 应用进行全面漏洞测试，它可检测包括安全风险、法律风险在内的多种漏洞，如数据泄露、注入攻击、版权侵权等，还能防范有害内容生成和业务风险。

promptfoo官方文档中（参考1），将大模型的漏洞归结为如下四大类：
在这里插入图片描述

安全与访问控制（Security & Access Control）
合规与法律（Compliance & Legal）
信任与安全（Trust & Safety）
品牌（Brand）

下面详细讲解这四种类型的漏洞相关细节。

2. 四类漏洞

1. 安全与访问控制（Security & Access Control）
（1）访问控制（Access Control, RBAC, BOLA）：基于角色的访问控制（RBAC，Role-Based Access Control），确保只有授权用户能访问特定资源和功能，防止未授权访问。
（2）注入攻击（Injection Attacks）：攻击者通过输入恶意数据，操纵模型执行非预期命令或获取敏感信息。
（3）数据保护（Data Protection, PII）：保护个人身份信息（PII），防止数据泄露、滥用等安全问题。

2. 合规与法律（Compliance & Legal）
（1）知识产权侵权（IP Violations）：模型可能生成侵犯他人知识产权的内容，如版权、专利等。
（2）未经授权的建议（Unauthorized Advice）：模型给出未经授权的法律、医疗等专业建议，可能导致法律风险。
（3）犯罪内容（Criminal Content）：模型生成或处理与犯罪相关的内容，如恐怖主义、非法活动等。

3. 信任与安全（Trust & Safety）
（1）有害内容（Harmful Content）：包括可能对用户造成伤害的内容，如鼓励自残、暴力等。
（2）仇恨言论（Hate Speech）：针对特定群体的歧视性、侮辱性或攻击性言论。
（3）明确内容（Explicit Content）：色情、低俗等不适当的内容。

4. 品牌（Brand）
（1）错误信息（Misinformation）：模型生成并传播错误或误导性信息，损害品牌声誉。
（2）幻觉（Hallucination）：模型生成看似合理但实际不存在或错误的信息。
（3）竞争对手背书（Competitor Endorsement）：模型不当提及或支持竞争对手，影响品牌形象。