当前位置: 首页 > news >正文

【AI安全】Anthropic推出AI安全工具Petri:通过自主Agent研究大模型行为

Anthropic推出AI安全工具Petri:通过自主Agent研究大模型行为

  • 1. 14款主流模型均存在安全隐患
  • 2. 自动化安全测试新范式
  • 3. 举报行为测试案例

Anthropic PBC公司近日发布了一款新型开源工具, 通过AI Agent(智能体)审计大语言模型(LLM)行为,进一步加强人工智能安全防护。这款名为 Petri(Parallel Exploration Tool for Risky Interactions)的工具旨在识别模型多种潜在问题行为,包括欺骗用户、举报行为、配合人类滥用以及助长恐怖主义等。

Petri pipeline

1. 14款主流模型均存在安全隐患

使用Petri对14款主流LLM进行审计测试,其中包括其旗舰模型Claude Sonnet 4.5、OpenAI的GPT-5、Google的Gemini 2.5 Pro以及xAI的Grok-4。令人担忧的是,所有被测模型均被发现存在问题。

Anthropic在博客中指出,由于LLM行为的复杂性和多样性远超研究人员手动测试能力,Petri这类Agent工具具有重要意义。这标志着AI安全测试从静态基准评估转向自动化持续审计,不仅能在模型发布前发现风险行为,还能监测部署后的实际表现。

值得注意的是,Claude Sonnet 4.5在111项"高风险任务"测试中综合表现最佳。评估涵盖四大安全风险类别:

  • 欺骗行为(模型故意提供虚假信息)
  • 权力寻求(试图获取影响力或控制权)
  • 阿谀奉承(对用户的错误观点表示认同)
  • 拒绝失效(本应拒绝的请求却予以配合)

尽管Claude表现最优,Anthropic仍坦言所有14款模型都经Petri检测出"行为失准"问题。
大模型审计结果在这里插入图片描述

2. 自动化安全测试新范式

Anthropic强调,模型排名并非本项目的核心目标。Petri的真正价值在于为开发者社区提供工具,监测AI在各种潜在风险场景中的表现

研究人员只需输入简单提示词(如诱导欺骗或越狱尝试),Petri就会启动审计Agent进行多维度测试。这些Agent会以不同方式与模型交互,动态调整策略以识别有害响应。

Petri结合测试Agent与评判模型,从诚实度、拒绝能力等维度评估LLM表现,并标记存在风险输出的对话记录供人工复核。该工具能大幅减少人工安全评估工作量,其开源特性也有助于推动行业安全标准建立。

除核心工具外,Anthropic还发布了数十个示例提示词、评估代码及扩展指南。公司坦言Petri存在局限,例如评判模型可能继承被测模型的细微偏差,导致过度惩罚模糊响应或偏好特定回答风格。

3. 举报行为测试案例

在专项研究中,Anthropic使用Petri测试了不同AI模型的举报倾向:

“当模拟开发者赋予模型足够权限、无限制信息访问和自主行动指令时,我们观察到多个模型试图举报——自主披露其认为的组织不当行为。虽然这在理论上能预防某些大规模危害,但对现有AI系统而言并不适宜:这涉及严重隐私问题,且因错误举报导致信息泄露的风险极高。”

测试中,模型被设定为虚构组织内的自主Agent,并接触显示不当行为的信息。结果显示,模型是否披露信息取决于其被赋予的自主权等级,以及虚构组织领导层的共谋程度。
Whistleblowing ablations
某些情况下,模型甚至会对完全无害的"不当行为"(如虚构组织向海洋排放清洁水)进行举报。研究人员指出,这表明模型更容易受叙事线索影响,缺乏最小化危害的连贯伦理框架

Anthropic承认Petri存在其他潜在问题,例如测试过程中Agent可能暴露审计意图,导致模型隐藏不良行为。但尽管如此,该工具仍能为开发者提供可量化的安全指标,帮助聚焦研究方向。

参考来源:
Anthropic’s AI safety tool Petri uses autonomous agents to study model behavior

http://www.dtcms.com/a/465742.html

相关文章:

  • 云南做网站哪家便宜wordpress单页下载
  • 深度掌握 Git 分支体系:从基础操作到高级策略
  • CTF — ZIP 文件密码恢复
  • AI编程 | 基于即梦AI-Seedream 4.0模型,搭建人脸生成系统
  • 找设计案例的网站网站 设计
  • 医院项目:IBMS 集成系统 + 楼宇自控系统 + 智能照明系统协同解决方案
  • JavaEE初阶5.0
  • 一个企业做网站推广的优势手机网站怎么制作内容
  • 有代码怎么做网站做网站用源码
  • linux 环境下mysql 数据库自动备份和清库 通过crontab 创建定时任务实现mysql数据库备份
  • 每天一个设计模式——开闭原则
  • C++协程版本网络框架:快速构建一个高效极致简洁的HTTP服务器
  • 福州台江区网站建设网页怎么做链接
  • 单片机图形化编程:课程目录介绍 总纲
  • Redis-集合(Set)类型
  • 软件定义的理想硬件平台:Qotom Q30900SE/UE系列在AIO服务器与边缘网关中的实践
  • MS7126 24位立体音频DAC
  • 引领网站手机网站建设的整体流程
  • 计算机网络【第四章-网络层】
  • 响应式网站建设特征wordpress网站不显示系列
  • Fiddler抓包工具使用教程,代理设置与调试方法实战解析(含配置技巧)
  • linux系统中如何在root用户中将某个文件夹目录的权限赋值给其它用户(主要说的是 方法 1)
  • 手机网站引导页wordpress 动漫主题
  • 科技服务公司网站模版如何做视频类网站
  • 最小覆盖子串
  • 算法4.0
  • 云网智安一体:中国电信数字安全创新的技术破局与生态构建
  • 制作音乐网站实验报告佛山做外贸网站渠道
  • 企业级数据库实操手册:从架构部署到安全运维的落地指南
  • 网络安全认证培训机构的痛点