当前位置: 首页 > news >正文

人工智能安全地图:将人工智能漏洞与现实世界的影响联系起来

面向客户的聊天机器人中一次快速注入就可能在数小时内泄露敏感数据、损害信任并引发监管审查。技术漏洞只是第一步。真正的风险在于人工智能系统中的一个漏洞能够迅速引发一系列商业、法律和社会影响。

KDDI Research 的研究人员开发人工智能安全地图,将这些点连接起来,展示技术故障如何导致远远超出系统本身的危害。

当前思维的不足之处

大多数人工智能安全讨论都只关注问题的某个方面。研究人员通常研究特定的攻击类型,例如投毒、后门或即时注入。另一些人则关注人工智能的某些特性,例如公平性、隐私性或可解释性。这使得理解技术弱点如何与现实世界的影响联系起来存在差距。

例如,对模型进行毒害攻击可能会降低其准确性。这可能会产生误导用户的结果,进而可能造成财务损失或安全风险。最初的攻击与最终危害之间的联系在技术讨论中往往被忽略。

地图的两面

人工智能安全地图将人工智能安全划分为两个相互联系的部分。

第一个是信息系统层面 (ISA)。它涵盖了人工智能在系统内确保安全所必须满足的要素。它包括传统的安全三要素:机密性、完整性和可用性。它还增加了人工智能特有的需求,例如可解释性、公平性、安全性、准确性、可控性和可信度。

第二是外部影响方面(EIA)。这主要关注人工智能受到攻击或滥用时对个人、组织和社会的影响。这些影响可能包括隐私泄露、虚假信息
、经济损失、关键基础设施威胁以及违法行为。

该模型将每个ISA要素与潜在的EIA结果联系起来。如果诚信被破坏,可能会导致不公平的结果、安全风险或信任丧失。保密性泄露可能引发隐私侵犯、声誉损害或法律问题。

直接和间接的伤害链

研究人员发现,影响可以通过两种方式传播。有些是直接的。泄露机密信息可能立即导致隐私侵犯。另一些则是间接的。例如,快速注入攻击可能首先破坏可控性。这可能使攻击者能够生成虚假信息。如果这些内容传播开来,可能会影响从未使用过人工智能系统的人的决策。

这一点至关重要,因为即使核心系统正常运行,人工智能的滥用也可能造成危害。攻击者可以利用人工智能的高精度或广泛可用性等特性来自动化网络攻击或制造令人信服的虚假内容。

这一挑战超越了单个组织。AI 安全地图正确地指出,即使 AI 系统按预期运行,滥用也可能造成危害。组织必须认识到,即使在正常运行的系统中,偏见和漏洞也可能被利用。整个行业都在努力解决一个本质上棘手的可解释性和公平性问题。目前,这个问题对于普通的财富 500 强公司来说过于复杂,无法独立解决。建议避免构建定制的大型模型。

利用 Gemini、ChatGPT 或 Claude 等商业模型。这样一来,你就将很大一部分可解释性和公平性的责任转移给了更有能力为行业进步做出贡献的大型参与者。

这对 CISO 意味着什么

人工智能安全地图为领导者强调了一些要点。

首先,完整性是《国际审计准则》中最具影响力的要素。一旦完整性受到损害,许多其他要素都会面临风险。维护完整性虽然困难,但它可以降低发生大规模损害的可能性。

其次,机密性往往是攻击的首要目标。这意味着,在人工智能环境中,访问限制、加密和差异隐私
等以隐私为中心的控制措施仍然至关重要。

第三,该模型可以指导安全规划,而不仅仅是技术对策。它有助于风险地图绘制、桌面演习和事件沟通。展示技术故障如何导致业务中断或法律风险,可以为防御措施的投资提供依据。

如何使用地图

CISO 可以通过多种方式应用 AI 安全地图:

  • 将人工智能系统
    中已知的漏洞映射到可能的利益相关者影响。
  • 在供应商评估中使用它来查看 AI 服务提供商是否涵盖了 ISA 和 EIA 风险。
  • 运行情景规划,探索直接和间接影响链。
  • 将其用作董事会和高管的沟通工具,他们需要了解人工智能风险如何转化为组织风险。

通过仔细映射用户和数据,可以强化该框架。将人工智能安全的技术和社会影响纳入风险评估的第一步是绘制人工智能功能图。首先绘制用户图,例如内部员工、企业客户或公共终端用户。然后,重要的是绘制人工智能答案将涉及哪些类型的领域,例如医疗建议、天气预报或网络安全分析。这两个方面的结合将指导社会影响方面的工作。

绘制数据流图同样重要。了解数据的来源、处理方式以及哪些其他数据被聚合到其中。这将包括绘制 ETL 管道、数据流本身以及所涉及的 MLOps,因为监控和可观察性
也是数据流的一部分,并且可能影响 AI 的整体运作方式。对于首席信息安全官 (CISO) 而言,这提供了一种扩展传统风险评估的方法,使其涵盖超越纯技术层面的 AI 特定风险。

http://www.dtcms.com/a/352851.html

相关文章:

  • 【设计模式】简单工厂模式
  • 利用MCP实现爬虫智能体,获取数据竟如此简单恐顾
  • 【Python学习笔记】whl包打包
  • 【Redis#7】Redis 数据结构 -- Set 类型
  • AV1到达开始和约束时间
  • 如何避免绕过WAF 直接访问云主机
  • 从 WPF 到 Avalonia 的迁移系列实战篇1:依赖属性的异同点与迁移技巧
  • 学术/报告场景实测:从申请OpenAI API Key获取并实现GPT-5 PDF分析机器人(含源码)
  • 【Linux】从0到1掌握进程控制:终止、等待与替换的核心逻辑
  • 音频中的噪音门
  • 视频加水印_带gif 加动态水印 gif水印 视频浮动水印
  • 2025年03月 Python(三级)真题解析#中国电子学会#全国青少年软件编程等级考试
  • 《MongoDB 常用命令详解:从数据库操作到高级查询》
  • mongodb influxdb
  • Vue JS安装部署与使用方法(保姆级教程)
  • Java 实现 MongoDB ObjectId 算法
  • Python常见设计模式3: 行为型模式
  • 数据分析与数据挖掘
  • 【技术教程】如何为ONLYOFFICE协作空间开发文件过滤UI插件
  • string类的学习及模拟
  • vue拖动排序,vue使用 HTML5 的draggable拖放 API实现内容拖并排序,并更新数组数据
  • 【无标题】淘宝直播间详情数据
  • 云原生安全架构设计与零信任实践
  • 三格电子——高频一体式工业级RFID读写器的应用
  • 核心内涵解析:销采一体化 CRM 是什么?
  • 贴片式TE卡 +北京君正+Rk瑞芯微的应用
  • 亚马逊ASIN定投广告的智能化突破:从人工苦力到数据驱动的华丽转身
  • Part 1️⃣:相机几何与单视图几何-第六章:相机模型
  • Android中点击链接跳转到对应App页面的底层原理
  • Linux 云服务器日志清理自动化方法