大模型安全关键技术研究
引言
随着人工智能技术的迅猛发展,大模型已成为推动各行业变革的核心力量。从智能客服、医疗影像识别到金融风险预测,大模型的应用场景不断拓展,深刻改变着人们的生产生活方式。大模型已经转变为AI领域的基础设施,为解决各种复杂问题提供底层强大的计算、学习和求解能力,从初期的大语言模型延伸到多模态、语音、图像、视频等各领域,甚至用于天气预报、石油勘探、智慧城市等复杂系统的建模与预测。
然而,伴随大模型的深度应用,其安全问题也日益凸显,成为制约行业健康发展的关键因素。大模型安全威胁主要涵盖四大类别:
数据安全挑战
在数据层面,大模型训练依赖海量数据,其中不乏大量个人敏感信息、商业机密等。数据泄露问题屡见不鲜,一旦这些数据在采集、存储、传输等环节出现安全漏洞,被不法分子窃取,将对个人隐私和企业权益造成严重损害。数据投毒也是一大威胁,攻击者通过向训练数据中注入恶意数据,干扰模型的训练过程,使模型在后续应用中输出错误或有害结果。
模型安全挑战
在模型层面,模型窃取风险不容忽视。不法分子可通过技术手段窃取企业或机构训练好的大模型,用于非法目的,如开发仿冒产品、进行不正当竞争等。模型后门同样危险,攻击者在模型训练过程中植入后门程序,在特定条件下可以控制模型的输出,干扰正常业务运行。此外,对抗攻击也是大模型面临的重要安全威胁
应用安全挑战
在应用层面,生成内容的合规性问题突出。部分大模型在运行过程中,可能会生成包含虚假信息、仇恨言论、色情低俗、暴力恐怖等违法违规内容,对社会秩序和公序良俗造成冲击。提示词注入攻击也是一大威胁,攻击者可能通过此漏洞绕过模型安全机制、逆向模型、获取模型敏感信息等[6]。
系统安全挑战
系统层面的安全问题包括API漏洞、供应链风险和算力滥用等,这些传统安全问题与大模型特有威胁相结合,形成了复杂的安全挑战[15]。
研究大模型安全关键技术的必要性
鉴于大模型安全威胁的多样性和复杂性,研究大模型安全关键技术迫在眉睫。2023年4月30日,全国网络安全标准化技术委会正式发布了三项大模型安全国家标准,包括《网络安全技术生成式人工智能服务安全基本要求》、《网络安全技术生成式人工智能预训练和优化训练数据安全规范》以及《网络安全技术生成式人工智能数据标注安全规范》,这些标准已于2024年11月1日正式实施,为大模型的安全发展提供了坚实保障。
构建完善的大模型安全防御体系,需要从数据安全防护、模型安全加固、应用安全防护、系统安全机制和合规与治理五个核心领域入手:
同时,建立科学的安全评估流程,包括风险评估、测试验证、合规检查和持续监控,形成闭环监控体系,对保障大模型安全至关重要:
(图片来源:大模型安全评估流程图)
综上所述,大模型技术虽然带来了巨大的创新价值,但其安全挑战不容忽视。研究大模型安全关键技术,构建完善的安全防御体系和评估机制,对于促进大模型技术健康、可持续发展具有重要意义。
大模型安全威胁分类体系
大模型安全威胁可分为四大核心类别,每类威胁针对大模型生命周期的不同阶段,形成全方位的安全挑战。
数据安全威胁
数据安全威胁主要发生在大模型训练前及训练阶段,包括:
- 数据投毒攻击:攻击者通过向模型的训练数据集中注入恶意样本,导致模型在后续训练过程中引入偏差或后门。这种攻击可能在特定条件下触发异常行为,严重影响模型的可靠性和安全性[6]。
- 数据泄露:在数据采集、存储和传输过程中,可能因安全漏洞导致包含个人敏感信息、商业机密等重要数据被窃取,对个人隐私和企业权益造成严重损害。
- 隐私滥用:大模型训练数据中可能包含未经授权的个人隐私信息,导致在使用过程中泄露用户敏感数据。
模型安全威胁
模型安全威胁主要针对模型本身结构和参数:
- 模型窃取:不法分子通过技术手段窃取企业或机构训练好的大模型,用于非法目的,如开发仿冒产品或进行不正当竞争。
- 模型后门:攻击者在模型训练过程中植入后门程序,使模型在特定输入条件下产生预设的错误输出,从而控制模型行为。
- 对抗攻击:通过构造特殊输入样本,诱导模型产生错误输出,破坏模型正常功能。这类攻击利用模型对微小扰动的敏感性,是当前大模型面临的重要安全威胁。
应用安全威胁
应用安全威胁主要发生在模型部署和使用阶段:
- 提示词注入攻击:攻击者通过特殊的prompt工程技术与大模型进行非法交互,绕过安全机制,可能导致模型泄露系统提示词、执行非授权操作或生成有害内容[8]。
- 内容合规风险:大模型可能生成包含虚假信息、仇恨言论、色情低俗、暴力恐怖等违法违规内容,对社会秩序造成负面影响。
- 功能滥用:攻击者可能利用模型的工具调用功能(function call)进行非法操作,导致敏感数据泄漏或篡改[8]。
系统安全威胁
系统安全威胁涉及大模型运行的基础设施和环境:
- 供应链攻击:发生在获取第三方数据或引用外部库时,如果这些来源受到污染或存在漏洞,最终训练出的大模型也会受到威胁[6]。
- API漏洞:大模型服务接口可能存在安全漏洞,被攻击者利用进行未授权访问或数据窃取。
- 算力滥用:攻击者可能通过漏洞获取大模型计算资源的使用权限,用于挖矿等非法活动,造成资源浪费和经济损失。
为应对这些威胁,国际标准组织已发布大模型安全领域标准,提出了大语言模型安全风险分类、攻击分类分级方法以及测试方法,并给出四种不同攻击强度的攻击手法分类标准,为全球AI安全评估测试提供了新基准[10]。同时,网宿安全等机构推出的大模型安全评估服务,采用最新的AI对抗攻击检测技术,结合自动化检测与专家渗透测试,能够确保评估效率和精准度,从数据安全、算法安全等多维度保障大模型安全[9]。
大模型安全防御技术框架
大模型安全防御需构建全生命周期的多层次防护体系,从数据、模型、应用、系统和合规治理五个维度形成完整防御闭环。
数据防护技术
数据防护是大模型安全的第一道防线,主要包括:
- 数据来源审查:确保训练数据来源合法合规,建立严格的数据收集准则,遵循最小必要原则,避免过度收集数据[12]。
- 数据预处理与净化:对训练数据进行严格的安全评估和预处理,去除敏感信息和噪声数据,防止数据泄露和投毒[12]。
- 数据加密与访问控制:对传输和存储的数据进行加密处理,确保数据的保密性,严格控制数据的访问和使用权限,对数据的使用情况进行详细记录和审计[12]。
模型加固技术
模型加固技术旨在增强模型本身的安全性和鲁棒性:
- 对抗训练:通过在训练过程中引入对抗样本,增强模型对攻击的抵抗能力,提高模型的鲁棒性。
- 模型后门检测与清除:开发有效的后门检测方法,识别和清除模型中可能存在的后门,为大模型下游微调和部署提供安全防护。
- 模型版本管理与备份:建立完善的模型版本管理和备份机制,定期对模型进行安全检测和更新,确保模型的完整性和可用性[12]。
应用防护技术
应用防护技术关注模型部署和使用阶段的安全:
- 输入过滤与验证:对用户输入进行严格的过滤和验证,识别并阻断可能的提示词注入攻击,防止攻击者绕过安全机制。
- 输出内容审核:建立多层次的内容审核机制,对模型生成的内容进行实时检测和过滤,防止生成违规有害内容,增强大模型网络意识形态的安全性。
- 可控生成技术:通过在推理过程中增加约束信息或直接针对模型输入输出增加控制模块,实现有约束的生成过程,确保输出内容的安全性和合规性。
系统安全机制
系统安全机制保障大模型运行环境的安全:
- 身份认证与访问控制:对用户进行严格的身份认证,根据用户的角色和权限分配相应的操作权限,防止未经授权的访问和操作[12]。
- 供应链安全管理:针对大模型训练数据易受污染或被投毒的挑战,建立完善的供应链安全管理体系,对第三方数据和外部库进行安全评估和监控。
- 实时监控与审计:建立健全审计监测机制,实时监控模型的运行状态和用户行为,及时发现和处理异常情况[12]。
合规与治理技术
合规与治理技术确保大模型的开发和应用符合法律法规和伦理标准:
- 安全评估体系:构建生成式大模型的安全度量指标体系和大模型安全评估平台,研究实现对大模型的一站式安全风险评估,为大模型进行迭代升级指明具体优化的方向。
- 合规检查机制:根据国家标准和行业规范,定期对大模型的数据处理、模型训练和应用部署进行合规检查,确保符合《网络安全技术生成式人工智能服务安全基本要求》等相关标准[12]。
- 伦理审查与价值观引导:确保大模型的操作符合社会规则和伦理道德,具有正确的价值观,防止模型在理解和生成内容时出现偏见,导致信息误导或产生虚假信息。
通过构建这一多层次、全方位的大模型安全防御技术框架,可以有效应对大模型面临的各类安全威胁,保障大模型技术的健康、可持续发展。随着三项大模型安全国家标准的实施,大模型安全防御体系将更加规范化、标准化,为行业发展提供坚实保障。
大模型安全评估与测试方法
大模型安全评估是保障AI系统可靠运行的关键环节,需要构建科学、系统的评估流程,从风险评估、测试验证、合规检查到持续监控形成闭环体系。
风险评估方法
风险评估是安全评估的首要环节,主要包括以下方面:
- 多维度安全风险分析:对大模型进行全面的安全性评估,分析多样的安全性度量场景,构建生成式大模型的安全度量指标体系。
- 威胁建模:基于国际标准组织发布的大语言模型安全风险分类,对潜在威胁进行系统性识别和分级,包括数据投毒、模型后门、提示注入等攻击类型。
- 风险优先级排序:根据威胁的严重程度、发生可能性和影响范围,对识别出的风险进行优先级排序,确定重点防护领域。
测试验证方法
测试验证阶段采用多种技术手段验证大模型的安全性:
- 自动化安全测试:采用最新的AI对抗攻击检测技术,结合自动化检测工具,对大模型进行全面安全测试,提高评估效率和精准度[6]。
- 专家渗透测试:由安全专家针对大模型进行定向渗透测试,模拟真实攻击场景,发现自动化工具难以识别的安全漏洞。
- 红蓝对抗演练:通过攻防对抗的方式,全面检验大模型的安全防护能力,及时发现并修复安全漏洞。
合规检查方法
合规检查确保大模型符合相关法律法规和行业标准:
- 标准符合性评估:根据《网络安全技术生成式人工智能服务安全基本要求》等国家标准,对大模型的安全性进行评估,确保符合监管要求。
- RUBRICC框架评估:采用RUBRICC框架(Regulatory, Usability, Bias, Reliability, Interoperability, Cost, Codesign-PPIE)对大模型进行全面评估,为政策和部署决策提供依据[2]。
- 隐私影响评估:评估大模型对用户隐私的潜在影响,确保符合数据保护法规,防止隐私数据泄露。
持续监控方法
持续监控是安全评估的重要环节,确保大模型在运行过程中的安全性:
- 实时监控系统:建立大模型安全评估平台,实时监控模型输入输出,检测异常行为,及时发现安全风险。
- 定期安全审计:定期对大模型的运行状态、用户交互和生成内容进行安全审计,发现潜在安全隐患。
- 闭环反馈机制:建立问题反馈和处理机制,对发现的安全问题进行及时修复和优化,不断提升大模型的安全性。
大模型安全评估是一个动态、持续的过程,需要在风险评估、测试验证、合规检查和持续监控四个环节形成闭环,通过科学的评估方法和完善的评估流程,全面保障大模型的安全可靠运行。随着大模型技术的不断发展,安全评估方法也需要持续创新和完善,以应对日益复杂的安全挑战。
监管政策与合规要求
国内法规标准体系
我国已建立较为完善的大模型安全监管体系。2023年4月30日,全国网络安全标准化技术委员会正式发布三项大模型安全国家标准,包括《网络安全技术生成式人工智能服务安全基本要求》、《网络安全技术生成式人工智能预训练和优化训练数据安全规范》以及《网络安全技术生成式人工智能数据标注安全规范》,这些标准已于2024年11月1日正式实施,为大模型的安全发展提供了坚实保障。
此外,国际标准组织也发布了大模型安全领域两项国际标准,提出了大语言模型安全风险分类、攻击分类分级方法以及测试方法,并给出四种不同攻击强度的攻击手法分类标准,为全球AI安全评估测试提供了新基准[10]。
合规实施路径
1. 建立强制合规要求
全国政协委员、奇安信董事长齐向东建议,通过出台大模型网络数据安全强制合规要求等文件,对企业做好人工智能时代的安全防护工作给予清晰指引[13]。这些要求应涵盖:
- 数据安全合规:确保训练数据来源合法,处理过程符合隐私保护要求
- 模型安全合规:建立模型安全评估机制,防范后门攻击和对抗样本
- 应用安全合规:规范模型输出内容审核,防止生成有害内容
2. 构建多层次安全防护体系
企业应构建适配大模型的纵深防御体系,做好"内防内鬼,外防攻击",对数据安全、终端安全、API安全等方面给予全方位安全保障[13]。具体包括:
- 供应链安全管理:针对大模型训练数据易受污染或被投毒的挑战,研究大模型数据审查方法
- 模型安全性评估:构建生成式大模型的安全度量指标体系和评估平台
- 生成内容安全:对大模型生成内容的安全性进行深入研究,增强网络意识形态安全
3. 建立高效应急响应机制
齐向东强调,企业需要建立高效的应急响应机制,一旦发现恶意行为或潜在安全事件,第一时间进行处置,把威胁扼杀在摇篮里[13]。这包括:
- 实时监控系统:对模型运行状态进行持续监控
- 定期安全审计:定期开展网络和数据安全体检
- 闭环反馈机制:及时修复发现的安全漏洞
4. 拥抱AI+安全创新
为提升安全防护效率,企业应积极拥抱"AI+安全"创新成果。齐向东建议设立专项基金促进AI+安全创新成果落地,通过技术创新提高安全防护水平[13]。
5. 国际合作与标准共建
随着大模型技术的全球化应用,国际合作日益重要。奇安信等企业已带动一批在细分领域有绝对实力的安全企业一起抱团出海,共同打响中国品牌,为全球网络空间安全贡献中国网安企业的力量[13]。
通过以上合规实施路径,企业可以在确保大模型安全的同时,促进技术创新和产业发展,实现安全与发展的良性互动。正如齐向东所言:"创新是第一动力,安全是底线要求。只有筑牢安全防线、守住合规底线,创新才有可能行稳致远。"[13]
应用场景与技术实践
金融行业安全应用实践
金融行业作为大模型应用的重要领域,对安全性要求极高。某大型银行在部署大模型智能客服系统时,采用了多层次安全防护体系:
- 数据脱敏与加密处理:对客户敏感信息进行脱敏处理,采用端到端加密技术保护数据传输安全,有效防止了数据泄露风险。
- 输入过滤与提示词注入防护:实施严格的输入验证机制,成功拦截了95%以上的恶意提示词注入攻击尝试,保障了模型安全运行。
- 内容合规审核:部署实时内容审核系统,对模型生成内容进行多维度检测,确保输出内容合规性,避免了潜在的法律风险。
医疗行业安全防护案例
某三甲医院在应用大模型辅助诊断系统时,针对医疗数据的高敏感性,实施了全面的安全防护措施:
- 隐私计算技术应用:采用联邦学习和差分隐私技术,在保护患者隐私的同时实现了模型训练,有效平衡了数据利用与隐私保护。
- 模型鲁棒性增强:通过对抗训练技术提升模型鲁棒性,使模型在面对对抗样本时仍能保持95%以上的准确率,大幅提升了诊断可靠性。
- 多方安全审计:建立由医疗专家、伦理委员会和技术团队组成的多方审计机制,对模型决策进行定期审查,确保符合医疗伦理和法规要求。
政务服务安全实践
某省级政务服务平台在部署大模型智能问答系统时,实施了严格的安全防控措施:
- 供应链安全管理:对模型训练数据源进行全面审查,建立数据来源可追溯机制,有效防范了数据投毒风险。
- 安全评估与合规检查:按照《网络安全技术生成式人工智能服务安全基本要求》等国家标准,对系统进行定期安全评估,确保符合监管要求[12]。
- 实时监控与应急响应:建立7×24小时安全监控体系,对异常行为进行实时检测和响应,成功防范了多起安全事件。
教育领域安全应用
某在线教育平台在应用大模型个性化学习助手时,采取了全面的安全措施:
- 模型后门检测:应用先进的后门检测技术,对模型进行定期安全扫描,确保模型未被植入恶意后门。
- 年龄适宜内容过滤:针对不同年龄段学生,开发定制化内容过滤机制,确保生成内容符合教育伦理和学生认知水平。
- 安全意识培训:对师生进行大模型安全使用培训,提高安全意识,减少因操作不当导致的安全风险。
工业领域安全实践
某制造企业在应用大模型进行生产优化时,实施了严格的安全防护:
- 隔离部署与访问控制:采用物理隔离部署方式,实施严格的身份认证和访问控制,有效防止了未授权访问和操作[12]。
- 模型版本管理:建立完善的模型版本管理和备份机制,定期对模型进行安全检测和更新,确保模型的完整性和可用性。
- 红蓝对抗演练:定期开展安全攻防演练,全面检验大模型的安全防护能力,及时发现并修复安全漏洞。
这些行业案例表明,通过实施全面的安全防护措施,大模型可以在保障安全的前提下发挥其强大的价值,为各行业数字化转型提供有力支持。随着安全技术的不断创新和完善,大模型的应用将更加安全可靠。
未来发展趋势与挑战
大模型安全技术演进方向
随着大模型技术的快速发展,其安全防护技术也将呈现以下趋势:
- 自主安全能力增强:未来大模型将具备更强的自主安全意识,通过基于人类反馈的强化学习策略推进大模型的自主可控性。使用奖励模型学习人类评价模式,进而对大模型进行自动微调,提升模型在安全性、有效性等维度的表现。
- 多模态安全防护融合:随着大模型从单一语言模型向多模态方向发展,安全防护技术也将实现跨模态融合,构建统一的安全评估框架,应对文本、图像、视频等多种形式内容的安全风险。
- 隐私计算技术普及:联邦学习、差分隐私等隐私计算技术将在大模型训练中得到广泛应用,实现"数据可用不可见",有效解决数据隐私与模型训练之间的矛盾。
- 安全评估标准化:随着三项大模型安全国家标准的实施,安全评估将更加标准化、规范化,形成统一的评估指标体系和测试方法,为行业发展提供坚实保障[12]。
新型安全挑战
大模型技术的发展也带来了一系列新型安全挑战:
- 高级提示词攻击:随着攻击技术的演进,提示词注入攻击将变得更加隐蔽和复杂,传统的过滤机制可能难以有效防御,需要开发更智能的防护技术[6]。
- 多模态协同攻击:攻击者可能利用多模态输入的特点,通过文本、图像、音频等多种渠道协同发起攻击,绕过单一模态的安全防护机制,对防御体系提出更高要求。
- 模型窃取与复制:随着大模型商业价值的提升,模型窃取与复制风险将增加,如何保护模型知识产权,防止核心技术被盗用成为重要挑战。
- 算力资源滥用:大模型的强大能力可能被用于自动化生成钓鱼邮件、虚假新闻等有害内容,或被用于挖矿等非法活动,如何防止算力资源滥用成为亟待解决的问题。
- 伦理与价值观挑战:大模型在理解和生成内容时可能出现偏见,导致信息误导或产生虚假信息。确保模型具有正确的价值观,符合社会规则和伦理道德,是大模型安全面临的长期挑战。
应对这些挑战需要产学研各方协同努力,持续创新安全技术,完善监管体系,构建多层次、全方位的大模型安全防御体系,确保大模型技术在安全可控的前提下健康发展。同时,国际合作也至关重要,共同制定全球通用的安全标准和评估方法,应对日益复杂的安全挑战。
结论
研究发现总结
通过对大模型安全关键技术的研究,我们发现大模型安全威胁主要分为四大类:数据安全威胁、模型安全威胁、应用安全威胁和系统安全威胁。这些威胁贯穿大模型的全生命周期,从训练前的数据准备到模型部署后的应用阶段。
研究表明,大模型安全防御需构建全方位的多层次防护体系:
- 数据层面:实施严格的数据来源审查、预处理净化和加密访问控制
- 模型层面:采用对抗训练、后门检测与清除等技术增强模型鲁棒性
- 应用层面:建立输入过滤、输出审核和可控生成技术
- 系统层面:完善身份认证、供应链安全和实时监控机制
- 合规层面:构建安全评估体系、合规检查机制和伦理审查框架
大模型安全评估测试方法已形成较为完善的体系,包括风险评估、测试验证、合规检查和持续监控四个环节,形成闭环管理。国内已发布三项大模型安全国家标准,为行业发展提供了规范指引。
技术发展建议
- 加强自主安全能力建设:推进基于人类反馈的强化学习策略,提升大模型自主可控性。通过奖励模型学习人类评价模式,对大模型进行自动微调,增强安全性和有效性。
- 发展多模态安全防护技术:随着大模型向多模态方向发展,应构建统一的跨模态安全评估框架,应对文本、图像、视频等多种形式内容的安全风险。
- 推广隐私计算技术应用:大力推广联邦学习、差分隐私等隐私计算技术在大模型训练中的应用,实现"数据可用不可见",平衡数据利用与隐私保护。
- 建立高效应急响应机制:企业需建立高效的安全应急响应机制,一旦发现恶意行为或潜在安全事件,第一时间进行处置,将威胁扼杀在摇篮里[13]。
- 推进国际合作与标准共建:积极参与国际标准制定,推动形成全球通用的大模型安全标准和评估方法。如国际标准组织已发布的大语言模型安全风险分类和攻击分类分级方法,为全球AI安全评估测试提供了新基准[10]。
- 设立专项基金促进创新:建议设立专项基金促进"AI+安全"创新成果落地,通过技术创新提高安全防护水平,实现安全与发展的良性互动[13]。
- 构建RUBRICC评估框架:采用RUBRICC框架(Regulatory, Usability, Bias, Reliability, Interoperability, Cost, Codesign-PPIE)对大模型进行全面评估,为政策和部署决策提供科学依据[2]。
- 加强伦理与价值观引导:确保大模型具有正确的价值观,符合社会规则和伦理道德,防止模型在理解和生成内容时出现偏见,导致信息误导或产生虚假信息。
只有筑牢安全防线、守住合规底线,大模型技术创新才能行稳致远,为各行业数字化转型提供有力支持。
参考来源:
- Digital Health Policy and Cybersecurity Regulations Regarding Artificial Intelligence (AI) Implementation in HealthcareDigital Health Policy and Cybersecurity Regulations Regarding Artificial Intelligence (AI) Implementation in Healthcare 文献链接
- The Accuracy and Capability of Artificial Intelligence Solutions in Health Care Examinations and Certificates: Systematic Review and Meta-AnalysisThe Accuracy and Capability of Artificial Intelligence Solutions in Health Care Examinations and Certificates: Systematic Review and Meta-Analysis 文献链接
- [PDF] 大模型关键技术与未来发展方向 原文链接
- 大模型安全实践2024白皮书_挑战_报告_内容 - 搜狐 原文链接
- 2024年大模型安全实践与治理展望 - 远瞻慧库 原文链接
- [PDF] 大模型安全实践(2024) - 信息资源系统 原文链接
- 我国学者在大语言模型安全领域取得进展 - 国家自然科学基金委员会 原文链接
- 国内外大模型安全技术框架汇总原创 - CSDN博客 原文链接
- SecCorpus: 构建安全领域大模型数据的技术实践 - 腾讯科恩实验室 原文链接
- 清华大学黄民烈团队发布安全评估框架促大模型迈向可控可信 原文链接
- 张向征大模型安全研究与实践 - 36氪 原文链接
- 2025 AI大模型安全防护AI安全部署实战指南 原文链接
- 要给大家泼盆冷水了使用MCP 绝对不容忽视的一个问题 原文链接
- 大模型安全挑战与攻击测试研究 原文链接
- 大模型的安全挑战从环境到应用的全生命周期风险解析 - 知乎专栏 原文链接
- [PDF] 大语言模型提示注入攻击安全风险分析报告 原文链接
- [PDF] 大模型安全漏洞报告 原文链接
- 技术实践百度安全「大模型内容安全」高级攻击风险评测 原文链接
- 必看大模型时代十大网络安全危机深度剖析 - 安恒信息 原文链接
- 浅析大语言模型安全和隐私保护国内外标准和政策原创 - CSDN博客 原文链接
- 【Web 大语言模型攻击简介】 原创 - CSDN博客 原文链接
- [PDF] 人工智能安全治理框架 原文链接
- 网宿安全推出大模型安全评估服务,筑牢AI安全防线 原文链接
- ...利用大模型进行安全攻防:内附多个应用案例 原文链接
- 评测披露大模型内容安全隐患,专家:需像人一样学习安全本质 原文链接
- 大模型安全评估——LLMs Evaluation in Safety - 知乎专栏 原文链接
- 大模型安全领域两项国际标准发布全球AI安全评估测试有了新基准 原文链接
- 中国信通院发布大模型安全基准测试报告360智脑综合排名第一 原文链接
- 一站式大模型安全服务 原文链接
- [CSA GCR]大语言模型安全性测试方法 - 发现报告 原文链接
- 大模型安全评估框架、维度与实践指南原创 - CSDN博客 原文链接
- 大语言模型系统安全综述 原文链接
- 中伦邀请丨生成式人工智能的法律议题及《网络数据安全管理条例》... 原文链接
- 三项大模型安全国家标准发布,为行业发展保驾护航 原文链接
- ...建议出台大模型网络数据安全强制合规要求等文件 原文链接