大模型测试包含哪些方面
大模型测试概述
- 大模型可以从哪几个方面测试
- 理解能力
- 生成能力
- 服务能力
- 服务能力成熟度等级
- 安全能力
- 训练数据安全
- 模型安全
- 安全措施
- 参考文献
- 大模型安全类
- 功能性测试类
大模型可以从哪几个方面测试
通过阅读现行的相关国家标准了解到,大模型测试主要包括理解能力、生成能力、服务能力、安全四个方面的测试。下面将逐一展开介绍。
强调文本 强调文本
理解能力
参考自 人工智能 大模型 第2部分:评测指标与方法
图1:理解能力评测维度与典型任务
生成能力
参考自 人工智能 大模型 第2部分:评测指标与方法
图2:生成能力评测维度与典型任务
服务能力
人工智能 大模型 第3部分:服务能力成熟度评估
大模型服务能力框架能力域包括大模型平台能力域、大模型开发定制能力域、大模型推理及运营能力域。
- 大模型平台能力域:为模型开发定制、模型推理及运营等提供计算资源、软硬件基础设施平台的能力,包括硬件、软件及工具链、平台综合3个能力子域。
- 大模型开发定制能力域:提供大模型设计、开发及定制服务的能力,包括数据资源、模型生产定制2个能力子域。
- 大模型推理及运营能力域:基于大模型及其系统提供推理或运营服务的能力,包括模型推理平台应用、运营赋能3个能力子域。
图3:能力域与能力子项
服务能力成熟度等级
人工智能 大模型 第3部分:服务能力成熟度评估
大模型服务能力成熟度等级划分为基础应用级、协同优化级、深度赋能级3级。
- 基础应用级,具备使用大模型的能力。服务供方能提供基本的大模型平台服务能力,和/或能提供基本的模型开发定制服务能力,和/或能提供基本的模型推理及运营服务能力。
- 协同优化级,具备大模型微调和优化的能力。服务供方能提供较为全面的大模型平台服务能力,和/或能提供较为全面的模型开发定制服务能力,和/或能提供较为全面的模型推理及运营服务能力。
- 深度赋能级,具备模型的预训练、微调和优化的能力。服务供方能提供成熟度相当高的大模型平台服务能力,和/或能提供成熟度相当高的模型开发定制服务能力,和/或能提供成熟度相当高的模型推理及运营服务能力。
安全能力
参考《网络安全技术 生成式人工智能服务安全基本要求 GBT+45654-2025》
生成式人工智能服务安全,分为训练数据安全、模型安全、安全措施三部分。
训练数据安全
训练数据安全,包含数据来源安全、数据内容安全、数据标注安全。
其中,训练数据及生成内容的主要安全风险包括
- 包含违反社会主义核心价值观的内容
- 包含歧视性内容
- 商业违法违规
- 侵犯他人合法权益
- 无法满足特定服务类型的安全需求
模型安全
模型安全要求,模型训练安全、模型输出安全、模型监测测评安全、模型更新升级安全、模型环境安全。
安全措施
安全措施要求,服务适用人群、场合、用途;服务透明度;收集使用者输入信息用于训练;接受公众或使用者投诉举报;向使用者提供服务;服务稳定、持续;端侧模型服务
参考文献
大模型安全类
- 《网络安全技术 生成式人工智能服务安全基本要求 GBT+45654-2025》
- 《网络安全技术 生成式人工智能预训练和优化训练数据安全规范 GBT+45652-2025》
- 生成式人工智能应用安全测试标准.pdf
功能性测试类
- 医疗大模型应用测评指南
- 人工智能 大模型 第1部分:通用要求GBT+45288.1-2025
- 人工智能 大模型 第2部分:评测指标与方法
- 人工智能 大模型 第3部分:服务能力成熟度评估