当前位置: 首页 > news >正文

司南评测体系全新升级,“五位一体”评估全链路关键能力

在通用人工智能时代加速到来的背景下,专业、公正、开放的评测体系是确保人工智能安全、高效发展的关键环节,它不仅是技术发展的“试金石”,也是连接技术与应用、促进跨领域合作的重要桥梁。

近日,由上海AI实验室打造的创新开放评测体系司南(OpenCompass)全面升级,从大模型评测扩展至AI计算系统具身智能安全可信垂类行业应用等五大领域,构建起“五位一体”的全景评估范式,覆盖从底层算力到上层智能的全链路关键能力,为行业提供一站式、全景化的能力刻度。

自发布以来,司南评测体系通过开源可复现的一站式评测框架,已累计支持超 200 个大语言模型、150 个多模态模型,覆盖 300+ 评测集,工具链 GitHub Stars 超过 1 万。司南作为主要成员参与制定国家标准《人工智能大模型第 2 部分:评测指标与方法》,并联合百度、阿里、字节跳动、腾讯、中国电信、中国移动等 20 余家主流企业共建评测榜单,工具链已集成至阿里云 ModelScope、百度云在线评测服务等产品,持续赋能大模型产业生态。同时,司南还携手南京大学、同济大学等机构,共同打造法律、土木工程等垂直领域评测基准。

司南已建立起含大语言模型、多模态模型、具身智能及安全可信等核心方向的评测榜单体系。未来,司南将通过科学、公正、全面的评测,对模型与应用的性能、效率、安全性及可靠性作出评估,助力新技术在实际应用中达到预期标准;同时,通过评测识别出当前技术的不足之处,提供优化方向,激励研究者探索创新,进而构建安全、可信、公平的人工智能生态体系。

司南官网链接:

https://opencompass.org.cn/home

焕新升级:从底层算力到场景应用

随着通用人工智能技术持续演进,模型参数规模不断增长,能力边界不断拓展,从算法突破到场景落地,人工智能正加速走向与真实世界深度融合。面对不断提升的复杂性与不确定性,单一维度、孤立指标的评估方式已难以支撑技术走向大规模部署与可信应用。在此背景下,构建系统化、标准化、开放性的评测体系,不仅是衡量模型技术水位的“试金石”,更是打通研发、应用与监管的重要“基础设施”。

为回应通用智能时代对评估体系的更高要求,上海AI实验室对司南评测体系进行了全面升级。在原有通用大模型能力评测基础上,进一步拓展并纳入:

  • 安全可信评测:补足模型可控性与可追溯能力短板,强化越狱防护与内容溯源;

  • 具身智能评测:评估多模态输入下从“大脑”到“身体”的协同感知与决策控制能力;

  • AI计算系统评测:覆盖AI芯片和服务器、软硬件适配、智算中心,量化算力底座效能;

  • 垂类行业评测:验证模型在专业领域的知识深度与应用稳健性。

至此,司南形成覆盖 AI计算系统—通用大模型—具身智能—安全可信—垂类行业应用五大核心板块的能力评估矩阵,构建起从底层算力到上层智能的全链路闭环评测范式

图片

亮点详解:

新增四大模块,重塑 AI 能力刻度标准

具身智能评测:静态-仿真-实境,多层级全面评估

具身智能已成为推动 AI 向更高阶智能迈进的重要方向。具身智能评测从具身大脑、具身小脑、具身系统三大具身智能功能维度出发,构建静态-仿真-实境的三层级评测路径,覆盖模型从认知到行动的全链条能力:

  • 静态评测:基于 VLMEvalKit,对视觉-语言大模型作为具身大脑的能力,和视觉-语言-动作大模型作为具身小脑的能力进行开环评测。

  • 仿真评测:基于 GRUTopia (桃源仿真平台),对机器人、人类、环境进行高保真仿真,在虚拟环境中对机器人的导航、操作、身体控制等能力进行闭环评测。

  • 实境评测:面向机器人真实世界操作场景的评测基准 myBench-A1,考察具身大小脑模型在操作场景下的任务泛化能力和场景泛化能力,任务泛化包括语言指令泛化、技能泛化,场景泛化包括操作物泛化、视觉干扰物泛化、背景泛化、光照条件泛化。

安全可信评测:“攻防双测+溯源追责”机制,筑牢 AI 风险防线

随着大模型广泛应用于内容生成、代码编写等关键任务,其安全性与可控性成为社会关注焦点。安全可信评测依托 AI45 安全生态平台,人类价值观、安全风险、信息准确可靠、法律规范、越狱与滥用五大安全核心议题出发,构建起系统化的安全评估闭环。

  • 可信溯源评测:涵盖水印植入与检测、模型套壳识别以及深伪内容鉴别。为大模型服务商提供轻量级、隐私保护、可插拔的水印服务模块。只修改 LLM 的 logits 生成部分,即可在不影响生成质量的前提下,提供高信息比特密度的水印植入和检测功能。同时支持中间层特征的基模型检测与多模态内容深伪鉴定。

  • 越狱攻击评测:提出越狱攻击方法 CodeAttack,使得大语言模型的安全护栏在代码域上“失效”。在最先进的大语言模型上取得了 80% 以上的攻击成功率。设计多轮攻击方法 ActorAttack,对 OpenAI o1 等模型实现成功攻击,并提出了第一个多轮安全对齐数据集。

AI 计算系统评测:打通底层算力到上层智能的性能闭环

AI 模型的持续演进离不开底层计算力的支撑。新上线的 AI 计算系统评测,基于人工智能开放计算体系 DeepLink,建立起由 AI芯片与服务器、软硬件适配、智算中心三大核心模块组成的完整评估架构:

  • AI 芯片与服务器评测:从基础能力和大模型应用场景出发,制定评测标准,覆盖 100+ 评测指标。

  • 软硬件适配评测:提供在框架和芯片计算库之间统一的标准算子接口约 300+;接入 8 款硬件芯片;提供标准测试套件,支持 11,000+ 常见算子测例;提供标准编译协议,通过图获取模块获得模型中的计算任务,表达为统一的中间表示形式,并通过计算图优化技术自动生成 AI 芯片设备代码,从而提高研发效率和计算的执行性能。

  • 智算中心评测:提供智算中心验收规范、评测实施方案以及评测工具,涵盖计算能力、通信能力、存储能力、大模型能力、稳定性、资源管理、安全等多个维度。

垂类行业应用评测:构建 AI 能力与应用场景深度对齐的评测路径

垂类应用评测模块目前已推出“AI+金融”评测和“AI+医疗”评测。

金融作为大模型重点落地行业,对安全性、专业性、实用性要求极高。此次推出的“AI+金融”评测,从安全与价值对齐、风险控制、专业认知、业务辅助拓展四大核心方向出发,构建融合多模态、主观题与大模型评审的新型评测范式:

  • 大模型裁判机制:评测集以主观开放题为主,由大语言模型作为裁判进行多维度打分。综合考察模型回复的准确性、相关性、全面性与深度。

  • 金融多模态评测:在纯文本基础上,评测集融合财报、研报、IPO、K线图、公章等典型图文材料,构建贴近金融实务的多模态场景,系统评估模型的专业理解与应用能力。

医疗行业因其独有的专业度和严谨性,对医疗大模型的能力提出了极高的要求。“AI+医疗”评测沿用之前推出的医疗大模型开放评测平台 MedBench3.0 版本新增医疗多模态评测能力,针对真实应用场景,构建了文献问答、复杂推理、临床危急情况识别评测数据集,并继续向业界开放医疗大模型能力评测服务。

面对通用人工智能技术持续突破与应用场景日益多元的趋势,升级后的司南评测体系构建了涵盖底层算力、通用模型、具身智能、安全可信与垂直行业在内的完整评测链条,致力于为行业提供统一、权威的技术评价标准,推动 AI 能力与实际需求紧密结合,助力通用人工智能在各领域实现安全、可信和高效的落地应用。

http://www.dtcms.com/a/290999.html

相关文章:

  • 神经网络过拟合处理:原理与实践
  • C++实战案例:从static成员到线程安全的单例模式
  • Spring AI 系列之十八 - ChatModel
  • 【实战】Dify从0到100进阶--文档解读(10)参数提取HTTP节点
  • MybatisPlus-15.扩展功能-逻辑删除
  • 国产电钢琴核心优缺点是什么?
  • 深度学习 ---神经网络以及数据准备
  • C++基础数据结构
  • Ubuntu 22 安装 ZooKeeper 3.9.3 记录
  • Cookie、Session、Local Storage和Session Storage区别
  • 低代码平台有什么特殊优势
  • 小架构step系列21:参数和返回值的匹配
  • 昇腾310P软件安装说明
  • java和ptyhon对比
  • 网络编程 示例
  • A316-HF-DAC-V1:专业USB HiFi音频解码器评估板技术解析
  • Linux 文件操作详解:结构、系统调用、权限与实践
  • C语言-字符串数组
  • DL00691-基于深度学习的轴承表面缺陷目标检测含源码python
  • 【STM32】485接口原理
  • Jmeter如何做接口测试?
  • soft_err错误
  • 【C语言进阶】结构体练习:通讯录
  • OCR 赋能发票管理系统:守护医疗票据合规,让管理更智能
  • Milvus:开源向量数据库的初识
  • 第17章 基于AB实验的增长实践——沉淀想法:实验记忆
  • 基于deepseek的LORA微调
  • react-window 大数据列表和表格数据渲染组件之虚拟滚动
  • Neo4j graph database
  • 剖析Sully.ai:革新医疗领域的AI助手功能启示