当前位置: 首页 > news >正文

AI评测-(1)基础介绍

25.6.21

优化细节文案

25.6.10

第一版

目录

背景

概念定义

基础介绍

使用场景

产品开发上线

应用优化升级

模型切换升级

评测挑战

评测集

评测维度

标注

供需变化

后续章节


背景

当前很多文章介绍AI LLM开发,比如prompt微调,Function Call&MCP接入,Agent架构等等,但是AI 评测这个环节,不容易受到重视,使用一些测试用例跑下通了就认为产品可以了,然后抓紧发到线上,很多AI产品发到了线上才发现各种问题,然后反复调整设计,但是产品体验不容易收敛,出现问题A解决了后问题B又出现了的跷跷板现象,即使调整好了,过了一段时间,随着业务变化(比如增加了新需求)、模型基座供应变化(比如Qwen2变为Qwen3)就会出现线上使用问题,甚至不可用状态。

从AI产品的认知上看,作为AI应用,当前行业前沿已经形成共识:AI评测是AI应用产品的的核心,特别是在25年AI进入推理强化学习下半场,也是AI产品经理的专业水平的核心技能。

我的一些个人理解:

  1. Deepseek代表的推理模型和Manus代表的自主智能体,AI已经进入可以在一个复杂任务空间自主探索的过程,人的一些设计甚至经验,在程度上,过渡给智能体探索。
  2. AI产品的评测,是集业务场景理解、AI解决方案架构、AI模型、安全可靠性等相对综合的产研任务,是AI数据闭环非常核心的一环。

AI应用开发,面对相对简单的任务,可以先使用最好的模型,调试下prompt,就能出结果,看似门槛更低了,但是能够作为面向真实用户的额产品发布到线上,从Demo到业务场景可用,用户体感好用,安全合规等一系列问题,是需要有一套评测体系,进行专业的AI评测。

但是AI评测在各家AI应用开发平台上,给了文档和一些示例,但是好像仍然在云里雾里,一些评测的关键问题,比如:如何制定评测集,如何设计评测纬度,对应的指标如何提炼,评测集数据具体是如何生成的,评测数据真的可以反馈线上业务的质量体验吗。

本系列,作为AI产品评测的一个理论梳理实战与探索,分享和探讨这一AI应用产研的核心工作。本系列会不定期更新文章,并维护老文章,具体维护日期的版本,可以查看文档日志说明。

概念定义

AI/大模型:这里指AI2.0的大语音模型LLM,多模态模型,Agent智能体应用等AI对象,默认为大语言模型,其他则会单独备注。

AI应用评测:通过设计的测试数据集和评估任务,评估AI应用的业务效果。

本系列中,并不会包含基础模型的基准测试(Benchmark),这部分可以参考个家大模型厂商或者评测机构的相关测试。

由于基础模型的基础测试主要评估模型通用能力,比如写作、编程、数学计算,不容易覆盖到具体垂直的业务场景。因此本系列聚焦在,从具体的业务场景视角,来设计评测体系,可能会覆盖单个NLP任务模型节点(如意图分类)、RAG知识库、Function Call、工作流Workflow、Agent等,甚至端到端应用测试

基础介绍

使用场景

在AI应用产研团队协作中,AI评测会在以下常见场景中使用到

产品开发上线

类似其他软件工程产品的开发发布流程类似,上线前需要做相关的评测,用以决策软件服务是否具备了上线条件。

应用优化升级

产品上线后,除了已知bug,还会有市场/渠道/用户反馈,提出一些badcase、需求覆盖不足、或者体验问题等,继而需要推动模型服务进行调整优化,比如增加提示词优化、RAG知识库、增加Function Call,Agent架构升级等等。

模型切换升级

模型后续使用可能会存在切换升级的情况,包括:跟随基础模型升级(比如Qwen2.5升级到Qwen3)、不同模型子版本(0125版本升级到0521版本),参数不同的模型(72B切换32B,降低延迟或者节约成本)、微调模型替换基础模型(提升业务场景的性能)等等。

评测挑战

随着阿里百练、字节扣子等这类AI应用开发平台的快速迭代,AI应用评测的具体工具对应的功能发布,已经相对比较完善了,此部分属于AI开发平台侧演进的范畴。按照本系列的聚焦在业务场景下的AI评测的宗旨,现在分析落地挑战,包括以下

评测集

评测集是对于AI应用实际落地的业务场景的一个在数据视角喜爱的提炼和抽象,特别是

  • 业务需求的理解,特别是复杂业务场景
  • 模型处理具备较好的泛化能力,哪些是典型的评测数据
  • 是否能对齐线上真实业务
  • 保障足够的细分场景覆盖
  • 避免评测细分场景比例失衡

评测维度

评测维度就是关键的衡量指标,就好像人的体征,我们可以用身高、体重、血压等来衡量。我们需要结合业务和AI落地的集觉方案,提炼出单个或者多个指标维度,用以衡量大模型应用服务在业务场景下的实际效果。

评测维度的设计,关键在于是否能够匹配业务,即在业务层面具有评估的代表性,同时又能推动AI模型或者解决方案的进一步优化,这样AI算法模型/应用开发者看到评测指标及结果,可以为下一步开发优化,提供演进方向和准出参考。

标注

标注是评测质量衡量的基础工作。人工标注受到成本高、主观偏差等影响,标注的数量、准确性可能是挑战。可以考虑自动化标注(传统工程工具或者AI大模型),可以提升效率,但是可能会存在和人工标注的一致性问题。可以采用大模型标注+人工复检的混合方案。

供需变化

在需求侧,公司业务由于不断的参与市场竞争,产品会产生的新需求、业务流程等变化;供给端,AI技术的快速迭代,比如从文本生成模型到推理模型,对于评测的方案设计、评测集设置评测维度都会有影响。

后续章节

本篇仅是基础介绍,后续将陆续整理推出:评测体系方法和维度设计、SOP执行任务设计、评测报告整理、RAG评测、Agent评测、多模态Audio评测、多模态视觉评测、典型评测集分析和使用等等。

本系列后续文章更新如下

AI评测-(2)评测体系建设-CSDN博客

相关文章:

  • 【Docker 08】Compose - 容器编排
  • 【单调栈】-----【Largest Rectangle in a Histogram】
  • DPO直接偏好函数的学习解读
  • 【Kubernetes】从零搭建K8s集群:虚拟机环境配置全指南(DNS/网络/防火墙/SELinux全解析一站式配置图文教程)
  • Spring中IoC的理解
  • python模块常用语法sys、traceback、QApplication
  • [muduo] Buffer缓冲区 | TcpServer | Reactor模式
  • 在 `setup` 函数中实现路由跳转:Vue3与Vue Router 4的集成
  • Python 数据分析与可视化 Day 3 - Pandas 数据筛选与排序操作
  • vivado工具配置(二)
  • Python 的内置函数 hasattr
  • 网络编程及原理(六):三次握手、四次挥手
  • 【软考高级系统架构论文】论软件设计方法及其应用
  • modelscope设置默认模型路径
  • app Router VS pages Router(Next.js学习笔记)
  • 车载CAN总线数据采集与故障诊断装置设计与实现
  • Spring Boot邮件发送终极指南:从基础到高级应用
  • 纯跟踪算法本质解密:航向角偏差=预瞄角?数学证明与工程实践
  • vscode搭建spring boot项目
  • 【软考高级系统架构论文】论多源数据集成及应用
  • 做泥网站/百度知道网页入口
  • wordpress怎么上传ppt/seo运营
  • 网站建设吕凡科技/seo数据分析哪些方面
  • 岳阳汨罗网站建设/百度快速收录3元一条
  • 企业网站建设 总结/中国关键词官网
  • 分析网站建设发展措施/新东方在线教育平台官网