AI评测-(1)基础介绍
25.6.21 | 优化细节文案 |
25.6.10 | 第一版 |
目录
背景
概念定义
基础介绍
使用场景
产品开发上线
应用优化升级
模型切换升级
评测挑战
评测集
评测维度
标注
供需变化
后续章节
背景
当前很多文章介绍AI LLM开发,比如prompt微调,Function Call&MCP接入,Agent架构等等,但是AI 评测这个环节,不容易受到重视,使用一些测试用例跑下通了就认为产品可以了,然后抓紧发到线上,很多AI产品发到了线上才发现各种问题,然后反复调整设计,但是产品体验不容易收敛,出现问题A解决了后问题B又出现了的跷跷板现象,即使调整好了,过了一段时间,随着业务变化(比如增加了新需求)、模型基座供应变化(比如Qwen2变为Qwen3)就会出现线上使用问题,甚至不可用状态。
从AI产品的认知上看,作为AI应用,当前行业前沿已经形成共识:AI评测是AI应用产品的的核心,特别是在25年AI进入推理强化学习下半场,也是AI产品经理的专业水平的核心技能。
我的一些个人理解:
- Deepseek代表的推理模型和Manus代表的自主智能体,AI已经进入可以在一个复杂任务空间自主探索的过程,人的一些设计甚至经验,在程度上,过渡给智能体探索。
- AI产品的评测,是集业务场景理解、AI解决方案架构、AI模型、安全可靠性等相对综合的产研任务,是AI数据闭环非常核心的一环。
AI应用开发,面对相对简单的任务,可以先使用最好的模型,调试下prompt,就能出结果,看似门槛更低了,但是能够作为面向真实用户的额产品发布到线上,从Demo到业务场景可用,用户体感好用,安全合规等一系列问题,是需要有一套评测体系,进行专业的AI评测。
但是AI评测在各家AI应用开发平台上,给了文档和一些示例,但是好像仍然在云里雾里,一些评测的关键问题,比如:如何制定评测集,如何设计评测纬度,对应的指标如何提炼,评测集数据具体是如何生成的,评测数据真的可以反馈线上业务的质量体验吗。
本系列,作为AI产品评测的一个理论梳理实战与探索,分享和探讨这一AI应用产研的核心工作。本系列会不定期更新文章,并维护老文章,具体维护日期的版本,可以查看文档日志说明。
概念定义
AI/大模型:这里指AI2.0的大语音模型LLM,多模态模型,Agent智能体应用等AI对象,默认为大语言模型,其他则会单独备注。
AI应用评测:通过设计的测试数据集和评估任务,评估AI应用的业务效果。
本系列中,并不会包含基础模型的基准测试(Benchmark),这部分可以参考个家大模型厂商或者评测机构的相关测试。
由于基础模型的基础测试主要评估模型通用能力,比如写作、编程、数学计算,不容易覆盖到具体垂直的业务场景。因此本系列聚焦在,从具体的业务场景视角,来设计评测体系,可能会覆盖单个NLP任务模型节点(如意图分类)、RAG知识库、Function Call、工作流Workflow、Agent等,甚至端到端应用测试
基础介绍
使用场景
在AI应用产研团队协作中,AI评测会在以下常见场景中使用到
产品开发上线
类似其他软件工程产品的开发发布流程类似,上线前需要做相关的评测,用以决策软件服务是否具备了上线条件。
应用优化升级
产品上线后,除了已知bug,还会有市场/渠道/用户反馈,提出一些badcase、需求覆盖不足、或者体验问题等,继而需要推动模型服务进行调整优化,比如增加提示词优化、RAG知识库、增加Function Call,Agent架构升级等等。
模型切换升级
模型后续使用可能会存在切换升级的情况,包括:跟随基础模型升级(比如Qwen2.5升级到Qwen3)、不同模型子版本(0125版本升级到0521版本),参数不同的模型(72B切换32B,降低延迟或者节约成本)、微调模型替换基础模型(提升业务场景的性能)等等。
评测挑战
随着阿里百练、字节扣子等这类AI应用开发平台的快速迭代,AI应用评测的具体工具对应的功能发布,已经相对比较完善了,此部分属于AI开发平台侧演进的范畴。按照本系列的聚焦在业务场景下的AI评测的宗旨,现在分析落地挑战,包括以下
评测集
评测集是对于AI应用实际落地的业务场景的一个在数据视角喜爱的提炼和抽象,特别是
- 业务需求的理解,特别是复杂业务场景
- 模型处理具备较好的泛化能力,哪些是典型的评测数据
- 是否能对齐线上真实业务
- 保障足够的细分场景覆盖
- 避免评测细分场景比例失衡
评测维度
评测维度就是关键的衡量指标,就好像人的体征,我们可以用身高、体重、血压等来衡量。我们需要结合业务和AI落地的集觉方案,提炼出单个或者多个指标维度,用以衡量大模型应用服务在业务场景下的实际效果。
评测维度的设计,关键在于是否能够匹配业务,即在业务层面具有评估的代表性,同时又能推动AI模型或者解决方案的进一步优化,这样AI算法模型/应用开发者看到评测指标及结果,可以为下一步开发优化,提供演进方向和准出参考。
标注
标注是评测质量衡量的基础工作。人工标注受到成本高、主观偏差等影响,标注的数量、准确性可能是挑战。可以考虑自动化标注(传统工程工具或者AI大模型),可以提升效率,但是可能会存在和人工标注的一致性问题。可以采用大模型标注+人工复检的混合方案。
供需变化
在需求侧,公司业务由于不断的参与市场竞争,产品会产生的新需求、业务流程等变化;供给端,AI技术的快速迭代,比如从文本生成模型到推理模型,对于评测的方案设计、评测集设置评测维度都会有影响。
后续章节
本篇仅是基础介绍,后续将陆续整理推出:评测体系方法和维度设计、SOP执行任务设计、评测报告整理、RAG评测、Agent评测、多模态Audio评测、多模态视觉评测、典型评测集分析和使用等等。
本系列后续文章更新如下
AI评测-(2)评测体系建设-CSDN博客