当前位置: 首页 > news >正文

模型学习系列之考试

背景

Task & Benchmark

Task & Benchmark

Task列
  • 定义:描述的是「人工智能模型需要完成的具体任务类型」
  • 何时用:在训练后或发布前,用于统一测试模型的能力。
  • 怎么用:在公开的基准测试平台(如MMBench、MMMU) 或实验室环境中。
  • 作用:为了量化比较不同模型在特定领域(如OCR、视频理解、数学推理)的表现差异。
  • 分类(根据能力维度分组)
    • General VQA: 通用视觉问答(看图回答开放问题)
      • 例:给一张猫戴帽子的照片,问「图中猫戴的是什么颜色的帽子?」模型答「红色」。
    • STEM:科学、技术、工程、数学综合任务(如AI2D解科学图)
      • 例:输入一张电路图,问「R2 电阻的阻值是多少欧姆?」模型答「220 Ω」。
    • OCR & Chart: 文字识别与图表分析(如OCRBench测文字提取精度)
      • 例:给一张柱状图,问「2023 年销售额最高的月份是哪月?」模型答「12 月」。
    • Long Document: 长文档理解
      • 例:上传一份 80 页 PDF 报告,问「第三章第二节提到的核心结论是什么?」模型给出摘要。
    • Visual Grounding: 视觉定位
      • 例:在街景图中指出「请用红框标出所有交通信号灯」。
    • GUI Agents: 图形界面智能体(如OS World模拟手机、电脑操作)
      • 例:指令「帮我在 Android 手机上把闹钟设为明早 7:00」,模型自动点击完成设置。
    • Coding:代码生成与理解
      • 例:给一张网页设计稿,要求「生成对应的 HTML+CSS 代码」,模型输出可运行源码。
    • Video Understanding: 视频理解
      • 例:播放一段 30 秒篮球视频,问「谁在最后一秒投进了三分球?」模型答「23 号球员」。
Benchmark
  • 定义: Benchmark是「标准化的测试数据集或指标」,用于量化Task的表现。
  • 何时创建:多数在2023-2024年发布
  • 怎么用:在论文、排行榜或产品报告中作为权威参考(如Hugging Face的模型卡)
  • 作用:解决“如何公平比较模型”的问题,避免厂商自话自说。
  • 运作(数据集)
    • MMBench-V1.1-EN: 英文视觉问答基准测试-版本1.1,包含3,000多对图文对。
    • MMBench-V1.1-CN: 中文视觉问答基准测试-版本1.1。
    • MMSTAR: 多模态标准测试
    • BLINK: 眨眼测试
    • MUIRBENCH: 多模态理解基准测试
    • MMMU: 多模态数学理解
    • MMMU-Pro: 多模态数学理解专业版
    • Video MMMU: 视频多模态数学理解
    • AI2D:人工智能文档
    • MathVista: 数学视野
    • WeMath: 视觉数学推理
    • ChartQAPro: 图表问答专业版
    • ChartMuseum: 图表博物馆
    • OCRBench: 光学字符识别基准测试
    • MMLongBench-Doc: 多模态长文档基准测试
    • RefCOCO+avg(val): 参考COCO+平均值(验证集)
    • OSWorld: 操作系统数据集
    • AndroidWorld: 安卓数据集
    • WebVoyageSom: 网页航行Som
    • Webquest-SingleQA: 网页任务-单一问题问答
    • Webquest-MultiQA: 网页任务-多问题问答
    • Design2Code: 设计转代码
    • Flame-VLM-Code: 火焰-视觉语言模型-代码
    • VideoMME(w/o): 视频多模态理解(画面)
    • VideoMME(w): 视频多模态理解(画面+音频)
    • MMVU: 多模态视频理解
    • LVBench: 长视频基准测试
    • MotionBench: 运动基准测试

总结

  • Task是“考什么”, Benchmark是“用什么考”
  • Task定义模型能力方向,Benchmark提供量化标尺。
http://www.dtcms.com/a/314317.html

相关文章:

  • 机器学习(8):线性回归
  • 基于落霞归雁思维框架的自动化测试实践与探索
  • OpenLayers 入门指南【五】:Map 容器
  • Unity发布Android平台实现网页打开应用并传参
  • 如何查看 iOS 电池与电耗:入门指南与实战工具推荐
  • 期权投资盈利之道书籍推荐
  • Codeforces Round 1008 (Div. 2)
  • Chrontel【CH7214C-BF】CH7214C USB Type C Logic Controller
  • 【Java线程池深入解析:从入门到精通】
  • Memcached 缓存详解及常见问题解决方案
  • 【深度学习新浪潮】近三年城市级数字孪生的研究进展一览
  • 【音视频】WebRTC 一对一通话-实现概述
  • 使用vue缓存机制 缓存整个项目的时候 静态的一些操作也变的很卡,解决办法~超快超简单~
  • 深入剖析RT-Thread串口驱动:基于STM32H750的FinSH Shell全链路Trace分析与实战解密(上)
  • Back to the Features:附录C Unconditional world model evaluations
  • 第四十一节 MATLAB GNU Octave教程
  • 第四十五章:AI模型的“灵魂契约”:GGUF权重到PyTorch结构极致适配
  • Nginx vs Spring Cloud Gateway:限流功能深度对比与实践指南
  • 政策合规性网页设计:工业数据可视化的信息安全技术规范解析
  • 基于机器学习的二手房信息可视化及价格预测系统设计与实现
  • 车载通信架构 ---车内通信的汽车网络安全
  • [spring-cloud: @LoadBalanced @LoadBalancerClient]-源码分析
  • bypass
  • Azure DevOps - 使用 Ansible 轻松配置 Azure DevOps 代理 - 第6部分
  • vim 组件 使用pysocket进行sock连接
  • ArcGIS的字段计算器生成随机数
  • Deepoc 赋能送餐机器人:从机械执行到具身智能的革命性跨越
  • 登录验证码功能实现:Spring Boot + Vue 全流程解析
  • 《P1462 通往奥格瑞玛的道路》
  • 利用DeepSeek辅助编写带输出缓冲的Zig程序