当前位置: 首页 > news >正文

DrawEduMath:评估视觉语言模型的教育领域新基准

在AI赋能教育的浪潮中,视觉语言模型(VLMs)在数学教育场景的应用潜力日益凸显,从即时作业反馈到错误概念诊断,都离不开模型对学生手写数学内容的精准理解。

项目主页:https://drawedumath.org/

原文链接:https://arxiv.org/pdf/2501.14877

代码链接:https://github.com/allenai/drawedumath

数据集:https://huggingface.co/datasets/Heffernan-WPI-Lab/DrawEduMath

一、引言:为什么需要DrawEduMath?

1.1 研究背景与动机

近年来,Khan Academy、微软等机构纷纷推出AI数学教育工具,但这些工具的核心——视觉语言模型,却面临着“实验室表现”与“课堂实际”的脱节问题:

  • 数据场景错位:现有主流数学基准如GSM8k、MATH均采用规整的印刷体问题,而真实课堂中80%以上的数学作业是手写形式,包含潦草字迹、手绘图表、计算痕迹等噪声。

  • 评估维度单一:传统基准仅关注“解题正确性”,而教育场景更需要模型识别学生的解题策略、错误类型、概念误解等 pedagogical(教学法)维度的信息。

  • 标注缺乏教育专业性:现有数据集标注多由普通标注员完成,缺少教师对学生作业的专业解读视角。

为解决上述问题,论文团队联合教育工作者构建了DrawEduMath基准,核心目标是:评估VLMs在真实教育场景下,理解学生手写数学内容的综合能力

1.2 核心贡献

论文的核心贡献可概括为“一个数据集+三大技术创新”:

  1. 首个教师标注的手写数学数据集:包含2030张K-12学生手写作业图像,搭配教师撰写的详细描述和11661个QA对。

  2. 规模化合成QA方案:基于教师描述,利用LLM生成44362个合成QA,解决人工标注成本高的问题。

  3. 教育导向的问题分类体系:提出7类问题类型,精准覆盖教育场景的评估需求。

  4. 全面的VLM评估框架:结合自动评估(BERTSCORE、ROUGE-L)、LLM评估和人工评估,量化VLMs在教育场景的短板。

二、数据集构建:教师主导的全流程设计

DrawEduMath的数据集构建以“教育真实性”为核心,分为图像采样、教师标注、标注优化三个阶段,全程由资深数学教师参与,确保数据的教学价值。

2.1 图像采样:聚焦真实课堂场景

数据集的图像来源并非人工构造,而是源自美国在线学习平台ASSISTments的真实学生作业,具体采样策略如下:

  • 问题覆盖:选取188个K-12数学问题,涵盖2年级到高中,其中6-8年级(初中)问题占比55.3%,符合手写作业的高频场景。

  • 图像筛选:从6万张原始图像中,每个问题随机采样15张,最终经过去模糊、去隐私处理后保留2030张。

  • 隐私保护:由本科生助理裁剪图像,仅保留数学内容,用黑块遮挡学生手部、姓名等个人信息,通过IRB(伦理审查委员会)认证。

  • 标准对齐:所有问题关联美国共同核心州立标准(CCSS),确保数据与教学大纲一致。

数据集的核心特征如表2所示,其覆盖的数学领域前5名如表1所示,其中“比例与比例关系”(29.9%)和“几何”(24.4%)占比最高,这两类问题恰好是手写绘图的高频场景。

2.2 教师标注:注入教学专业视角

论文的核心创新之一是让教师主导标注,而非传统的普通标注员。标注团队由3名纽约市资深数学教师组成,平均教龄6年,其中2名专攻初中,1名覆盖5-12年级。标注分为两轮,流程如图1所示。

第一轮标注聚焦“详细描述”,教师需通过语音或文字,完整描述学生作业的所有细节,要求“另一位教师仅凭描述就能复现作业内容”。为提升效率,团队提供了两种标注方式:

  • 语音标注:教师口头描述,通过OpenAI Whisper转录为文本,速度快且描述更详细。

  • 文字标注:适合嘈杂环境,减少转录误差。

两种方式的对比如图2所示,部分教师的语音标注长度更长、耗时更短。第一轮标注最终产生22.8万字描述,平均每张图像111.1个词。

2.3 标注优化:新增QA对与修正

第二轮标注由5名更资深的教师(平均教龄9年,覆盖英美多地教学场景)完成,重点是修正描述+撰写QA对

  • 描述修正:94.2%的描述无需修改,修改部分多为拼写错误(如“rose”改为“rows”),平均编辑距离48.5。

  • QA对撰写:教师针对每个图像撰写QA对,聚焦教育核心需求,例如“学生使用了什么解题策略?”“存在哪些错误?”。最终产生11661个教师QA对,平均每张图像5.74个。

教师QA对的独特价值在于其教学导向性,例如针对“4个三分之一的分数条绘制”问题,教师会追问“学生标记的每部分是1/4还是1/3?”,这种问题直接指向学生的概念误解,是普通标注员难以设计的。

三、规模化创新:合成QA的生成与质量控制

教师撰写QA对的成本极高(平均每张图像4.3分钟),难以规模化。论文借鉴Changpinyo等人的思路,提出基于教师描述的合成QA生成方案,用LLM将自然语言描述转化为结构化QA对,实现数据扩容。

3.1 合成流程:从描述到QA的两步法

合成过程分为“信息拆分→QA生成”两步,全程由教师参与prompt设计,确保生成质量:

  1. 原子化拆分(Facet Extraction):将教师的长描述拆分为“原子信息块”,每个块仅包含一个核心事实。例如“左侧写着‘糖浆’,旁边有两个上下排列的数轴”拆分为两个facet:①左侧有手写词“糖浆”;②两个数轴上下排列。

  2. QA生成:针对每个facet,生成闭合式QA对(避免开放式问题),例如将facet②转化为“两个数轴是上下排列还是左右排列?”,答案为“上下排列”。

团队使用Claude 3.5 Sonnet和GPT-4o两种模型生成,最终得到44362个合成QA对,是教师QA的3.8倍。合成QA的统计信息如表4所示。

3.2 质量评估:合成QA的可靠性

为验证合成QA的有效性,团队邀请两名专业评估者(一名K-12教师、一名教育技术专家)对100个随机样本(GPT-4o和Claude各50个)进行评估,核心指标为“问题可回答性”和“答案正确性”,结果如表5所示。

评估结果表明:

  • 高可靠性:教师评估者认为100%的问题可回答,94%的答案正确;技术专家的评估略严格,但整体正确率仍达86%。

  • 错误原因:不可回答的问题多因“指代模糊”(如“第二个箭头指向哪里?”未明确箭头位置);错误答案多为转录或提取时的细节遗漏。

这证明合成QA虽不完美,但可作为教师QA的有效补充,且能大幅降低标注成本。

四、问题分类体系:精准定位教育场景需求

为深入分析VLMs在不同教育任务中的表现,论文提出了7类问题分类体系,通过“定性编码+量化聚类”的方式构建,确保分类的科学性和实用性。

4.1 分类方法:从聚类到验证的迭代过程

分类体系的构建分为三步:

  1. 模式检测:对教师和合成QA进行定性编码,并用Sentence-BERT生成句子嵌入,通过K-means(K=30)聚类,提取共性问题模式。

  2. 类别提炼:将聚类结果归纳为7类核心类型,区分“数学推理类”和“基础识别类”问题。

  3. 验证优化:让GPT-4o对500-2000个样本进行分类,迭代调整类别定义,确保分类边界清晰。

4.2 七类问题:覆盖教育全场景

7类问题的具体定义、占比及示例如表6所示,核心差异在于“是否需要数学教学知识”和“是否关注学生行为”:

从占比可以看出关键差异:教师更关注“解题策略”(23.2%)和“正确性与错误”(23.0%),这两类问题直接服务于教学反馈;而合成QA更关注“媒介类型”(15%-16%)和“低阶位置”(20%-22%),这类问题更容易从描述中提取。这种差异恰好体现了合成QA的互补性——覆盖教师未关注的基础识别任务。

五、模型评估:VLMs在教育场景的表现如何?

论文选取4个主流VLMs进行评估,包括3个闭源模型(GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro)和1个开源模型(Llama 3.2-11B Vision),从“整体性能”和“问题类型细分”两个维度展开分析。

5.1 评估框架:三重验证确保可靠性

为避免单一评估指标的偏差,论文采用“自动评估+LLM评估+人工评估”的三重框架:

  • 自动评估:用BERTSCORE(语义相似度)和ROUGE-L(n-gram匹配)衡量模型答案与标准答案的相似度。

  • LLM评估:让Mixtral 8x22B对模型答案与标准答案的相似度打分(1-4分),将3-4分视为正确。

  • 人工评估:5名作者对500个样本(涵盖所有模型和QA类型)进行评估,判断“答案正确性”和“与标准答案匹配度”。

评估指标的相关性分析表明:LLM评估与人工评估的Spearman相关系数最高(0.801),准确率达89.6%,因此后续分析以LLM评估结果为主。

5.2 整体性能:闭源模型碾压开源,合成QA可替代教师QA

整体评估结果如表7所示,核心发现有三点:

  1. 闭源模型远优于开源:Claude 3.5和GPT-4o在合成QA上的LLM得分达0.7以上,而Llama 3.2仅0.39,差距显著。这说明开源VLMs在手写内容理解上仍有巨大提升空间。

  2. 合成QA与教师QA的一致性:两种QA对的模型排名一致(Claude≈GPT-4o>Gemini>Llama),证明合成QA可作为低成本的评估替代方案。

  3. 教师QA更具挑战性:所有模型在教师QA上的得分均低于合成QA,尤其是Gemini和Llama,说明教师设计的教育导向问题对VLMs更难。

5.3 问题类型细分:正确性判断是最大短板

为定位VLMs的具体短板,论文分析了模型在7类问题上的表现,结果如表8所示。

六、研究价值与未来方向

6.1 理论与实践价值

  • 基准价值:DrawEduMath是首个融合教师专业知识的手写数学评估基准,填补了真实教育场景评估的缺口,已开源供学界使用(drawedumath.org);

  • 技术价值:提出“教师标注+LM合成”的QA生成策略,为高成本专业领域的基准构建提供范式;

  • 应用价值:明确VLMs在教育场景的性能瓶颈,为AI助教工具的研发指明方向——需强化“学生应答匹配”和“错误诊断”能力。

6.2 局限性与未来方向

论文也坦诚指出了研究局限性,并提出未来改进方向:

  • 局限性:数据集基于美国CCSS标准,地域和文化代表性不足;合成QA存在指代模糊问题;部分问题依赖通用数学知识而非手写内容理解;

  • 未来方向: 拓展数据集:覆盖更多国家的课程标准和语言;

  • 优化评估:设计更精细的问题分类(如“计算错误”“概念错误”);

  • 模型优化:研发融合教育知识的VLMs,提升对解题策略和错误类型的理解。

七、总结

DrawEduMath通过“真实场景数据+教师专业标注+双轨QA评估”的创新设计,系统评估了VLMs在手写数学理解中的性能。研究发现,尽管闭源VLMs在表面特征识别上表现出色,但在“学生应答匹配”和“错误诊断”等教育核心需求上仍有巨大提升空间。该研究不仅为VLMs的教育应用提供了评估基准,更揭示了AI赋能教育的关键方向——从“数学正确”走向“精准匹配学生实际学习状态”。对于教育AI研究者和开发者而言,DrawEduMath既是评估工具,更是理解教育场景需求的重要参考。

http://www.dtcms.com/a/593882.html

相关文章:

  • 医院网站站群建设小程序商店怎么接入视频号
  • 编程课哪个培训机构好肇庆网页关键词优化
  • 外国网站做问卷调查挣钱网站建设对客户的优势
  • 移动通信网络建设-实验3:5G建设方案规划设计
  • 关于文艺网站建设政策展馆展厅设计方案
  • 网站 设计理念上海网站排名
  • 《算法通关指南:算法基础篇 --- 一维前缀和(1)—1. 【模板】前缀和,2.最大子段和》
  • 英文网站设计多少钱wordpress qux
  • 编程语言排行榜2025年11月
  • 现在网站开发的前端语言如何做百度推广
  • 多粒子模型--交通堵塞
  • wordpress快速仿站视频教程wordpress如何进数据库
  • 做的ASP网站手机石家庄seo扣费
  • 扫二维码进入个人的购物网站如何做软件外包公司绩效考核内容
  • iOS的事件响应链
  • iOS Widget 开发-9:可配置 Widget:使用 IntentConfiguration 实现参数选择
  • 教育网站报名网络推广100种方法免费
  • 班级网站设计论文网站制作与网站建设技术
  • 卓拙科技做网站吗网站建设期末论文
  • 【App开发】Android Studio 安装插件(比如通义灵码)
  • 在线生成个人网站注册建设通网站首页
  • 栖霞建设采购网站用wordpress插件推荐
  • 网站开发前后端语言2017主流网站开发语言
  • 数仓开发中口径发散如何治理?
  • SEO网站建设入驻程流网页游戏排行2020前十名
  • EasyGBS/EasyNVR高并发适配!PostgreSQL部署指南
  • 网站开发公司怎么选择动态交互网站建设
  • 杭州网站的建设企业管理软件的发展趋势
  • git如何回退到指定提交
  • 自己做网站用中文为什么是乱码大型网站开发 优帮云