当前位置: 首页 > news >正文

数据集 - LaTeX OCR

文章目录

    • 一、关于 LaTeX OCR 数据集
      • 基础信息
      • 数据集背景
    • 二、数据特性
      • 1、核心特征
      • 2、子数据集说明
    • 三、使用方式
      • 1、数据加载
      • 2、完整加载
    • 四、注意事项


一、关于 LaTeX OCR 数据集

基础信息

  • Hugging Face:https://huggingface.co/datasets/linxy/LaTeX_OCR
  • 数据集主页:GitHub仓库
  • 贡献团队:LinXueyuanStdio
  • 数据集类型:专业型(数学公式识别)
  • License:未明确(建议使用者确认原始数据来源许可)

数据集背景

本数据集专为 LaTeX_OCR 及 LaTeX_OCR_PRO 项目构建,数据来源包括:

  1. Zenodo 档案 https://zenodo.org/record/56198#.V2p0KTXT6eA
  2. CROHME 竞赛数据 https://www.isical.ac.in/~crohme/
  3. 团队自建数据

二、数据特性

1、核心特征

  • 多模态数据:包含印刷体和手写体数学公式的图片-LaTeX对
  • 严格校验:使用LaTeX抽象语法树确保所有公式可渲染
  • 场景覆盖
    • 标准印刷体公式
    • 合成手写体公式
    • 真实手写体公式(电子屏/纸质)

2、子数据集说明

名称类型样本量特点
small测试集110快速验证用
full印刷体~100k经AST过滤
synthetic_handwrite合成手写体~100k基于full生成
human_handwrite真实手写体较小来自CROHME
human_handwrite_print印刷体human_handwrite手写公式的印刷版本

三、使用方式

1、数据加载

from datasets import load_dataset# 加载训练集(可选name参数:small/full/synthetic_handwrite等)
train_dataset = load_dataset("linxy/LaTeX_OCR", name="small", split="train")# 样本示例
sample = train_dataset[2]
"""
{'image': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=200x50>,'text': '\\rho _ { L } ( q ) = \\sum _ { m = 1 } ^ { L } \\ P _ { L } ( m ) \\ { \\frac { 1 } { q ^ { m - 1 } } } .'
}
"""

2、完整加载

from datasets import load_dataset
dataset = load_dataset("linxy/LaTeX_OCR", name="small")
dataset

DatasetDict({train: Dataset({features: ['image', 'text'],num_rows: 50})validation: Dataset({features: ['image', 'text'],num_rows: 30})test: Dataset({features: ['image', 'text'],num_rows: 30})
})

四、注意事项

  1. 使用真实手写体数据时需遵守CROHME竞赛条款
  2. 建议通过GitHub仓库获取最新更新
  3. 欢迎通过点亮❤️支持项目

伊织 xAI 2025.05.18(日)

http://www.dtcms.com/a/415415.html

相关文章:

  • Java面试-并发面试(一)
  • 比特之绘:位图的二进制诗学
  • 【K8s-Day 32】StatefulSet 深度解析:为你的数据库和有状态应用保驾护航
  • 优质的营销网站建设广告公司取名
  • Webpack5 第四节
  • 设计网站公司力荐亿企邦松江新城投资建设发展有限公司网站
  • 家用电器:从解放双手到智能生活的变革者
  • 上海网站建设大概多少钱WordPress允许用户修改评论
  • 如何给网站做seo优化用网站做宣传的方案
  • 使用神经网络预测天气
  • 青海省建设工程信息网站最近十大新闻
  • 建设银行网站显示404企业活动网站创意案例
  • XAMPP下载安装教程(附下载链接,图文并茂)
  • 杭州网站建设浙江搜搜网站收录
  • Redis-分布式锁-redission原理
  • 博州住房和城乡建设局网站wordpress搭建官网
  • 做报废厂房网站怎么做网站架设的结构
  • 海口h5建站西地那非片能延时多久有副作用吗
  • 从知乎403拦截到成功采集:网页抓取实战
  • wordpress建立购物网站seo综合查询
  • 极简 Go 语言教程:从 Java 开发者视角 3 小时入门实战
  • 济宁网站建设第一品牌深圳十大品牌策划公司
  • 破解大语言模型的无失真水印
  • Android开发-Fragment
  • 等额本息年利率反推方法
  • 电商网站建设需要开原网站开发
  • 网站推广服务合同中国建筑集团有限公司电话
  • 全国金融许可证失控情况数据(邮政储蓄网点 / 财务公司等)2007.7-2025.7
  • 基于STM32与influxDB的电力监控系统-5
  • 太原做app网站建设推广普通话奋进新征程宣传语