数据集 - LaTeX OCR
文章目录
- 一、关于 LaTeX OCR 数据集
- 基础信息
- 数据集背景
- 二、数据特性
- 1、核心特征
- 2、子数据集说明
- 三、使用方式
- 1、数据加载
- 2、完整加载
- 四、注意事项
一、关于 LaTeX OCR 数据集
基础信息
- Hugging Face:https://huggingface.co/datasets/linxy/LaTeX_OCR
- 数据集主页:GitHub仓库
- 贡献团队:LinXueyuanStdio
- 数据集类型:专业型(数学公式识别)
- License:未明确(建议使用者确认原始数据来源许可)
数据集背景
本数据集专为 LaTeX_OCR 及 LaTeX_OCR_PRO 项目构建,数据来源包括:
- Zenodo 档案 https://zenodo.org/record/56198#.V2p0KTXT6eA
- CROHME 竞赛数据 https://www.isical.ac.in/~crohme/
- 团队自建数据
二、数据特性
1、核心特征
- 多模态数据:包含印刷体和手写体数学公式的图片-LaTeX对
- 严格校验:使用LaTeX抽象语法树确保所有公式可渲染
- 场景覆盖:
- 标准印刷体公式
- 合成手写体公式
- 真实手写体公式(电子屏/纸质)
2、子数据集说明
名称 | 类型 | 样本量 | 特点 |
---|---|---|---|
small | 测试集 | 110 | 快速验证用 |
full | 印刷体 | ~100k | 经AST过滤 |
synthetic_handwrite | 合成手写体 | ~100k | 基于full 生成 |
human_handwrite | 真实手写体 | 较小 | 来自CROHME |
human_handwrite_print | 印刷体 | 同human_handwrite | 手写公式的印刷版本 |
三、使用方式
1、数据加载
from datasets import load_dataset# 加载训练集(可选name参数:small/full/synthetic_handwrite等)
train_dataset = load_dataset("linxy/LaTeX_OCR", name="small", split="train")# 样本示例
sample = train_dataset[2]
"""
{'image': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=200x50>,'text': '\\rho _ { L } ( q ) = \\sum _ { m = 1 } ^ { L } \\ P _ { L } ( m ) \\ { \\frac { 1 } { q ^ { m - 1 } } } .'
}
"""
2、完整加载
from datasets import load_dataset
dataset = load_dataset("linxy/LaTeX_OCR", name="small")
dataset
DatasetDict({train: Dataset({features: ['image', 'text'],num_rows: 50})validation: Dataset({features: ['image', 'text'],num_rows: 30})test: Dataset({features: ['image', 'text'],num_rows: 30})
})
四、注意事项
- 使用真实手写体数据时需遵守CROHME竞赛条款
- 建议通过GitHub仓库获取最新更新
- 欢迎通过点亮❤️支持项目
伊织 xAI 2025.05.18(日)