当前位置：首页 > news >正文

数据集 - LaTeX OCR

news 2025/9/28 9:19:28

文章目录

- 一、关于 LaTeX OCR 数据集
- - 基础信息
  - 数据集背景
- 二、数据特性
- - 1、核心特征
  - 2、子数据集说明
- 三、使用方式
- - 1、数据加载
  - 2、完整加载
- 四、注意事项

一、关于 LaTeX OCR 数据集

基础信息

Hugging Face：https://huggingface.co/datasets/linxy/LaTeX_OCR
数据集主页：GitHub仓库
贡献团队：LinXueyuanStdio
数据集类型：专业型（数学公式识别）
License：未明确（建议使用者确认原始数据来源许可）

数据集背景

本数据集专为 LaTeX_OCR 及 LaTeX_OCR_PRO 项目构建，数据来源包括：

Zenodo 档案 https://zenodo.org/record/56198#.V2p0KTXT6eA
CROHME 竞赛数据 https://www.isical.ac.in/~crohme/
团队自建数据

二、数据特性

1、核心特征

多模态数据：包含印刷体和手写体数学公式的图片-LaTeX对
严格校验：使用LaTeX抽象语法树确保所有公式可渲染
场景覆盖：
- 标准印刷体公式
- 合成手写体公式
- 真实手写体公式（电子屏/纸质）

2、子数据集说明

名称	类型	样本量	特点
`small`	测试集	110	快速验证用
`full`	印刷体	~100k	经AST过滤
`synthetic_handwrite`	合成手写体	~100k	基于`full`生成
`human_handwrite`	真实手写体	较小	来自CROHME
`human_handwrite_print`	印刷体	同`human_handwrite`	手写公式的印刷版本

三、使用方式

1、数据加载

from datasets import load_dataset# 加载训练集（可选name参数：small/full/synthetic_handwrite等）
train_dataset = load_dataset("linxy/LaTeX_OCR", name="small", split="train")# 样本示例
sample = train_dataset[2]
"""
{'image': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=200x50>,'text': '\\rho _ { L } ( q ) = \\sum _ { m = 1 } ^ { L } \\ P _ { L } ( m ) \\ { \\frac { 1 } { q ^ { m - 1 } } } .'
}
"""

2、完整加载

from datasets import load_dataset
dataset = load_dataset("linxy/LaTeX_OCR", name="small")
dataset

DatasetDict({train: Dataset({features: ['image', 'text'],num_rows: 50})validation: Dataset({features: ['image', 'text'],num_rows: 30})test: Dataset({features: ['image', 'text'],num_rows: 30})
})