OCR、图像分类与目标检测
目录
- 前言
- 一、OCR(光学字符识别)
- OCR常见模型
- 1. CRNN(卷积循环神经网络)
- 2. CTPN(连接文本提议网络)
- 3. DBNet(可微分二值化网络)
- OCR常用数据集
- 二、图像分类
- Image Classfication常见模型
- 1. CNN经典架构
- 2. Transformer模型
- Image Classfication常用数据集
- 三、目标检测
- Object Detection常见模型
- 1. 双阶段模型
- 2. 单阶段模型
- Object Detection常用数据集
- 总结
前言
本文简单介绍下人工智能领域中的OCR,图像分类与目标检测等任务,将从常见模型,常用数据集等方面做入门介绍。
一、OCR(光学字符识别)
OCR常见模型
1. CRNN(卷积循环神经网络)
结合CNN特征提取与RNN序列建模,支持端到端不定长文本识别,适用于水平文本识别。
2. CTPN(连接文本提议网络)
通过固定宽度锚框检测文本行,再合并成完整文本框,擅长自然场景水平文本检测。
3. DBNet(可微分二值化网络)
创新可学习阈值分割模块,精准处理弯曲、遮挡等复杂文本,检测效率高。
MonkeyOCR(2025新模型)
轻量级文档解析模型(3B参数),支持多类型文档(公式、表格)解析,速度达0.84页/秒。
OCR常用数据集
OCR任务常用数据集有SynthText, ICDAR, COCO-Text等。
数据集 | 特点 |
---|---|
SynthText | 合成数据集,含80万图、800万文本,模拟自然场景文本分布 |
ICDAR系列 | 自然场景文本检测与识别基准 |