当前位置: 首页 > news >正文

OCR、图像分类与目标检测

目录

  • 前言
  • 一、OCR(光学字符识别)‌
    • OCR常见模型‌
      • 1. CRNN(卷积循环神经网络)‌
      • 2. CTPN(连接文本提议网络)‌
      • 3. DBNet(可微分二值化网络)‌
    • OCR常用数据集‌
  • 二、图像分类‌
    • Image Classfication常见模型‌
      • 1. CNN经典架构‌
      • 2. Transformer模型‌
    • Image Classfication常用数据集‌
  • 三、目标检测‌
    • Object Detection常见模型‌
      • 1. 双阶段模型‌
      • 2. 单阶段模型‌
    • Object Detection常用数据集‌
  • 总结‌

前言

本文简单介绍下人工智能领域中的OCR,图像分类与目标检测等任务,将从常见模型,常用数据集等方面做入门介绍。

一、OCR(光学字符识别)‌

OCR常见模型‌

1. CRNN(卷积循环神经网络)‌

结合CNN特征提取与RNN序列建模,支持端到端不定长文本识别,适用于水平文本识别。

2. CTPN(连接文本提议网络)‌

通过固定宽度锚框检测文本行,再合并成完整文本框,擅长自然场景水平文本检测。

3. DBNet(可微分二值化网络)‌

创新可学习阈值分割模块,精准处理弯曲、遮挡等复杂文本,检测效率高。
MonkeyOCR(2025新模型)‌
轻量级文档解析模型(3B参数),支持多类型文档(公式、表格)解析,速度达0.84页/秒。

OCR常用数据集‌

OCR任务常用数据集有SynthText, ICDAR, COCO-Text等。

数据集特点
SynthText‌合成数据集,含80万图、800万文本,模拟自然场景文本分布
ICDAR系列‌自然场景文本检测与识别基准

相关文章:

  • 浏览器指纹科普 | Do Not Track 是什么?
  • 客户端测试点
  • 进程间通信详解(一):管道机制与实现原理
  • 规则引擎中复合变量的深度解析:从数据库查询到业务规则落地的全链路攻略
  • JavaSec-其他漏洞
  • SpringBoot 框架第 1 次接口调用慢
  • 使用homeassistant 插件将tasmota 接入到米家
  • Spring Boot 3+:现代Java应用开发的新标杆
  • 【C++特殊工具与技术】优化内存分配(四):定位new表达式、类特定的new、delete表达式
  • 可视化预警系统:如何实现生产风险的实时监控?
  • AlgorithmVisualizer项目改进与部署-网页算法可视化
  • ChatGPT 辅助 PyTorch 开发:从数据预处理到 CNN 图像识别的全流程优化
  • 对比一下blender快捷键:p和alt+p
  • k8s从入门到放弃之Service负载均衡
  • 【C/C++】玩转正则表达式
  • 对象回调初步研究
  • MySQL中【正则表达式】用法
  • Web中间件--tomcat学习
  • Python如何给视频添加音频和字幕
  • ui框架-文件上传组件
  • c 语言做网站/北京网站开发
  • 网站开发团队职能/网店代运营合同
  • 做外贸网站公司哪家好/网站监测
  • 毕业设计做网站前端/女教师遭网课入侵视频大全集
  • 使用vue做单页面网站/百度搜索引擎的使用方法
  • 网站分成几种类型/辅导机构