当前位置: 首页 > wzjs >正文

网站没有权重广州自助公司建网站企业

网站没有权重,广州自助公司建网站企业,黑龙江能源建设网站,安徽网新科技集团🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN…

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者,提供AI相关的技术咨询、项目开发和个性化解决方案等服务,如有需要请站内私信或者联系任意文章底部的的VX名片(ID:xf982831907

💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。④ 进群免费赠送写作秘籍一份,助你由写作小白晋升为创作大佬。⑤ 进群赠送CSDN评论防封脚本,送真活跃粉丝,助你提升文章热度。有兴趣的加文末联系方式,备注自己的CSDN昵称,拉你进群,互相学习共同进步。

在这里插入图片描述

【PaddleOCR】OCR文本检测与文本识别数据集整理,持续更新......

    • 1. 文本检测
      • 1.1 PaddleOCR 文字检测数据格式
      • 1.2 公开数据集
        • 1.2.1 ICDAR 2015
    • 2. 文本识别
      • 2.1 PaddleOCR 文字识别数据格式
        • 训练集
        • 验证集
      • 2.2 公开数据集
        • 2.1 ICDAR 2015
    • 3. 数据存放路径

  这里整理了OCR中常用的公开数据集,持续更新中,欢迎各位小伙伴贡献数据集~

1. 文本检测

1.1 PaddleOCR 文字检测数据格式

  PaddleOCR 中的文本检测算法支持的标注文件格式如下,中间用"\t"分隔:

" 图像文件名                    json.dumps编码的图像标注信息"
ch4_test_images/img_61.jpg    [{"transcription": "MASA", "points": [[310, 104], [416, 141], [418, 216], [312, 179]]}, {...}]

  json.dumps编码前的图像标注信息是包含多个字典的list,字典中的 points 表示文本框的四个点的坐标(x, y),从左上角的点开始顺时针排列。
  transcription 表示当前文本框的文字,当其内容为“###”时,表示该文本框无效,在训练时会跳过。

  如果您想在我们未提供的数据集上训练,可以按照上述形式构建标注文件。

1.2 公开数据集

数据集名称图片下载地址PaddleOCR 标注下载地址
ICDAR 2015https://rrc.cvc.uab.es/?ch=4&com=downloadstrain / test
ctw1500https://paddleocr.bj.bcebos.com/dataset/ctw1500.zip图片下载地址中已包含
total texthttps://paddleocr.bj.bcebos.com/dataset/total_text.tar图片下载地址中已包含
td trhttps://paddleocr.bj.bcebos.com/dataset/TD_TR.tar图片下载地址中已包含
1.2.1 ICDAR 2015

  ICDAR 2015 数据集包含1000张训练图像和500张测试图像。ICDAR 2015 数据集可以从上表中链接下载,首次下载需注册。
  注册完成登陆后,下载下图中红色框标出的部分,其中, Training Set Images下载的内容保存在icdar_c4_train_imgs文件夹下,Test Set Images 下载的内容保存早ch4_test_images文件夹下

  将下载到的数据集解压到工作目录下,假设解压在 PaddleOCR/train_data/下。然后从上表中下载转换好的标注文件。

PaddleOCR 也提供了数据格式转换脚本,可以将官网 label 转换支持的数据格式。 数据转换工具在 ppocr/utils/gen_label.py, 这里以训练集为例:

# 将官网下载的标签文件转换为 train_icdar2015_label.txt
python gen_label.py --mode="det" --root_path="/path/to/icdar_c4_train_imgs/"  \--input_path="/path/to/ch4_training_localization_transcription_gt" \--output_label="/path/to/train_icdar2015_label.txt"

解压数据集和下载标注文件后,PaddleOCR/train_data/ 有两个文件夹和两个文件,按照如下方式组织icdar2015数据集:

/PaddleOCR/train_data/icdar2015/text_localization/└─ icdar_c4_train_imgs/         icdar 2015 数据集的训练数据└─ ch4_test_images/             icdar 2015 数据集的测试数据└─ train_icdar2015_label.txt    icdar 2015 数据集的训练标注└─ test_icdar2015_label.txt     icdar 2015 数据集的测试标注

2. 文本识别

2.1 PaddleOCR 文字识别数据格式

PaddleOCR 中的文字识别算法支持两种数据格式:

  • lmdb 用于训练以lmdb格式存储的数据集,使用 lmdb_dataset.py 进行读取;
  • 通用数据 用于训练以文本文件存储的数据集,使用 simple_dataset.py进行读取。

下面以通用数据集为例, 介绍如何准备数据集:

训练集

建议将训练图片放入同一个文件夹,并用一个txt文件(rec_gt_train.txt)记录图片路径和标签,txt文件里的内容如下:

注意: txt文件中默认请将图片路径和图片标签用 \t 分割,如用其他方式分割将造成训练报错。

" 图像文件名                 图像标注信息 "train_data/rec/train/word_001.jpg   简单可依赖
train_data/rec/train/word_002.jpg   用科技让复杂的世界更简单
...

最终训练集应有如下文件结构:

|-train_data|-rec|- rec_gt_train.txt|- train|- word_001.png|- word_002.jpg|- word_003.jpg| ...

除上述单张图像为一行格式之外,PaddleOCR也支持对离线增广后的数据进行训练,为了防止相同样本在同一个batch中被多次采样,我们可以将相同标签对应的图片路径写在一行中,以列表的形式给出,在训练中,PaddleOCR会随机选择列表中的一张图片进行训练。对应地,标注文件的格式如下:

["11.jpg", "12.jpg"]   简单可依赖
["21.jpg", "22.jpg", "23.jpg"]   用科技让复杂的世界更简单
3.jpg   ocr

上述示例标注文件中,"11.jpg"和"12.jpg"的标签相同,都是简单可依赖,在训练的时候,对于该行标注,会随机选择其中的一张图片进行训练。

验证集

同训练集类似,验证集也需要提供一个包含所有图片的文件夹(test)和一个rec_gt_test.txt,验证集的结构如下所示:

|-train_data|-rec|- rec_gt_test.txt|- test|- word_001.jpg|- word_002.jpg|- word_003.jpg| ...

2.2 公开数据集

数据集名称图片下载地址PaddleOCR 标注下载地址
en benchmark(MJ, SJ, IIIT, SVT, IC03, IC13, IC15, SVTP, and CUTE.)DTRBLMDB格式,可直接用lmdb_dataset.py加载
ICDAR 2015http://rrc.cvc.uab.es/?ch=4&com=downloadstrain/ test
多语言数据集百度网盘 提取码:frgi
google drive
图片下载地址中已包含
2.1 ICDAR 2015

ICDAR 2015 数据集可以在上表中链接下载,用于快速验证。也可以从上表中下载 en benchmark 所需的lmdb格式数据集。

下载完图片后从上表中下载转换好的标注文件。

PaddleOCR 也提供了数据格式转换脚本,可以将ICDAR官网 label 转换为PaddleOCR支持的数据格式。 数据转换工具在 ppocr/utils/gen_label.py, 这里以训练集为例:

# 将官网下载的标签文件转换为 rec_gt_label.txt
python gen_label.py --mode="rec" --input_path="{path/of/origin/label}" --output_label="rec_gt_label.txt"

数据样式格式如下,(a)为原始图片,(b)为每张图片对应的 Ground Truth 文本文件:

在这里插入图片描述

3. 数据存放路径

PaddleOCR训练数据的默认存储路径是 PaddleOCR/train_data,如果您的磁盘上已有数据集,只需创建软链接至数据集目录:

# linux and mac os
ln -sf <path/to/dataset> <path/to/paddle_ocr>/train_data/dataset
# windows
mklink /d <path/to/paddle_ocr>/train_data/dataset <path/to/dataset>

文章转载自:

http://oxS9SOMO.qhfdL.cn
http://JONHRMi8.qhfdL.cn
http://LnwP5HTL.qhfdL.cn
http://ACtURKub.qhfdL.cn
http://x28XIDlC.qhfdL.cn
http://inPPfLWA.qhfdL.cn
http://Op2Du5F6.qhfdL.cn
http://RC2sqrsm.qhfdL.cn
http://NM1o89Wn.qhfdL.cn
http://OlU49FSg.qhfdL.cn
http://lWCwxdZR.qhfdL.cn
http://4QibqLDH.qhfdL.cn
http://aYMZFQau.qhfdL.cn
http://aJ2Kubua.qhfdL.cn
http://C67fraTo.qhfdL.cn
http://rnRSrCe9.qhfdL.cn
http://MHr87IV9.qhfdL.cn
http://r3vIahYA.qhfdL.cn
http://ztbzmOBi.qhfdL.cn
http://THdeLzFo.qhfdL.cn
http://7cHcpoWc.qhfdL.cn
http://KTlMowq9.qhfdL.cn
http://mugOZV2o.qhfdL.cn
http://Xmy8zcCK.qhfdL.cn
http://69gVYFez.qhfdL.cn
http://NRjFMSAJ.qhfdL.cn
http://QvC9aNZR.qhfdL.cn
http://GFpQ0pon.qhfdL.cn
http://zFWYpBR9.qhfdL.cn
http://UWLbU0fl.qhfdL.cn
http://www.dtcms.com/wzjs/741815.html

相关文章:

  • 杭州网站搜索排名网站推广优化如何做
  • 网站首屏高度用fullpage做的网站
  • 鹤壁做网站价格南京网站快速排名提升
  • 局域网内网站建设的步骤过程有没有电商设计的网站参考
  • 教育网站制作实训报告网站优化的方法有哪些
  • 网站模板加后台福州网站排名优化
  • 关于建设网站的报告广东个人备案网站内容
  • 软件开发费和网站建设集团网站设计方案
  • 做SEO用dede还是wordpress游戏优化软件
  • 北京城建设计集团网站外贸网站建设青岛
  • 邢台网站网页设计一等一网站建设
  • 番禺区pc端网站建设兔展在线制作网站
  • 在线教育网站建设方案org后缀的网站
  • 做企业网站需要什么广东新闻频道直播
  • 甘肃住房城乡建设厅网站首页wordpress退出
  • 广东省高校质量工程建设网站同心食品厂网站建设项目任务分解
  • 网站开发运营公司系统里看不到wordpress
  • 怎么查寻一个网站做的竞价免费网站设计定制
  • 衡水网站制作设计网络推广的几种主要方法
  • 设计接单子网站做排行榜的网站
  • 网站做管制户外刀具网站后台上传内容前台首页不显示
  • 淄博什么兼职的网站建设锚文本外链网站
  • 网站建立多少钱网站开发团队人员
  • 淘宝做的网站会不会过期有一个做场景动画的网站
  • 开放一个网站多少钱网站建设路由器怎么设置
  • 怎么做网站导航杭州网站建设洛洛科技
  • 定制网站建设公司排行wordpress 分类折叠
  • seo品牌优化百度资源网站推广关键词排名永康公司做网站
  • 招标网站建设申请深圳最新消息
  • 怎么用7牛云做网站建立平台型组织第一步需要做什么