当前位置: 首页 > wzjs >正文

做网站管理员需要哪些知识国内好用的搜索引擎

做网站管理员需要哪些知识,国内好用的搜索引擎,wordpress模板不一样,个人怎么做影视网站参考:如何让机器读懂图片上的文字?飞桨助您快速了解OCR - 知乎 OCR(Optical Character Recognition),译为光学字符识别,是指通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图…

参考:如何让机器读懂图片上的文字?飞桨助您快速了解OCR - 知乎
OCR(Optical Character Recognition),译为光学字符识别,是指通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。

OCR技术的应用场景非常广泛:
(1)拍照/截图识别
使用OCR技术,实现拍照文字识别、相册图片文字识别和截图文字识别,可应用于搜索、书摘、笔记、翻译等移动应用中,方便用户进行文本的提取或录入,有效提升产品易用性和用户使用体验。
(2)内容审核与监管
(3)视频内容分析
(4)纸质文档电子化

OCR技术原理

图像处理阶段:包含图像输入、图像预处理、版面分析、字符切割等子步骤。

文字识别阶段:包含特征提取、字符识别、版面恢复、后处理等子步骤。


 

【文本检测】

图像输入:读取不同格式的图像文件。

图像预处理:包含灰度化、二值化、图像降噪、倾斜矫正等预处理步骤。

版面分析:针对左右两栏等特殊排版,进行版面分析并划分段落。

字符切割:对图像中的文本进行字符级的切割,尤其注意字符粘连等问题。

【文本识别】

特征提取:对字符图像提取关键特征并降维,用于后续的字符识别算法。

字符识别:依据特征向量,基于模版匹配分类法或深度神经网络分类法,识别出字符。

版面恢复:识别原文档的排版,按照原排版的格式将识别结果输出。

后处理:引入语言模型或人工检查,修正“分”和“兮”等形近字。

参考:OCR二次开发宝典:飞桨联合多家企业和高校发布《OCR产业范例20讲》 - 知乎
基于PaddleOCR完成一个范例的完整流程一般包含数据准备、模型训练、推理部署三个部分,具体来说:

模型训练

PP-OCR和PP-Structure系列模型都使用了大量训练数据,在通用场景可以一定程度地保证精度和泛化性,因此一般建议基于飞桨PP系列模型进行模型微调(finetune),从而实现使用较少的业务数据达到预期效果。基于不同场景业务数据训练的模型,有时需要针对前后处理进行任务适配,往往能进一步提升整体效果,偶尔甚至有“奇效”。如车牌识别范例中,通过后处理优化特殊符号的识别结果,大幅提升了整体识别精度。

银行回单是企业财务记账的重要原始凭证之一。目前是由财务人员进行人工读取,提取账单中的收付款人、流水单号、金额等关键信息,结合财务记账规则进行处理,加工成记账凭证、资产负债表、开具发票。针对该场景,本范例基于PP-Structure训练命名实体识别、关系抽取模型并基于Hub Serving完成关键信息抽取的服务化部署,实现代替记账公司实现自动化记账报税功能。

文档场景信息抽取v4产线 - PaddleX 文档

通用OCR产线 - PaddleX 文档
OCR(光学字符识别,Optical Character Recognition)是一种将图像中的文字转换为可编辑文本的技术。它广泛应用于文档数字化、信息提取和数据处理等领域。OCR 可以识别印刷文本、手写文本,甚至某些类型的字体和符号。

通用 OCR 产线用于解决文字识别任务,提取图片中的文字信息以文本形式输出,本产线集成了业界知名的 PP-OCRv3 和 PP-OCRv4 的端到端 OCR 串联系统,支持超过 80 种语言的识别,并在此基础上,增加了对图像的方向矫正和扭曲矫正功能。基于本产线,可实现 CPU 上毫秒级的文本内容精准预测,使用场景覆盖通用、制造、金融、交通等各个领域。本产线同时提供了灵活的服务化部署方式,支持在多种硬件上使用多种编程语言调用。不仅如此,本产线也提供了二次开发的能力,您可以基于本产线在您自己的数据集上训练调优,训练后的模型也可以无缝集成。
通用OCR产线中包含必选的文本检测模块和文本识别模块,以及可选的文档图像方向分类模块、文本图像矫正模块和文本行方向分类模块。其中,文档图像方向分类模块和文本图像矫正模块作为文档预处理子产线被集成到通用OCR产线中。

如果您更注重模型的精度,请选择精度较高的模型;如果您更在意模型的推理速度,请选择推理速度较快的模型;如果您关注模型的存储大小,请选择存储体积较小的模型。

http://www.dtcms.com/wzjs/31270.html

相关文章:

  • 响应式布局网站尺寸南京最新消息今天
  • 鲜花网站建设规模设想入门seo技术教程
  • 北京建网站开发西地那非片多少钱一盒
  • 做灯箱到哪个网站找业务谷歌浏览器下载安装2021最新版
  • 有哪些好的建站平台浏览器大全网站
  • 好的网站设计制作网红营销
  • 创业计划书(大学生版)seo工具下载
  • 做网站开通手机验证功能百度官网下载安装到桌面上
  • 婚介 东莞网站建设南宁seo服务优化
  • 推广计划标题不允许重复南京百度推广优化排名
  • 南京网站的优化百度链接收录提交入口
  • 做游戏音频下载网站地推是什么
  • 网站设计线框图百度热搜榜小说排名
  • 网站客服系统交互设计重庆seo网页优化
  • 网页版梦幻西游手游关键词优化公司如何选择
  • 网站分析数据互联网广告投放代理公司
  • 凤凰一级a做爰片免费网站上海网站seoseodian
  • 晋江网站建设公司哪家好网页搜索排名提升
  • 郑州网站建站怎么自己做一个网页
  • 有了域名和空间怎么做网站最新国际新闻50条简短
  • 爱站网长尾奶茶网络营销策划方案
  • 全国工商企业查询网官网长沙网站推广seo
  • b2b网站如何做推广长尾关键词爱站
  • 找网站做任务领q币seo 优化教程
  • 哪些网站可以做百科参考资料可以营销的十大产品
  • 长治企业网站建设价格武汉seo网站推广
  • 抖音关键词排名优化软件搜索引擎seo排名优化
  • app界面设计模板素材免费seo标题关键词优化
  • 我想注册一个做门窗的网站应该怎样做seo服务销售招聘
  • 做网站优化步骤系统优化软件推荐