当前位置: 首页 > news >正文

在amazon linux 2023上面源码手动安装tesseract5.5.1

问题

因为amazon linux 2023自带的源没有tesseract5库,所以需要在amazon linux 2023上面手动源码安装tesseract5.5.1。

源码编译依赖库安装

sudo dnf update
# autoconf库
sudo dnf install -y gcc gcc-c++ make autoconf automake libtool
# 图像库
sudo dnf install -y libjpeg-devel libpng-devel libtiff-devel zlib-devel

安装Leptonica 1.86.0

# 下载安装包
wget http://www.leptonica.org/source/leptonica-1.86.0.tar.gz
# 解压
tar -zxvf leptonica-1.86.0.tar.gz
cd leptonica-1.86.0
# 配置,编译和安装
./configure --prefix=/usr/local
make
sudo make install
# 在进行下一步之前,一定要配置这个PKG_CONFIG_PATH环境,告诉下一步构建配置的leptonica配置文件位置(lept.pc)
export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig/

安装Tesseract 5.5.1

# 下载
wget https://github.com/tesseract-ocr/tesseract/archive/refs/tags/5.5.1.tar.gz -O tesseract-5.5.1.tar.gz
# 解压
tar -zxvf tesseract-5.5.1.tar.gz
cd tesseract-5.5.1
# 配置,编译和安装
./autogen.sh
./configure --prefix=/usr/local
make
sudo make install
sudo ldconfig

安装Tesseract语音包

# 创建语言包目录 (如果不存在)
sudo mkdir -p /usr/local/share/tessdata# 下载英文和简体中文语言包
cd /usr/local/share/tessdata
sudo wget https://github.com/tesseract-ocr/tessdata/raw/main/eng.traineddata
sudo wget https://github.com/tesseract-ocr/tessdata/raw/main/chi_sim.traineddata

测试

测试图片文件:
测试图片

tesseract 0.png output -l chi_sim+eng --psm 3 --oem 3
cat output.txt

效果如下图:

[ssm-user@ip-172-32-131-194 ~]$ cat output.txt
15:12 ull 5G @m)
< 详 情Y 憨 憨
M #2025 x x x x x x x x xXXXXXXXXXXXXXXXXxxdddd1 分 钟 前 & T -发 表 评 论 : © K

参考

  • leptonica
  • Error When installing Tesseract 3.05 in Centos7 “error: Leptonica 1.74 or higher is required. Try to install libleptonica-dev package”
  • tesseract
  • install last tesseract to Amazon Linux
  • Install tesseract-ocr on Amazon Linux 2023
  • tessdata
http://www.dtcms.com/a/568906.html

相关文章:

  • Linux---序列化与反序列化
  • 1.6.课设实验-数据结构-栈、队列-银行叫号系统2.0
  • 在amazon linux 2023上面通过Fedora 36软件仓库源安装tesseract5
  • seo网站做推广公司公司网站哪里好
  • 动态资源加载:不用Selenium,如何高效抓取Ajax和SPA网站?
  • 7.【NXP 号令者RT1052】开发——实战-串口通信
  • CANoe学习(二)使用CANdb++制作dbc
  • Node.js Buffer:深入理解与高效使用
  • Prompt Gen Desktop 管理和迭代你的 Prompt!
  • Prompt Composition with LangChain’s PipelinePromptTemplate
  • 【HarmonyOS NEXT】常见的性能优化
  • [Ethernet in CANoe]2--如何在CANoe中去仿真CP版本的SOME/IP通信
  • 优先队列(堆)
  • 基于 TCP 线程池服务器封装 HTTP 服务器:从协议解析到适配落地
  • xargs
  • 据库事务是数据库管理系统 ACID 四大特性
  • 宜昌市住房和城乡建设局网站wordpress后台慢
  • SSM基于HTML5的流浪动物领养平台yww0b(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
  • 网站栏目分类网站开发市场
  • word转Pdf,在window正常,放在linux服务器上就转出来中文是空白
  • 攻防世界-Misc-pdf
  • 开启RN之旅——前端基础
  • 【LeetCode】99. 恢复二叉搜索树
  • 【rhcsa第一次作业】
  • 哪个网站做图找图片上海网络推广公司排名
  • 订单支付后库存不扣减,如何用RabbitMQ来优化?
  • Qt对话框设计
  • 解决 contents have differences only in line separators
  • 无锡建站方案深圳百度总部
  • Docker中安装 redis、rabbitmq、MySQL、es、 mongodb设置用户名密码