在amazon linux 2023上面源码手动安装tesseract5.5.1
问题
因为amazon linux 2023自带的源没有tesseract5库,所以需要在amazon linux 2023上面手动源码安装tesseract5.5.1。
源码编译依赖库安装
sudo dnf update
# autoconf库
sudo dnf install -y gcc gcc-c++ make autoconf automake libtool
# 图像库
sudo dnf install -y libjpeg-devel libpng-devel libtiff-devel zlib-devel
安装Leptonica 1.86.0
# 下载安装包
wget http://www.leptonica.org/source/leptonica-1.86.0.tar.gz
# 解压
tar -zxvf leptonica-1.86.0.tar.gz
cd leptonica-1.86.0
# 配置,编译和安装
./configure --prefix=/usr/local
make
sudo make install
# 在进行下一步之前,一定要配置这个PKG_CONFIG_PATH环境,告诉下一步构建配置的leptonica配置文件位置(lept.pc)
export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig/
安装Tesseract 5.5.1
# 下载
wget https://github.com/tesseract-ocr/tesseract/archive/refs/tags/5.5.1.tar.gz -O tesseract-5.5.1.tar.gz
# 解压
tar -zxvf tesseract-5.5.1.tar.gz
cd tesseract-5.5.1
# 配置,编译和安装
./autogen.sh
./configure --prefix=/usr/local
make
sudo make install
sudo ldconfig
安装Tesseract语音包
# 创建语言包目录 (如果不存在)
sudo mkdir -p /usr/local/share/tessdata# 下载英文和简体中文语言包
cd /usr/local/share/tessdata
sudo wget https://github.com/tesseract-ocr/tessdata/raw/main/eng.traineddata
sudo wget https://github.com/tesseract-ocr/tessdata/raw/main/chi_sim.traineddata
测试
测试图片文件:

tesseract 0.png output -l chi_sim+eng --psm 3 --oem 3
cat output.txt
效果如下图:
[ssm-user@ip-172-32-131-194 ~]$ cat output.txt
15:12 ull 5G @m)
< 详 情Y 憨 憨
M #2025 x x x x x x x x xXXXXXXXXXXXXXXXXxxdddd1 分 钟 前 & T -发 表 评 论 : © K
参考
- leptonica
- Error When installing Tesseract 3.05 in Centos7 “error: Leptonica 1.74 or higher is required. Try to install libleptonica-dev package”
- tesseract
- install last tesseract to Amazon Linux
- Install tesseract-ocr on Amazon Linux 2023
- tessdata
