当前位置: 首页 > wzjs >正文

校园网站建设意义国外手机设计网站推荐

校园网站建设意义,国外手机设计网站推荐,嘉定网站建设公司,网络营销推广的方式都有哪些文章目录 摘要1、安装Tesseract-OCR2、在python中使用安装依赖 3、本地图片识别4、结合playwright动态识别网站验证码 摘要 python中使用pytesseract库进行ocr识别,需要安装Tesseract-OCR,通过指定pytesseract.tesseract_cmd路径,可以将esser…

文章目录

    • 摘要
    • 1、安装Tesseract-OCR
    • 2、在python中使用
      • 安装依赖
    • 3、本地图片识别
    • 4、结合playwright动态识别网站验证码

摘要

  python中使用pytesseract库进行ocr识别,需要安装Tesseract-OCR,通过指定pytesseract.tesseract_cmd路径,可以将esseract-OCR集成到pytho程序中,避免客户端电脑的依赖。

1、安装Tesseract-OCR

Tesseract是一个高度精确的开源OCR(光学字符识别)系统,广泛应用于文本识别项目中。

  • 下载地址:
    https://digi.bib.uni-mannheim.de/tesseract/
    选择最新的稳定版下载
  • 安装程序:下载后安装程序
  • 中文包下载:
    地址:https://gitcode.com/open-source-toolkit/90e2f
    下载了最新版本的chi-sim.traineddata文件,复制到Tesseract的tessdata目录下
    通常,路径类似于C:\Program Files\tesseract\tessdata(Windows)
    或 /usr/share/tesseract-ocr/4.00/tessdata(Linux)。

2、在python中使用

  • 安装依赖

pip install pytesseract

3、本地图片识别

import pytesseract
from PIL import Image# 获取文件的绝对路径
def get_abspath(filename):try:current_dir = os.getcwd()filename = os.path.normpath(os.path.join(current_dir, filename))# print(f"get_abspath文件路径:{filename}")return filenameexcept Exception as e:print(f"获取文件绝对路径时出现错误: {e}")return ""# 手动指定路径(Windows常见) Tesseract 系统路径
driver_path = r"Tesseract-OCR\\tesseract.exe"
pytesseract.pytesseract.tesseract_cmd = get_abspath(driver_path)#使用示例
if __name__ == "__main__":# 1 识别本地图片 # 英文识别current_dir = os.getcwd()filename = os.path.normpath(os.path.join(current_dir, f"code.jpg"))file = Image.open(filename)text = pytesseract.image_to_string(file, lang="eng")print(text)#中文识别,需要下载语言包filename = os.path.normpath(os.path.join(current_dir, f"sushi.png"))file = Image.open(filename)text = pytesseract.image_to_string(file, lang='chi_sim') print(f"识别结果:{text}")

识别结果示例:
在这里插入图片描述

4、结合playwright动态识别网站验证码

import os
import pytesseract
from PIL import Image
from playwright.sync_api import Playwright
import tools.pwHander as pwHander
from PIL import Image# 获取文件的绝对路径
def get_abspath(filename):try:current_dir = os.getcwd()filename = os.path.normpath(os.path.join(current_dir, filename))# print(f"get_abspath文件路径:{filename}")return filenameexcept Exception as e:print(f"获取文件绝对路径时出现错误: {e}")return ""# 手动指定路径(Windows常见) Tesseract 系统路径
driver_path = r"Tesseract-OCR\\tesseract.exe"
pytesseract.pytesseract.tesseract_cmd = get_abspath(driver_path)# 验证码图片识别
def get_captcha(page: Playwright, element_selector="img#captcha", file_name="code.jpg"):try:current_dir = os.getcwd()filename = os.path.normpath(os.path.join(current_dir, f"{file_name}"))# 通过class选择器获取img元素code_img = page.locator(element_selector)if not code_img:raise ValueError("验证码元素未找到!")# 刷新验证码# code_img.click()# 下载验证码图片code_img.screenshot(path=filename)file = Image.open(filename)text = pytesseract.image_to_string(file, lang="eng")print("验证码识别结果:", text)return text.strip()except Exception as e:print(f"获取验证码 失败:{str(e)}")return ""
#使用示例
if __name__ == "__main__":# 2 动态识别网站验证码with sync_playwright() as p:browser = p.chromium.launch(headless=False, slow_mo=1000)context = browser.new_context()page = context.new_page()page.goto("测试网址")# 验证码图片下载imgText = get_captcha(page, "img#jcaptcha")print(f"验证码:{imgTest}")
http://www.dtcms.com/wzjs/838895.html

相关文章:

  • 深圳网站建设专业公司html5网站模板
  • 南漳网站定制学校网站怎么做
  • 专注七星彩网站开发出租自己怎么做外贸网站空间
  • 做本地网站怎么挣钱电子商务网站建设课程的心得
  • 鹤山区网站建设网站及单位网站建设情况
  • 网站怎么做好天元建设集团有限公司破产重组
  • 如何开发网站电子商务网站建设与管理思考与练习
  • 微信链接的微网站怎么做的网站建设研究的意义
  • 怎样提高网站浏览量网站推广常用的方法
  • 简历网站免费域名年龄对seo的影响
  • 巴中建网站的公司<网站建设与运营》
  • 找网站开发公司seo技术服务外包公司
  • 可以看男男做的视频网站上海网站备案查询
  • 宁波网站推广高手深圳网站建设在哪里可以
  • 公司设计一个网站需要多久邦泽网站建设
  • 网站建设公司盈利模式查找企业名录
  • 佛山市做网站的公司中山网站建设价位
  • 外贸模板建站深圳创业补贴咨询电话
  • 企业网站建设综合实训心得体会一千字物流百度推广怎么做网站
  • 购物网站模块邯郸做移动网站价格表
  • 重庆微信网站代理商兖州网站开发
  • 网站建设好销售吗建立公司网站视频
  • 设置自己的网站中山公司做网站
  • 网站图标ico百度seo怎么查排名
  • 西安做网站南通公司南京企业网
  • 鲜花网站建设企划书嵌入式开发工程师前景
  • 美容会所网站模板下载规划馆网站建设
  • 网站百度未收录商桥安装显示用域名建设网站
  • 网站制作公司很好 乐云践新网站翻新后seo怎么做
  • 合同 制作 网站官网seo哪家公司好