当前位置: 首页 > news >正文

[Python进阶] 识别验证码

11.3 识别验证码

我们再开发某些项目的时候,如果遇到要登录某些网页,那么会经常遇到输入验证码的情况,而每次人工输入验证码的话,比较浪费时间。于是,可以通过调用某些接口进行识别。

11.3.1 调用百度文字识别接口

这里,我们详细的来介绍一下如何注册百度云、通过Python调用百度文字识别接口。

11.3.1.1 注册百度云

1、搜索百度智能云,进入到官方主页。
2、点击免费注册,注册百度智能云。
3、进入到应用管理:https://console.bce.baidu.com/ai/#/ai/ocr/overview/index
4、在服务列表中,找到通用场景OCR下的通用文字识别(高精度版),点击右边的开通。这个服务每个月会有1000次的免费试用。对于一般人而言也够了。
在这里插入图片描述

5、进去后按照要求填写相关信息,确认开通即可。
6、开通后,我们会得到3个重要信息:AppIDAPI KeySecret Key。妥善保管好着3个信息,后面会用到。

11.3.1.2 获取Access_token

访问示例代码中心:https://console.bce.baidu.com/tools/#/api?product=AI&project=%E6%96%87%E5%AD%97%E8%AF%86%E5%88%AB&parent=%E9%89%B4%E6%9D%83%E8%AE%A4%E8%AF%81%E6%9C%BA%E5%88%B6&api=oauth%2F2.0%2Ftoken&method=post
快速调试接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。
填入之前获取到的API KeySecret Key,点击调试,然后切换到响应数据中的Body页面,在下面我们可以看到access_token
在这里插入图片描述

11.3.1.3 调用接口

请求示例代码:

# encoding:utf-8
import requests
import base64

'''
通用文字识别(高精度版)
'''

request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/accurate_basic"
# 二进制方式打开图片文件
f = open('[本地文件]', 'rb')
img = base64.b64encode(f.read())

params = {"image":img}
access_token = '[调用鉴权接口获取的token]'
request_url = request_url + "?access_token=" + access_token
headers = {'content-type': 'application/x-www-form-urlencoded'}
response = requests.post(request_url, data=params, headers=headers)
if response:
    print (response.json())

返回示例(JSON格式):

{
“log_id”: 1390582998516105216,
“words_result_num”: 2
“words_result”: [
{
“words”: " OCR"
},
{
“words”: “百度通用文字识别高精度版”
}
]
}

11.3.2 使用第三方库:ddddocr

这是一个十分强大的图文识别第三方库,相对于百度文字识别,优势如下:
1、不用在线注册,本地部署即可
2、没有次数限制
3、识别效果比百度的图文识别要更好
4、使用简单
老规矩,先下载安装:

pip install ddddocr

使用:

def ftOCRByddddocr(pmImgFilename: str):
    """
    通过ddddocr库识别本地图片中的字符
    @param pmImgFilename: 图片名
    @return: {str:识别到的内容}
    """
    import ddddocr
    ocr = ddddocr.DdddOcr(show_ad=False)
    with open(pmImgFilename, 'rb') as f:
        img_bytes = f.read()
    return ocr.classification(img_bytes)

相关文章:

  • tkinter-TinUI-xml实战(10)展示画廊
  • 第三百一十回
  • JUnit实践教程——Java的单元测试框架
  • c语言贪食蛇游戏
  • python Flask与微信小程序 统计管理
  • 【Linux学习】生产者-消费者模型
  • 【FPGA】VHDL:八段码到8421BCD码转换电路
  • idea:如何连接数据库
  • Nacos 的配置管理和配置热更新
  • 鸿蒙内核框架
  • Cohere For AI 推出了 Aya,这是一款覆盖超过 100 种语言的大型语言模型(LLM)
  • MATLAB实现朴素贝叶斯分类
  • Mysql报错:too many connections
  • PyTorch detach():深入解析与实战应用
  • Javaweb之SpringBootWeb案例之AOP概述及入门的详细解析
  • 双非本科准备秋招(19.2)—— 设计模式之保护式暂停
  • 每日一个脚本之一键部署Docker
  • 一、DataX简介
  • MCU+SFU视频会议一体化,视频监控,指挥调度(AR远程协助)媒体中心解决方案。
  • C/C++内存管理:new、delete功能及原理实现
  • 沈晓萍︱严金清:比斯坦因更早获得敦煌文物的无锡名士
  • 两部门发布“五一”假期全国森林草原火险形势预测
  • 庄语乐︱宋代历史是被“塑造”出来的吗?
  • 蔡澜回应“入ICU观察”称未至于病危,助理:只是老毛病
  • 外交部亚洲司司长刘劲松向菲方严肃交涉
  • 习近平对辽宁辽阳市白塔区一饭店火灾事故作出重要指示