当前位置: 首页 > news >正文

100天精通Python(爬虫篇)——第122天:基于selenium接管已启动的浏览器(反反爬策略)

文章目录

  • 1、问题描述
  • 2、问题推测
  • 3、解决方法
    • 3.1 selenium自动启动浏览器
    • 3.2 selenium接管已启动的浏览器
    • 3.3 区别总结
  • 4、代码实战
    • 4.1 手动方法(手动打开浏览器输入账号密码)
    • 4.2 自动方法(.bat文件启动的浏览器)


1、问题描述


使用selenium自动化测试爬取pdd的时候,通过携带cookie登录或者控制selenium输入账号密码登录,都出现了:错误代码10001:请求异常请升级客户端后重新尝试


2、问题推测


这个错误的产生是由于pdd可以检测selenium自动化测试的脚本,因此可以阻止selenium的继续访问。现在大厂网站基本上都能检测到selenium脚本了。


3、解决方法


直接用selenium启动浏览器会被检测到,博主测试用selenium接管已经启动的浏览器就不会(原因:接管已经启动的浏览器所携带的浏览器指纹 ≈ 正常访问的浏览器指纹)


使用selenium自动启动浏览器和接管已启动的浏览器,在浏览器指纹方面存在一些区别。以下是详细的分析:

3.1 selenium自动启动浏览器

  1. 默认行为

    • selenium在自动启动浏览器时,通常会使用默认的配置和设置。
    • 浏览器会生成一个新的用户数据目录,这意味着它会创建一个全新的浏览器环境&#

相关文章:

  • 机器学习——神经网络、感知机
  • 【AIGC】WIN10极速部署OpenManus(含WEB界面)
  • Linux实操篇-权限管理
  • 【机器学习】什么是支持向量机?
  • [操作系统] 进程间通信:进程池的实现
  • 解读InnoDB数据库索引页与数据行的紧密关联
  • 如何在 React 项目中进行服务器端渲染(SSR),它有什么优势
  • [学成在线]06-视频分片上传
  • BMS电池管理系统上下电过程
  • AVLTree
  • 单片机串口打印调试信息①
  • AI卫浴官:机器学习如何预判您的生理时钟
  • uniapp uni-drawer组件vue3写法
  • 【C++经典例题】寻找字符串中第一个不重复字符的索引
  • C++STL(四):stack和queue的模拟实现
  • [python] 使用Python实现Markdown文档格式转换
  • Flutter 输入组件 Radio 详解
  • 2018扬州大学876农业机械学概论填空名词解释简答
  • 文件I/O--C++的文件操作
  • 风电资源评估的关键指标及其应用