当前位置: 首页 > news >正文

【爬虫】DrissionPage-1

官网地址:DrissionPage官网 

小需求采集,我喜欢,我要学。

1 介绍

这是用python编写的爬虫自动化工具,将Selenium 和 Requests 的功能巧妙地整合在一起,提供了统一又简单的操作接口。开发者可以在浏览器模式(就像用 Selenium 那样)和无浏览器模式(类似用requests)之间自由切换。有了这个功能,不管是处理需要 JavaScript 渲染的动态网页内容,还是抓取简单的静态页面数据,DrissionPage 都能轻松搞定。
 

2 功能特点

1.无缝切换模式:动态渲染难不倒,静态效率高

2.简化的接口:降低Selenium 和Requests 这两个库学习陈本

3.灵活定制:支持用户自己设置请求头、代理、超时时间
4.内置常用功能:有很多常用的功能,比如等待元素加载、自动重试等
5.多标签页操作:就算标签页不是当前激活的状态,也不用切换就能操作
6.Listen监听功能:4.0版本后,每个页面对象都内置了监听器

 

3  三种页面对象

3.1 ChromiumPage 

主要用来直接操作浏览器,适合那些需要和网页进行交互的情况,比如点击按钮、输入文

本、运行 JavaScript 脚本等。不过它的性能会受到浏览器的限制,运行速度可能没那么快,占用的内存也可能比较多。

3.2 WebPage 

综合性的页面对象,它既能控制浏览器,又能收发数据包。

它有两种模式:

d 模式用来操作浏览器,功能很强大,但运行速度慢;

s 模式主要处理数据包,速度快,适合数据包比较简单的情况。

3.3  SessionPage 

是个轻量级的页面对象,专门用来发送和接收数据包,不需要和网页进行交互。它处理大规模数据爬取的效率很高,是这方面的理想选择。

4 总结

这是一个很强大的爬虫工具,在实际使用的时候,我们可以根据具体需求选择合适的页面对象和模式,结合它丰富的功能和方便的操作方法,提高开发效率和代码质量。同时,也要注意遵守网站的爬虫规则,合理使用这个工具,别给网站造成不必要的麻烦。

相关文章:

  • const char* 指向字符串数组和字符串的区别
  • 超声波传感器模块
  • llamafactory-记录一次消除模型随机性的成功过程
  • ElasticSearch深入解析(十一):分页
  • coze平台实现文生视频和图生视频(阿里云版)工作流
  • C++标准流详解:cin/cout的绑定机制与cerr/clog的缓冲差异
  • Landsat 5介绍
  • [超级简单]讲解如何用PHP实现LINE Pay API!
  • ELF文件详解
  • 解密企业级大模型智能体Agentic AI 关键技术:MCP、A2A、Reasoning LLMs- GPT源代码解析
  • 笔试强训(十七)
  • JMeter同步定时器 模拟多用户并发访问场景
  • Google Earth Engine(GEE) 代码详解:批量计算_年 NDVI 并导出(附 Landsat 8 数据处理全流程)
  • Matlab基于SSA-MVMD麻雀算法优化多元变分模态分解
  • Python爬虫实战:研究JavaScript 环境补全逆向解密
  • 大模型MCP_MCP从流式SSE到流式HTTP_1.8.0支持流式HTTP交互_介绍_从应用到最优--人工智能工作笔记0245
  • 黑马Java跟学.最新AI+若依框架项目开发(一)
  • 手搓传染病模型(SEIARW)
  • AcroForm 格式化文本(域)字段
  • HttpSession 的运行原理
  • 联合国第二届运动会闭幕,刘国梁受邀成为“联合国运动会大使”
  • 商人运作亿元“茅台酒庞氏骗局”,俩客户自认受害人不服“从犯”判决提申诉
  • 七旬男子驾“老头乐”酒驾被查,曾有两次酒驾两次肇事记录
  • 《克莱默夫妇》导演罗伯特·本顿去世,终年92岁
  • 视频丨美国两名男童持枪与警察对峙,一人还试图扣动扳机
  • 多地警务新媒体整合:关停交警等系统账号,统一信息发布渠道