当前位置：首页 > news >正文

DrissionPage：重新定义Python网页自动化，让爬虫与浏览器控制合二为一

news 来源：原创 2025/5/30 12:38:20

引言
在Python网页自动化领域，开发者常面临两难选择：使用Selenium操控浏览器虽功能强大，但配置繁琐、效率偏低；借助Requests发送HTTP请求虽轻量高效，却难以应对JavaScript渲染和复杂交互。如今，一款名为DrissionPage的国产开源工具打破了这一僵局，它创新性地将两种模式融为一体，让网页数据采集与自动化操作迎来全新可能。

一、DrissionPage是什么？

DrissionPage是一款基于Python的网页自动化工具，由国内开发者@g1879创作。它的核心设计理念是**“一个工具，两种模式”**：

ChromiumPage模式：基于无头浏览器（Chrome/Edge），支持JavaScript渲染、模拟点击、截图等浏览器级操作。
SessionPage模式：基于Requests库，实现高效HTTP请求与Cookie管理。
WebPage模式：智能混合模式，可在浏览器操作与HTTP请求间无缝切换。

独特优势：

免驱动配置：无需单独下载WebDriver，自动管理浏览器内核。
跨域操作：轻松处理iframe、Shadow DOM等复杂结构。
智能等待：内置动态加载检测，告别time.sleep()。
多标签页管理：原生支持多标签页与浏览器上下文切换。

二、核心功能解析：三种模式应对全场景

1. ChromiumPage模式：浏览器自动化的终极利器

from DrissionPage import ChromiumPage# 启动浏览器并访问页面
page = ChromiumPage()
page.get('https://www.taobao.com')# 元素交互：输入搜索词并点击
page.ele('#q').input('Python教程')
page.click('btn-search')# 高级操作：截图与PDF导出
page.screenshot('taobao_search.png', full=True)
page.to_pdf('search_result.pdf')

适用场景：需要执行JavaScript、处理动态渲染页面、模拟用户操作（如登录、表单填写）。

2. SessionPage模式：轻量级HTTP请求专家

from DrissionPage import SessionPage# 创建会话并发送GET请求
session = SessionPage()
response = session.get('https://api.github.com/users/g1879')# 解析JSON数据
print(response.json()['login'])  # 输出：g1879# 模拟登录：保持Cookie持久化
session.post('https://example.com/login', data={'user':'admin', 'pass':'123'})

适用场景：API调用、批量数据抓取、需要高性能的轻量级请求。

3. WebPage模式：混合模式的魔法场景

from DrissionPage import WebPage# 混合模式：先浏览器登录，再切换为HTTP请求
page = WebPage()
page.get('https://gitee.com/login')
page.ele('#user_login').input('your_email')
page.ele('#user_password').input('your_pass')
page.click('.btn-submit')# 切换为Session模式，利用已有Cookie发送API请求
page.change_mode()
data = page.get('https://gitee.com/api/v5/user/repos')
print(data.json())

适用场景：需要浏览器登录后持续采集数据的场景（如社交平台、后台管理系统）。

三、为什么选择DrissionPage？

1. 极简API设计

元素定位支持CSS选择器、XPath、文本匹配等多种方式，例如：

page.ele('css:.title')       # CSS选择器
page.ele('x://button[@id="submit"]')  # XPath
page.ele('@value=登录')      # 属性匹配

链式调用让代码更简洁：

title = page.ele('div.header').ele('h1::text').text

2. 应对复杂网页的杀手锏

跨iframe操作：

page.switch_frame('iframe_name')  # 切换iframe

处理Shadow DOM：

page.ele('css::shadow /deep/ #shadow_element')

自动解密加密参数：
内置__easy_request方法，可自动处理常见加密参数（如某度搜索的token）。

3. 性能与稳定性兼得

无头模式：通过ChromiumOptions().set_headless()启用，节省资源。
智能重试：网络请求失败时自动重试，避免脚本中断。
日志追踪：开启调试模式记录详细操作日志：
```
page.set_options(log_level='DEBUG')
```

四、实战案例：从0到1构建爬虫

案例1：豆瓣电影TOP250抓取

from DrissionPage import ChromiumPagepage = ChromiumPage()
page.get('https://movie.douban.com/top250')movies = []
for i in range(10):  # 10页数据for item in page.eles('x://*[@id="content"]/div/div[1]/ol/li'):title = item.ele('x:.//span[1]').textrating = item.ele('x:.//span[@class="rating_num"]').textmovies.append({'title': title, 'rating': rating})page.ele('x://*[@id="content"]/div/div[1]/div/span[4]').click()  # 点击下一页print(movies)

案例2：自动化表单填写（含验证码）

# 1. 浏览器模式打开登录页
page = WebPage()
page.get('https://example.com/login')# 2. 定位元素并输入信息
page.ele('#username').input('admin')
page.ele('#password').input('123456')# 3. 截图验证码并调用OCR识别
page.ele('#captcha').screenshot('captcha.png')
captcha_text = ocr_api('captcha.png')  # 假设已实现OCR接口
page.ele('#captcha_input').input(captcha_text)# 4. 提交表单并切换模式采集数据
page.click('.login-btn')
page.change_mode()
user_data = page.get('https://example.com/api/user/info').json()