当前位置：首页 > news >正文

Selenium 浏览器自动化完全指南：从环境搭建到实战应用

news 2025/9/19 8:17:59

在数字化时代，重复的网页操作（如搜索、点击、多窗口切换）消耗着大量时间。Selenium 作为一款强大的浏览器自动化工具，能模拟人类操作，实现这些任务的自动化，大幅提升效率。本文将从基础环境搭建讲起，通过百度搜索、豆瓣电影操作等实战案例，系统讲解 Selenium 的核心功能与应用技巧，帮助你从零掌握浏览器自动化。

一、Selenium 基础：什么是浏览器自动化？

Selenium 是一款用于 Web 应用自动化的工具，本质是通过代码模拟人类在浏览器中的操作 —— 包括打开网页、输入文字、点击按钮、切换窗口等。它支持 Edge、Chrome、Firefox 等主流浏览器，广泛应用于自动化测试、数据采集、重复任务处理等场景。

核心优势：

跨浏览器兼容：一套代码可在不同浏览器运行；
精准控制：支持定位任意网页元素（按钮、输入框等）；
灵活等待：智能等待页面加载，避免因网络延迟导致的错误；
多窗口管理：轻松实现多个网页窗口的切换与操作。

二、环境准备：3 步搭建自动化基础

要使用 Selenium，需准备Python 环境、Selenium 库和浏览器驱动，三者缺一不可。其中，驱动与浏览器版本匹配是关键（新手最易踩坑）。

1. 安装 Python 环境

下载地址：Python 官网（推荐 3.8 及以上版本）；
安装要点：勾选 “Add Python to PATH”，方便后续在命令行调用 Python。

2. 安装 Selenium 库

打开命令行（Windows 用Win+R输入cmd，Mac 用终端），执行以下命令：

pip install selenium

出现 “Successfully installed selenium-xxx” 即表示安装成功。

3. 配置浏览器驱动（核心步骤）

驱动是 Selenium 与浏览器通信的 “桥梁”，版本必须与浏览器严格一致，否则会报错。以 Edge 浏览器为例：

步骤 1：查看浏览器版本

打开 Edge，在地址栏输入 edge://settings/help，记录版本号（如138.0.3351.95，前 3 段数字需与驱动匹配）。

步骤 2：下载对应驱动

官方地址：Microsoft Edge WebDriver；
选择与浏览器前 3 段版本一致的驱动（如浏览器是 138.0.3351.95，选 138.0.3351 开头的驱动）；
下载后解压得到msedgedriver.exe，保存到无中文、无空格的路径（如C:\EdgeDriver\msedgedriver.exe）。

三、核心功能详解：从基础操作到进阶技巧

1. 初始化浏览器：启动与配置

初始化浏览器是自动化的第一步，需指定本地驱动路径（避免网络依赖）：

from selenium import webdriver
from selenium.webdriver.edge.service import Service# 本地驱动路径（替换为你的实际路径）
driver_path = r"C:\EdgeDriver\msedgedriver.exe"
# 初始化浏览器
driver = webdriver.Edge(service=Service(driver_path))

r""（原始字符串）：避免路径中的\被当作转义字符；
Service类：管理驱动的启动与配置，确保浏览器正常启动。

2. 打开网页与基础操作

用driver.get(url)打开目标网页，等价于 “手动输入网址并回车”：

# 打开百度首页
driver.get("https://www.baidu.com")
# 打印页面标题（验证是否打开成功）
print("页面标题：", driver.title)  # 输出：百度一下，你就知道

3. 元素定位与操作：输入、点击的核心

自动化的核心是 “定位元素并操作”，Selenium 提供多种定位方式，常用的有：

By.ID：通过元素 ID 定位（简洁稳定，优先使用）；
By.XPATH：通过元素路径定位（灵活，适合复杂页面）。

示例 1：定位输入框并输入内容

以豆瓣电影搜索 “周杰伦” 为例：

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC# 打开豆瓣电影Top250页面
driver.get("https://movie.douban.com/top250")# 显式等待并定位搜索框（ID为“inp-query”）
search_box = WebDriverWait(driver, 10).until(EC.visibility_of_element_located((By.ID, "inp-query"))  # 等待搜索框可见
)
search_box.send_keys("周杰伦")  # 输入关键词

示例 2：定位按钮并点击

接上面的案例，点击搜索按钮：

# 显式等待并定位搜索按钮（XPath路径）
search_button = WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.XPATH, '//div[@class="inp-btn"]/input'))  # 等待按钮可点击
)
search_button.click()  # 点击按钮

显式等待的重要性：
WebDriverWait(driver, 10).until(条件)会最多等待 10 秒，直到元素满足条件（如可见、可点击），避免因页面未加载完导致的 “元素未找到” 错误。比time.sleep()（强制等待）更高效、稳定。

4. 多窗口管理：切换与控制

在复杂场景中，常需同时打开多个窗口（如一边查豆瓣电影，一边用百度搜索）。Selenium 通过 “窗口句柄”（窗口的唯一标识）实现切换。

核心方法：

driver.window_handles：获取所有窗口句柄（列表形式，顺序与打开顺序一致）；
driver.switch_to.window(handle)：切换到指定句柄的窗口。

示例：打开多窗口并切换到百度

# 打开第一个窗口：豆瓣电影
driver.get("https://movie.douban.com/top250")# 打开多个新窗口（百度、4399等）
urls = ["https://www.baidu.com", "https://www.4399.com"]
for url in urls:driver.execute_script(f'window.open("{url}");')  # 用JS打开新窗口# 获取所有窗口句柄
windows = driver.window_handles
print("所有窗口句柄：", windows)  # 输出：['CDwindow-xxx', 'CDwindow-yyy', ...]# 切换到第二个窗口（百度）
driver.switch_to.window(windows[1])
# 验证切换成功（等待百度标题加载）
WebDriverWait(driver, 10).until(EC.title_contains("百度"))
print("百度窗口标题：", driver.title)  # 输出：百度一下，你就知道

5. 关闭浏览器：资源清理

操作完成后，需关闭浏览器避免残留进程：

# 关闭所有窗口并终止驱动（无论是否报错，都执行）
driver.quit()

区别于driver.close()：quit()关闭所有窗口，close()仅关闭当前窗口。

四、实战案例：综合应用核心功能

案例 1：百度自动搜索 “Python Selenium”

场景：打开百度→输入关键词→提交搜索→验证结果。

from selenium import webdriver
from selenium.webdriver.edge.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC# 初始化浏览器
driver_path = r"C:\EdgeDriver\msedgedriver.exe"
driver = webdriver.Edge(service=Service(driver_path))try:# 打开百度driver.get("https://www.baidu.com")# 定位搜索框并输入search_box = WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.ID, "kw")))search_box.send_keys("Python Selenium")search_box.submit()  # 提交搜索（等价于点击搜索按钮）# 验证结果WebDriverWait(driver, 10).until(EC.title_contains("Python Selenium"))print("搜索结果标题：", driver.title)  # 输出：Python Selenium_百度搜索finally:driver.quit()

案例 2：豆瓣电影自动点击查看详情

场景：打开豆瓣 Top250→点击第一个电影标题→跳转到详情页→验证结果。

# 初始化浏览器（代码同上）try:driver.get("https://movie.douban.com/top250")# 点击第一个电影的主标题（XPath精准定位）WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.XPATH, '//div[@class="hd"]/a/span[1]'))).click()# 验证跳转至详情页WebDriverWait(driver, 10).until(EC.title_contains("电影"))print("详情页标题：", driver.title)  # 输出：肖申克的救赎 - 电影 - 豆瓣finally:driver.quit()

案例 3：多窗口联动操作

场景：打开豆瓣电影→打开百度和必应→在百度搜索豆瓣 Top1 电影→验证结果。

# 初始化浏览器（代码同上）try:# 窗口1：豆瓣Top250driver.get("https://movie.douban.com/top250")# 获取Top1电影名称top1_title = WebDriverWait(driver, 10).until(EC.visibility_of_element_located((By.XPATH, '//div[@class="hd"]/a/span[1]'))).textprint("豆瓣Top1电影：", top1_title)  # 输出：肖申克的救赎# 打开窗口2：百度driver.execute_script('window.open("https://www.baidu.com");')# 切换到百度窗口driver.switch_to.window(driver.window_handles[1])# 在百度搜索该电影WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.ID, "kw"))).send_keys(top1_title)driver.find_element(By.ID, "su").click()  # 点击百度搜索按钮# 验证搜索结果WebDriverWait(driver, 10).until(EC.title_contains(top1_title))print("百度搜索结果标题：", driver.title)finally:driver.quit()

五、常见问题与解决方案

1. 驱动版本不匹配

报错：SessionNotCreatedException: This version of Microsoft Edge WebDriver only supports Microsoft Edge version XX
解决：重新查看浏览器版本（edge://settings/help），下载对应版本的驱动。

2. 元素定位失败

报错：NoSuchElementException: Unable to locate element
原因：页面未加载完或定位表达式错误；
解决：
- 用显式等待（WebDriverWait+EC）替代time.sleep()；
- 在浏览器开发者工具（F12）中验证定位表达式：按Ctrl+F输入 XPath/ID，确认能匹配元素。

3. 驱动路径错误

报错：FileNotFoundError: 系统找不到指定的文件
解决：右键msedgedriver.exe→“属性”→复制 “位置”，拼接完整路径（如C:\EdgeDriver\msedgedriver.exe）。

4. 窗口切换后操作失败

原因：切换后页面未加载完，或句柄索引混乱；

解决：

切换后添加显式等待（如等待标题变化）；

按标题匹配窗口（更灵活）：

for handle in driver.window_handles:driver.switch_to.window(handle)if "百度" in driver.title:  # 按标题关键词匹配break

六、总结与扩展

本文从环境搭建到实战案例，系统讲解了 Selenium 的核心功能：

基础：初始化浏览器、打开网页、元素定位（ID/XPath）；
进阶：显式等待、多窗口切换、综合场景联动；
关键：驱动版本匹配、精准定位、智能等待是稳定运行的核心。

掌握这些技能后，你可以扩展更多应用：

批量数据采集：自动爬取多个网页的信息并保存；
定时任务：结合time模块实现每日自动签到、信息跟踪；
跨平台操作：在多个网站间自动同步数据（如电商价格对比）。

Selenium 的本质是 “用代码模拟人类操作”，只要理解网页结构和操作逻辑，就能将任何重复的网页任务自动化，让技术成为提升效率的利器。

查看全文

http://www.dtcms.com/a/389635.html

C51单片机——开发学习：中断

树与二叉树【数据结构】

RPM包版本号系统解析：设计哲学、比较规则与实践指南

IDEA启动异常

vite使用vue2项目

前端性能优化实用方案（一）：减少50%首屏资源体积的Webpack配置

SQL 条件函数 IF、CASE WHEN 用法速查

【深度学习新浪潮】如何估算大模型的训练和推理内存需求？

PyTorch查看模块/类的所有方法/属性

8大Android开发框架效率翻倍

docker基础知识与具体实践

【多模态】Simple o3 提高多模态模型准确率

hybrid的配置

理解虚拟细胞：初学者指南

哪种体量的公司或者哪些行业哪些项目需要上云服务器?

Linux安装问题：404 Not Found？配置源列表sources.list，修改为可用镜像源就可以了！

Vue3 中 props 与 $emit 的使用及 defineProps 与 defineEmits 的区别详解

vue的跨域配置

计算机网络实验03：交换机VLAN配置

Vue中v-if与v-show的区别及应用场景解析

C++造轮子：手搓 List 容器

redis-list的基本介绍

[硬件电路-247]：开关电源的工作原理、优缺点及应用场合

【面试】Java中的垃圾回收算法详解

AI使用心得-完善中

rust编写web服务01-项目起步与环境准备

ORM框架及SQLAlchemy

驱动开发---双机调试搭建支持win11(2025)

驱动开发1：内核程序框架

生产制造如何应对客户的订单变更