当前位置：首页 > news >正文

Selenium 获取 Web 页面信息的全指南

news 2025/10/18 21:18:41

Selenium 获取 Web 页面信息的全指南

Selenium 是一个功能强大的自动化测试工具，但它也可以用于 web 页面信息的抓取和分析。本文将详细介绍如何使用 Selenium 来获取网页信息，并涵盖从环境搭建到高级技巧的各个方面。

from selenium import webdriverdriver = webdriver.Chrome(executable_path='path/to/chromedriver')# 访问登录页面
driver.get('https://www.example.com/login')# 输入用户名和密码
username = driver.find_element_by_id('username')
password = driver.find_element_by_id('password')username.send_keys('your_username')
password.send_keys('your_password')# 点击登录按钮
login_button = driver.find_element_by_css_selector('.login-btn')
login_button.click()# 关闭浏览器
driver.quit()

示例 2：提交表单

from selenium import webdriverdriver = webdriver.Chrome(executable_path='path/to/chromedriver')# 访问表单页面
driver.get('https://www.example.com/form')# 填写表单
name = driver.find_element_by_name('name')
email = driver.find_element_by_name('email')name.send_keys('John Doe')
email.send_keys('john.doe@example.com')# 上传文件（如果需要）
file_input = driver.find_element_by_css_selector('#file-input')
file_input.send_keys('/path/to/file.txt')# 提交表单
submit_button = driver.find_element_by_id('submit-btn')
submit_button.click()driver.quit()

示例 3：获取页面信息并保存

from selenium import webdriverdriver = webdriver.Chrome(executable_path='path/to/chromedriver')# 访问目标页面
driver.get('https://www.example.com')# 获取所有链接
links = driver.find_elements_by_css_selector('a[href]')
for link in links:print(link.get_attribute('href'))# 保存页面源代码到文件
with open('page_source.html', 'w', encoding='utf-8') as f:f.write(driver.page_source)driver.quit()

8. 案例分析：从简单到复杂

案例 1：获取新闻标题

假设我们需要从一个新闻网站中提取所有新闻的标题：

from selenium import webdriverdriver = webdriver.Chrome(executable_path='path/to/chromedriver')
driver.get('https://www.news.com')# 获取所有新闻标题
titles = driver.find_elements_by_css_selector('.news-title')
for title in titles:print(title.text)driver.quit()

案例 2：处理分页

如果目标页面有分页，可以使用循环来逐页抓取数据：

from selenium import webdriverdriver = webdriver.Chrome(executable_path='path/to/chromedriver')for page in range(1, 6):  # 抓取前5页driver.get(f'https://www.example.com?page={page}')items = driver.find_elements_by_css_selector('.item')for item in items:print(item.text)driver.quit()