当前位置: 首页 > news >正文

python使用selenium控制浏览器进行爬虫

这里以谷歌浏览器为例,需要安装一下chromedriver,其他浏览器也有相对应的driver,chromedriver下载地址:https://googlechromelabs.github.io/chrome-for-testing/

然后是打开python环境安装一下依赖pip install selenium,验证一下控制浏览器是否成功

# -*- coding: utf-8 -*-
from selenium import webdriver

driverPath = r'D:\chromedriver-win64\chromedriver.exe'
driver = webdriver.Chrome(executable_path=driverPath)
url = 'http://www.baidu.com'
driver.get(url)

点击运行脚本可以看到以下页面就成功了。
在这里插入图片描述

爬虫的话需要使用到以下相关函数:

driver.find_element_by_class_name("class")      # 通过class属性值定位
driver.find_element_by_id("id")                 # 通过id值定位
driver.find_element_by_name("name")             # 通过属性名称定位
driver.find_element_by_css_selector("selector") # 通过css选择器定位,格式是(‘标签名[属性名=”属性值”]’)
driver.find_element_by_link_text("text")        # 通过超链接文本定位
driver.find_element_by_tag_name("tag")          # 通过标签定位
driver.find_element_by_xpath("path")            # 通过xpath路径定位

还有其他的输入操作send_keys和点击操作click()等等这些基本上满足浏览器的大部分操作需求

相关文章:

  • 智能优化算法应用:基于材料生成算法3D无线传感器网络(WSN)覆盖优化 - 附代码
  • 如何利用flume进行日志采集
  • (salutation称呼)Mr., Mrs., Miss, Ms., Mx.,Jr.,Sr.,II,III,IV 分别是什么意思
  • Spring Boot + MinIO 实现文件切片极速上传技术
  • SQL面试题挑战06:互相关注的人
  • 【飞凌 OK113i-C 全志T113-i开发板】一些有用的常用的命令测试
  • react 路由v6
  • Django之DRF框架三,序列化组件
  • DshanMCU-R128s2术语表
  • 【微服务】springboot整合kafka-stream使用详解
  • 【前端基础】uniapp、axios 获取二进制图片
  • k8s学习 — 各知识点快捷入口
  • 堆与二叉树(下)
  • YOLOv8改进 | 主干篇 | 利用SENetV2改进网络结构 (全网首发改进)
  • ModuleNotFoundError: No module named ‘tensorflow‘
  • electron GPU process isn‘t usable. Goodbye
  • jvm对象探究
  • 【YOLOV8预测篇】使用Ultralytics YOLO进行检测、分割、姿态估计和分类实践
  • Android画布Canvas裁剪clipRect,Kotlin
  • 华为云Stack 8.X 流量模型分析(二)
  • 重庆党政代表团在沪考察,陈吉宁龚正与袁家军胡衡华共商两地深化合作工作
  • 大四本科生已发14篇SCI论文?重庆大学:成立工作组核实
  • 85后清华博士黄佐财任湖北咸宁市咸安区委副书记、代区长
  • 陕西澄城樱桃在上海推介,向长三角消费者发出“甜蜜之邀”
  • A股26家游戏企业去年营收近1900亿元:过半净利下滑,出海成为主流选择
  • 是否有中国公民受印巴冲突影响?外交部:建议中国公民避免前往冲突涉及地点