当前位置: 首页 > news >正文

用selenium+ChromeDriver豆瓣电影 肖申克的救赎 短评爬取(pycharm 爬虫)

一、豆瓣电影 肖申克的救赎 短评url=https://movie.douban.com/subject/1292052/comments

 

 

二、基本知识点讲解

1. Selenium 的基本使用

Selenium 是一个用于自动化浏览器操作的库,常用于网页测试和爬虫。代码中使用了以下 Selenium 的核心功能:

  • webdriver.Chrome: 启动 Chrome 浏览器实例。

  • driver.get(url): 打开指定的网页。

  • driver.find_elements: 查找页面中符合条件的所有元素。

  • driver.execute_script: 执行 JavaScript 代码(例如点击按钮)。

  • driver.quit(): 关闭浏览器并结束 WebDriver 会话。


2. ChromeDriver 的配置

  • Service: 用于指定 ChromeDriver 的路径。

  • executable_path: ChromeDriver 可执行文件的路径(需与 Chrome 浏览器版本匹配)。


3. 页面元素的定位

Selenium 提供了多种定位页面元素的方式,代码中使用了以下方法:

  • By.XPATH: 使用 XPath 表达式定位元素。

http://www.dtcms.com/a/85694.html

相关文章:

  • 基于CNN-LSTM联合网络的主瓣干扰辨识
  • 三个HTTP请求参数注解@RequestHeader、@RequestParam和@RequestBody的使用对比
  • 神聖的綫性代數速成例題21. 酉空間的基本概念、酉變換與酉矩陣的性質及應用、矩陣的奇異值分解及其應用
  • Eclipse Debug 调试
  • 【C++】STL库_list 的模拟实现
  • 三个print优雅打印datetime模块的“时间密码”
  • 笔试专题(二)
  • Rust函数、条件语句、循环
  • 动态查找表
  • 1.2 编译器结构
  • 把 ASP.NET Core 服务(BigDogServer)部署到 Linux 并作为服务运行
  • 一文读懂 GPT 与 BERT:预训练逻辑及差异剖析
  • 缓存过期时间之逻辑过期
  • 蓝桥备赛(25)算法篇【差分】
  • word文件转换为Markdown格式
  • 关于极端场景下,数据库更新与 MQ 消息一致性保障方案的详细总结
  • Qt信号与槽高级特性与项目实战:原理剖析与工程化应用指南
  • 20250330 Pyflink with Paimon
  • rocky linux下载软件
  • [Python]代理批量检测延迟工具
  • ChatTTS:对话场景语音合成的开源新星
  • 《量子密码》
  • CSS3学习教程,从入门到精通,CSS3 图像属性知识点及案例代码(16)
  • 如何获取thinkphp的所有发行版本
  • 运行时智控:PanLang 开发者指南(一)运行时系统核心模块实现——PanLang 原型全栈设计方案与实验性探索5
  • 单链表中的递归算法
  • 编译原理——词法分析
  • GD32 ARM单片机开发规范检查清单 GD32嵌入式C代码检查清单
  • 《TypeScript 类的艺术:高效编码指南》
  • TransformersInternLM源码阅读