当前位置: 首页 > news >正文

做网站需要哪些技术人员金华网站建设策划

做网站需要哪些技术人员,金华网站建设策划,wordpress如何一栏显示不出来,东莞寮步招聘网最新招聘信息python网络爬虫小项目(爬取评论)超级简单 学习python网络爬虫的完整路径: (第一章) python网络爬虫(第一章/共三章:网络爬虫库、robots.txt规则(防止犯法)、查看获取网页源代码)-…

python网络爬虫小项目(爬取评论)超级简单

学习python网络爬虫的完整路径:

(第一章)

python网络爬虫(第一章/共三章:网络爬虫库、robots.txt规则(防止犯法)、查看获取网页源代码)-CSDN博客https://blog.csdn.net/2302_78022640/article/details/149428719?sharetype=blogdetail&sharerId=149428719&sharerefer=PC&sharesource=2302_78022640&spm=1011.2480.3001.8118(第二章)

python网络爬虫(第二章/共三章:安装浏览器驱动,驱动浏览器加载网页、批量下载资源)-CSDN博客https://blog.csdn.net/2302_78022640/article/details/149431071?sharetype=blogdetail&sharerId=149431071&sharerefer=PC&sharesource=2302_78022640&spm=1011.2480.3001.8118

(第三章)

python网络爬虫(第三章/共三章:驱动浏览器窗口界面,网页元素定位,模拟用户交互(输入操作、点击操作、文件上传),浏览器窗口切换,循环爬取存储)-CSDN博客https://blog.csdn.net/2302_78022640/article/details/149453182?spm=1011.2124.3001.6209(额外加一个小项目)

即此篇文章

爬取商品好评

完整代码

代码如下:

from selenium import webdriver
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.by import By
import time# 定义获取页面内容的函数
def get_content(driver):# 等待页面加载完成,可以考虑用 WebDriverWait 来代替 time.sleeptime.sleep(3)# 以追加模式打开文件 '好评.txt',准备写入内容file = open('好评.txt', 'a', encoding='utf-8')# 找到所有 class 为 'body-content' 的元素,这些元素包含评论的正文内容contents = driver.find_elements(By.CLASS_NAME, 'body-content')# 遍历所有找到的评论内容for content in contents:# 给予写入文件内容的时间time.sleep(3)# 将评论文本写入文件file.write(content.text)file.write('\n')# 写入完成后关闭文件file.close()# 配置 Edge 浏览器选项
edge_options = Options()
# 设置 Edge 浏览器的二进制路径
edge_options.binary_location = r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"
# 初始化 Edge 浏览器驱动
driver = webdriver.Edge(options=edge_options)# 打开指定的 URL 网页
driver.get("https://review.suning.com/cluster_cmmdty_review/cluster-38249278-000000012389328846-0000000000-1-good.htm?originalCmmdtyType=general&safp=d488778a.10004.loverRight.166")# 调用 get_content 函数获取当前页面的评论内容
get_content(driver)# 获取“下一页”按钮
next_rv_maidian = driver.find_element(By.CSS_SELECTOR, '.next.rv-maidian')# 使用 while 循环来点击“下一页”按钮并继续抓取页面评论
while next_rv_maidian != []:# 获取“下一页”按钮元素next_rv_maidian = driver.find_element(By.CSS_SELECTOR, '.next.rv-maidian')# 点击“下一页”按钮next_rv_maidian.click()# 获取当前页的评论内容get_content(driver)

如何寻找页面元素:

网页右键检查,

点击左上角按键:

点击左方要爬取的内容:

观察到右边:class="body-content"

此行代码即可捕获相应内容:

contents = driver.find_elements(By.CLASS_NAME, 'body-content')

http://www.dtcms.com/a/466776.html

相关文章:

  • 第6章 muduo网络库简介(1)
  • 应用层协议之DNS协议
  • AI多维回归模型追踪政策信号:威廉姆斯降息倾向的就业因子分析
  • 哈尔滨自助建站小企业网站建设论文
  • c++的‘-1/-0’用法
  • 苏州企业建设网站价格工会网站建设可以
  • 网站套餐到期是什么意思西安市网页制作公司有哪些
  • 网站设计的内容有哪些网络规划与设计毕业设计
  • 重载和继承的实践
  • Unigram中的损失
  • 网站服务器多少钱一月亿速云
  • MySQL数据库远程无法连接
  • 做网站实训报告电子商务网站建设的四个步骤
  • 外贸门户网站seo系统源码出售
  • 6.java反射
  • 怎么做淘宝客个人网站网站程序模板
  • 即梦图片批量去水印软件运营大管家AI图片去水印工具
  • 做网站怎么套模板网站站建设建技设术技术
  • Vue 程序使用host 0.0.0.0 实现监听本机所有可用的网络接口
  • ts-jest与其他TypeScript测试工具的对比
  • 学习16天:pytest学习
  • 奉贤青岛网站建设广州市制网公司
  • 江西中恒建设集团网站网站字体怎么设置
  • 泰安网站制作哪家好网站建设目的分析
  • 怎么看网站开发者页面渗透wordpress论坛
  • 求个网站好人有好报百度贴吧商城类网站建设方案
  • 使用 python-docx 库操作 word 文档(3):读取word文档的内容
  • 鸿蒙:从相册中选取图片,并转成PixelMap作为UI显示
  • 什么是网站什么是网址东莞网站设计服务商
  • STM32 读取引脚状态 -按键输入