当前位置：首页 > news >正文

python网络爬虫小项目（爬取评论）超级简单

news 2025/11/7 1:14:37

python网络爬虫小项目（爬取评论）超级简单

学习python网络爬虫的完整路径：

（第一章）

python网络爬虫(第一章/共三章：网络爬虫库、robots.txt规则（防止犯法）、查看获取网页源代码)-CSDN博客https://blog.csdn.net/2302_78022640/article/details/149428719?sharetype=blogdetail&sharerId=149428719&sharerefer=PC&sharesource=2302_78022640&spm=1011.2480.3001.8118（第二章）

python网络爬虫(第二章/共三章：安装浏览器驱动，驱动浏览器加载网页、批量下载资源)-CSDN博客https://blog.csdn.net/2302_78022640/article/details/149431071?sharetype=blogdetail&sharerId=149431071&sharerefer=PC&sharesource=2302_78022640&spm=1011.2480.3001.8118

（第三章）

python网络爬虫(第三章/共三章：驱动浏览器窗口界面，网页元素定位，模拟用户交互（输入操作、点击操作、文件上传），浏览器窗口切换，循环爬取存储）-CSDN博客https://blog.csdn.net/2302_78022640/article/details/149453182?spm=1011.2124.3001.6209（额外加一个小项目）

即此篇文章

爬取商品好评

完整代码

代码如下：

from selenium import webdriver
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.by import By
import time# 定义获取页面内容的函数
def get_content(driver):# 等待页面加载完成，可以考虑用 WebDriverWait 来代替 time.sleeptime.sleep(3)# 以追加模式打开文件 '好评.txt'，准备写入内容file = open('好评.txt', 'a', encoding='utf-8')# 找到所有 class 为 'body-content' 的元素，这些元素包含评论的正文内容contents = driver.find_elements(By.CLASS_NAME, 'body-content')# 遍历所有找到的评论内容for content in contents:# 给予写入文件内容的时间time.sleep(3)# 将评论文本写入文件file.write(content.text)file.write('\n')# 写入完成后关闭文件file.close()# 配置 Edge 浏览器选项
edge_options = Options()
# 设置 Edge 浏览器的二进制路径
edge_options.binary_location = r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"
# 初始化 Edge 浏览器驱动
driver = webdriver.Edge(options=edge_options)# 打开指定的 URL 网页
driver.get("https://review.suning.com/cluster_cmmdty_review/cluster-38249278-000000012389328846-0000000000-1-good.htm?originalCmmdtyType=general&safp=d488778a.10004.loverRight.166")# 调用 get_content 函数获取当前页面的评论内容
get_content(driver)# 获取“下一页”按钮
next_rv_maidian = driver.find_element(By.CSS_SELECTOR, '.next.rv-maidian')# 使用 while 循环来点击“下一页”按钮并继续抓取页面评论
while next_rv_maidian != []:# 获取“下一页”按钮元素next_rv_maidian = driver.find_element(By.CSS_SELECTOR, '.next.rv-maidian')# 点击“下一页”按钮next_rv_maidian.click()# 获取当前页的评论内容get_content(driver)

如何寻找页面元素：

网页右键检查，

点击左上角按键：

点击左方要爬取的内容：

观察到右边：class="body-content"

此行代码即可捕获相应内容：

contents = driver.find_elements(By.CLASS_NAME, 'body-content')

查看全文

http://www.dtcms.com/a/289750.html

阶段1--Linux中的计划任务

调试Claude code的正确姿势

类型混淆、越界写入漏洞

基于单片机出租车计价器设计

重塑优化建模与算法设计：2024上半年大模型（LLM）在优化领域的应用盘点

Java入门-【3】变量、字符串、条件、循环、数组的简单总结

python 字典中取值

SQL189 牛客直播各科目同时在线人数

MySQL事物相关

Logback简单使用

什么是SEO关键词优化的实战提升指南？

如何系统化掌握角色设计与提示工程的深度整合

基于Event Sourcing和CQRS的微服务架构设计与实战

第十四届全国大学生数学竞赛初赛试题(非数学专业类)

零基础入门 AI 运维：Linux 部署全栈项目实战（MySQL+Nginx + 私有化大模型）

论文解读：Rethinking vision transformer through human–object interaction detection

西门子 S7-1500 系列 PLC CPU 选型全指南：从类型到实战

搭建大模型

新人加入团队后如何快速理解看板？

地图经纬度与地图切片像素坐标换算类

2.组合式API知识点(1)

imx6ull-系统移植篇11——U-Boot 移植（下）

不只是“能用”：从语义化到 ARIA，打造“信息无障碍”Web 应用的实战清单

Python关于numpy的基础知识数组的升维

leetcode丑数II计算第n个丑数

操作系统总结

dify创建OCR工作流

springboot-profile

[学习] 双边带调制 (DSB) 与单边带调制 (SSB) 深度对比

【Java学习|黑马笔记|Day18】Stream流|获取、中间方法、终结方法、收集方法及其练习