当前位置: 首页 > news >正文

python爬虫爬取淘宝热销(热门)男装商品信息(课程设计;提供源码、使用说明文档及相关文档;售后可联系博主)

@TOC

本文仅为记录学习轨迹,如有侵权,联系删除

一、环境说明

使用前必须检查以下环境
(1)python编译环境
(2)python脚本执行所需要的库,具体看代码(main.py)import导入的部分库
(3)确保电脑可以正常连接网络,可以正常访问淘宝链接
备注:博主测试的python环境是3.8.8,尽量用python3版本

二、代码说明

代码请查看main.py,先看需要引入的库的部分,使用前需要保证这些库的正确引入,重点需要注意的是DrissionPage库的引入,该库用于爬取数据
在这里插入图片描述
共分为两个主要方法,一个是get_data方法,用于爬取数据,另一个是save_to_csv方法,用于保存数据
在这里插入图片描述

_main_是主函数入口,这里默认爬取30页的数据,可以根据实际情况修改要爬取的页数,不过需要注意的是,淘宝有很严格的反爬机制,如果爬取太多页的数据,可能会触发淘宝的相关反爬机制,例如限流、返回异常数据、或者弹窗验证码等操作。

三、代码执行

(1)前期准备

先打开谷歌浏览器,访问淘宝页面,然后先进行登录,这是为了绕过淘宝的登录验证机制,以前好像不用登录就可以搜索商品数据,现在好像有限制,而且为了避免引起不必要的麻烦,所以干脆先登录淘宝
在这里插入图片描述

(2)执行代码

博主测试时用的pycharm执行的代码,不过用python自带的编译器也可以,执行的时候代码会自动打开谷歌浏览器,然后自动在输入框输入商品名称,爬取数据后,会自动在页面点击下一页按钮进行换页,然后再爬取数据,直到代码设置的页数都爬取完成,以下截图来自博主亲测截图如下
在这里插入图片描述

数据爬取完成后,会在main.py同级目录下生成一个data目录,里面存放爬取的数据,格式为csv
注意,如果出现以下截图,例如卡在爬取某一页的日志,请耐心等待,代码设置了最长两分钟的监听时长,如果超时系统会有日志打印
在这里插入图片描述

http://www.dtcms.com/a/113696.html

相关文章:

  • Rust切片、结构体、枚举
  • macOS下SourceInsight的替代品
  • 前端工程化之模块化开发 webpack
  • 完整的Python程序,它能够根据两个Excel表格(假设在同一个Excel文件的不同sheet中)中的历史数据来预测未来G列数字
  • #C8# UVM中的factory机制 #S8.1.1# 多态的实现方式(三)
  • LeetCode-98. 验证二叉搜索树
  • java流程控制06:While循环
  • HeidiSQL:多数据库管理工具
  • LeeCode题库第1695题
  • 架构下的按钮效果设置
  • Linux网络套接字
  • 【C++11】lambda
  • C# WPF 命令机制(关闭CanExecute自动触发,改手动)
  • Apifox接口测试工具详细解析
  • C# 多线程并发编程基础
  • 【Block总结】PagFM,像素注意力引导融合模块|即插即用
  • 基于STM32的智能门禁系统设计与实现
  • 05-Spring Security 认证与授权机制源码解析
  • python爬虫爬取淘宝热销(热门)零食商品加数据清洗、销量、店铺及词云数据分析_源码及相关说明文档;售后可私博主
  • 【学Rust写CAD】27 双线性插值函数(bilinear_interpolation.rs)
  • python爬虫:DrissionPage实战教程
  • 基于FAN网络的图像识别系统设计与实现
  • 【软考-高级】【信息系统项目管理师】【论文基础】范围管理过程输入输出及工具技术的使用方法
  • linux提取 Suid提权入门 Sudo提权入门
  • (二)使用Android Studio开发基于Java+xml的安卓app之环境搭建
  • 状态机思想编程练习
  • 【学习笔记】pytorch强化学习
  • flutter 专题 七十三Flutter打包未签名的ipa
  • Media streaming mental map
  • 马吕斯定律(Malus‘s Law)