当前位置: 首页 > news >正文

爬取小红书相关数据导入到excel

本期我们来进行实战,爬取小红书的相关数据导入到excel中,后续可进行些数据分析,今后或者已经在运营小红书的小伙伴应该比较喜欢这些数据。今天我们的主角是DrissionPage,相对于之前介绍的selenium省去了很多的配置,直接安装了就能使用。

DrissionPage 是一个基于 python 的网页自动化工具。它既能控制浏览器,也能收发数据包,还能把两者合而为一。可兼顾浏览器自动化的便利性和 requests 的高效率。它功能强大,内置无数人性化设计和便捷功能。它的语法简洁而优雅,代码量少,对新手友好。

使用pip进行安装

pip install DrissionPage

控制浏览器事例

from DrissionPage import ChromiumPage
# 创建页面对象,并启动或接管浏览器
page = ChromiumPage()
# 跳转到登录页面
page.get('https://gitee.com/login')
# 定位到账号文本框,获取文本框元素
ele = page.ele('#user_login')
# 输入对文本框输入账号
ele.input('您的账号')
# 定位到密码文本框并输入密码
page.ele('#user_password').input('您的密码')
# 点击登录按钮
page.ele('@value=登 录').click()

获取页面数据事例

from DrissionPage import SessionPage
# 创建页面对象
page = SessionPage()
# 爬取3页
for i in range(1, 4):   # 访问某一页的网页   page.get(f'https://gitee.com/explore/all?page

相关文章:

  • 漳州建设局网站首页百度seo查询
  • 四川建设网官网站seo基本流程
  • 龙岩做网站的最近有哪些新闻
  • 响应式外贸网站建设海外seo推广公司
  • 中国那个公司的网站做的最好看独立站建站需要多少钱
  • 公司做的网站如何开启伪静态猪肉价格最新消息
  • C++ 第二阶段:运算符重载 - 第二节:重载与 const 成员函数
  • Linux 文件 I/O 与标准 I/O 缓冲机制详解
  • 【JavaEE】(4) 文件操作和IO
  • Ribbon负载均衡的具体实现原理
  • MyBatis Plus与P6Spy日志配置
  • OpenSIPS 邂逅 Kafka:构建高效 VoIP 消息处理架构
  • UAVAI-YOLO:无人机航拍图像的小目标检测模型
  • 深度优化OSS上传性能:多线程分片上传 vs 断点续传实战对比
  • ntext 数据类型不能选为 DISTINCT,因为它不可比
  • 解析云计算虚拟化基石:KVM、QEMU与Libvirt的协同
  • ✨从零搭建 Ubuntu22.04 + Python3.11 + PyTorch2.5.1 GPU Docker 镜像并上传 Docker Hub
  • C# WinForm跨平台串口通讯实现
  • RFID馆员工作站DW312-A|全国已经规模化应用
  • linux实时同步工具sersync
  • 利用 Python 脚本批量查找并删除指定 IP 的 AWS Lightsail 实例
  • FunASR搭建语音识别服务和VAD检测
  • 第23篇:OpenEuler 24.03系统下的备份与还原技术详解
  • 从牛顿流体到弹性固体:旋转流变仪的高精度流变特性测定与工业应用
  • WebRTC(九):JitterBuffer
  • web布局16