当前位置: 首页 > news >正文

使用DrissionPage实现xhs笔记自动翻页并爬取笔记视频、图片

使用DrissionPage实现xhs笔记自动翻页并爬取笔记视频、图片

声明:

本文章中所有内容仅供学习交流使用,不用于其他任何目的,不提供完整代码,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关!

本文章未经许可禁止转载,禁止任何修改后二次传播,擅自使用本文讲解的技术而导致的任何意外,作者均不负责,若有侵权,请私信作者立即删除!

  • 近期小红书xs又更新了,刚好最近需要爬取某博主下的笔记信息,时间比较仓促,于是使用拽神来实现数据爬取的目的
  • 爬取数据效果图如下:
    爬取标题、描述、发布时间、最后更新时间、视频以及图片
    图片需要保持在对应文章行中,排在最后列,并且视频和图片需要下载到本地,在游标ID列上做超链接,点击可以跳转对应的图片或视频
    在这里插入图片描述
    话不多说,开干

首先我们需要想一下,如果不通过代码,我们平常从网站上获取这些信息,实现我们的数据需求,都需要哪些操作?

  • 打开目标网站,登录
  • 登录后查找指定博主,进入主页
  • 点击文章,进入详情界面,可以获取标题、描述、发布时间、视频或图片等信息
  • 关闭上一个文章界面,继续点击下一个,重复操作
http://www.dtcms.com/a/312828.html

相关文章:

  • 禁闭求生2 免安 中文 离线运行版
  • 初识prometheus
  • 控制建模matlab练习04:二阶系统的时域响应
  • Supergateway教程
  • 前端技术制作简单网页游戏
  • 力扣457:环形数组是否存在循环
  • 【Excel】利用函数和Power Query进行数据分析
  • Java企业级应用性能优化实战
  • 控制建模matlab练习09:超前补偿器
  • K8S部署ELK(四):部署logstash
  • 使用trae进行本地ai对话机器人的构建
  • 【LLM】 BaseModel的作用
  • 《软件测试与质量控制》实验报告三 系统功能测试
  • Tomcat访问Controller的内部实现原理
  • 批发订货系统:私有化部署与源代码支持越来越受市场追捧
  • 【Android】RecyclerView循环视图(2)——动态加载数据
  • IntelliJ IDEA开发编辑器摸鱼看股票数据
  • git用户设置
  • LangChain4J入门:使用SpringBoot-start
  • 【abc417】E - A Path in A Dictionary
  • template<typename R = void> 意义
  • 2. 字符设备驱动
  • LeetCode Hot 100,快速学习,不断更
  • #C语言——刷题攻略:牛客编程入门训练(四):运算
  • Kazam产生.movie.mux后恢复视频为.mp4
  • 小宿科技:AI Agent 的卖铲人
  • zookeeper持久化和恢复原理
  • idea中.xml文件的块注释快捷键
  • Hugging Face 模型文件介绍
  • IDEA查看源码利器XCodeMap插件