当前位置: 首页 > news >正文

全平台爬虫配置流程



01|30 秒极速体验

环境准备

git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawler
pip install -r requirements.txt

最小可运行配置

# config.py 片段
PLATFORMS = ['xiaohongshu', 'douyin']
KEYWORDS  = ['露营装备']
MAX_PAGE  = 10          # 按需调整

运行

python main.py

首次运行会提示填写代理池与 Cookie,按指引操作即可。


02|实测截图 & 数据样例

平台抓取字段单页耗时
小红书笔记标题、点赞、收藏、图片 URL1.8 s
抖音视频描述、播放数、评论数、封面2.1 s
B 站视频 BV 号、弹幕数、投币数1.9 s

导出 CSV 后直接拖进 Excel,透视表 5 分钟出报告。


03|进阶玩法

  1. 1. 自定义扩展
    继承 BaseCrawler 类,重写 parse()save(),即可接入新平台。
  2. 2. 定时任务
    搭配 crontab 或 GitHub Actions,每天 9:00 自动跑,钉钉推送日报。
  3. 3. 合规提醒
    作者已内置 rate_limitrobots.txt 校验,建议再加一层企业代理,避免法律风险。

项目地址(Star 已破 31.2k):
https://github.com/NanmiCoder/MediaCrawler

http://www.dtcms.com/a/289282.html

相关文章:

  • Spark专栏开篇:它从何而来,为何而生,凭何而强?
  • Java 递归方法详解:从基础语法到实战应用,彻底掌握递归编程思想
  • XSS的介绍
  • 5G NR PDCCH之CRC处理
  • Java 创建线程的方式笔记
  • 【RK3576】【Android14】ADB工具说明与使用
  • 设计模式笔记(1)简单工厂模式
  • 《汇编语言:基于X86处理器》第8章 复习题和练习,编程练习
  • 深度相机的工作模式(以奥比中光深度相机为例)
  • AI开发 | 基于FastAPI+React的流式对话
  • ChatIM项目语音识别安装与使用
  • 论文笔记: Holistic Semantic Representation for Navigational Trajectory Generation
  • 《计算机网络》实验报告四 TCP协议分析
  • 基于FPGA的多级流水线加法器verilog实现,包含testbench测试文件
  • Haproxy算法精简化理解及企业级高功能实战
  • Uniapp 纯前端台球计分器开发指南:能否上架微信小程序 打包成APP?
  • 专题 解空间的一种遍历方式:深度优先(Depth First)
  • 【unitrix】 6.9 减一操作(sub_one.rs)
  • Go语言的函数
  • qcow2磁盘虚拟机的使用
  • Spring Cloud Gateway 电商系统实战指南:架构设计与深度优化
  • Work SSD基础知识
  • 数列-冒泡排序,鸡尾酒排序
  • LINUX(三)文件I/O、对文件打开、读、写、偏移量
  • 什么是 ELK/Grafana
  • Cosmos:构建下一代互联网的“区块链互联网
  • roboflow使用教程
  • GaussDB 数据库架构师修炼(七) 安全规划
  • C51单片机学习笔记——定时器与中断
  • Image Processing 【Normlize和DeNormlize】