全平台爬虫配置流程
01|30 秒极速体验
环境准备
git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawler
pip install -r requirements.txt
最小可运行配置
# config.py 片段
PLATFORMS = ['xiaohongshu', 'douyin']
KEYWORDS = ['露营装备']
MAX_PAGE = 10 # 按需调整
运行
python main.py
首次运行会提示填写代理池与 Cookie,按指引操作即可。
02|实测截图 & 数据样例
平台 | 抓取字段 | 单页耗时 |
小红书 | 笔记标题、点赞、收藏、图片 URL | 1.8 s |
抖音 | 视频描述、播放数、评论数、封面 | 2.1 s |
B 站 | 视频 BV 号、弹幕数、投币数 | 1.9 s |
导出 CSV 后直接拖进 Excel,透视表 5 分钟出报告。
03|进阶玩法
- 1. 自定义扩展
继承BaseCrawler
类,重写parse()
与save()
,即可接入新平台。 - 2. 定时任务
搭配crontab
或 GitHub Actions,每天 9:00 自动跑,钉钉推送日报。 - 3. 合规提醒
作者已内置rate_limit
与robots.txt
校验,建议再加一层企业代理,避免法律风险。
项目地址(Star 已破 31.2k):
https://github.com/NanmiCoder/MediaCrawler