综合案例2:爬取某客栈的漫画
目标
爬取漫客栈网站(https://www.mkzhan.com)的 漫画内容,包括漫画名称、章节信息和所有漫画图片
步骤
第一阶段:项目规划与策略制定
1.1 目标分析
-
核心目标:系统性地获取漫客栈网站的漫画内容
-
数据范围:漫画元数据(名称)、章节结构、所有漫画图片
-
输出形式:本地化存储,按漫画→章节→图片的层级组织
1.2 技术选型思路
-
请求库选择:requests库(轻量高效,适合静态内容爬取)
-
解析方案对比:
-
正则表达式:灵活但维护困难
-
XPath:定位精准,适合复杂结构
-
BeautifulSoup:语法简洁,容错性好
-
-
最终选择:BeautifulSoup(HTML结构规整,开发效率高)