Python爬虫-爬取政务网站的文档正文内容和附件数据
前言
本文是该专栏的第67篇,后面会持续分享python爬虫干货知识,记得关注。
本文,笔者以某政务网站为例子。基于Python爬虫采集某政务网站的文档正文内容和其关联的附件数据。
具体的实现思路以及完整实现代码逻辑,笔者将在正文进行详细介绍。废话不多说,跟着笔者直接往下看正文详细内容。(附带完整代码)
正文
地址:aHR0cHM6Ly93d3cubnJ0YS5nb3YuY24vYXJ0LzIwMjIvMi8yNS9hcnRfMzcxM181OTY1Ny5odG1s
目标:基于Python爬虫,爬取政务网站的文档正文内容和附件数据(注意:这里的附件数据,指的是将附件信息直接下载并保存到本地)
1. 相关依赖库安装
在开始之前,首先需要提前安装好本文要用到的相关依赖库。如下所示:
requests
lxml
python-docx
如果你本地环境已经安装,可以直接跳过该步骤。反之,本地环境未安装,直接在终端输入如下所示的pip命令,进行安装即可: