【Datawhale组队学习202506】零基础学爬虫 02 数据解析与提取
系列文章目录
提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加
例如:第一章 Python 机器学习入门之pandas的使用
文章目录
- 系列文章目录
- 前言
- 2.1 概述
- 2.2 re 解析
- 2.3 bs4 解析
- 2.4 xpath 解析
- 总结
前言
- Datawhale是一个专注于AI与数据科学的开源组织,汇集了众多领域院校和知名企业的优秀学习者,聚合了一群有开源精神和探索精神的团队成员
- 零基础网络爬虫技术
2.1 概述
- 紧接上文,通常我们只需要整个网页的一部分内容,这就涉及到了数据提取。
- 常见有 3 种方式:
re
bs4
xpath
2.2 re 解析
2.3 bs4 解析
- 首先掌握 html 标签语法
2.4 xpath 解析
xpath
可⽤来在XML
⽂档中对元素和属性进⾏遍历。⽽我们熟知的HTML恰巧属于XML的⼀个⼦集。- 用法:
1. 将要解析的html内容构造出etree
对象。
2. 使⽤etree
对象的xpath()
⽅法配合xpath表达式
来完成对数据的提取。
总结
- 尝试使用3种解析方法解析网页源代码。