python基础:XPath解析网页数据:xpath简介、xpath语法、xpath节点、节点关系、xpath练习实战
XPath 简介
XPath即为路径语言XML Path Language,它是一种用来确定xml文档中某部分位置的语言。
注意:由于xml慢慢淡出舞台,现在我们都用它来找html区域代码了。
html的标签区分
- 标签名:span
- 标签的属性:class = sub - title
- 标签的文本:让好电影来找你
html的父子关系
- 父元素(html和header,html和body,body和div都是父子关系)
- 子元素
Python库安装lxml的安装
pip install lxml
如果已经安装过会提示:Requirement already satisfied
案例
# 导入模块
from lxml import etree #这个导入的模块是树形结构模块专门用来解析xml/html文件# 准备解析的数据
# 导入模块
from lxml import etree #这个导入的模块是树形结构模块专门用来解析xml/html文件# 准备解析的数据
# 导入模块
from lxml import etree #这个导入的模块是树形结构模块专门用来解析xml/html文件# 准备解析的数据
html_str = '''<html lang="en"><head><meta charset="UTF-8"><title>python</title></head><body><div class="name" id="title"><h1>python官网</h1><p>爬虫</p><a href="https://www.python.org/"></a></div></body></html>
'''# 创建解析对象
html = etree.HTML(html_str)
res = etree.tostring(html) #将元素转化为str字符串
# 使用xpath结点获取数据
xpathRes