当前位置：首页 > news >正文

python基础：XPath解析网页数据：xpath简介、xpath语法、xpath节点、节点关系、xpath练习实战

news 2025/8/3 17:24:40

XPath 简介

XPath即为路径语言XML Path Language,它是一种用来确定xml文档中某部分位置的语言。
注意：由于xml慢慢淡出舞台，现在我们都用它来找html区域代码了。

html的标签区分

标签名：span
标签的属性：class = sub - title
标签的文本：让好电影来找你

html的父子关系

父元素（html和header，html和body，body和div都是父子关系）
子元素

Python库安装lxml的安装

pip install lxml

如果已经安装过会提示：Requirement already satisfied
在这里插入图片描述
案例

# 导入模块
from lxml import etree  #这个导入的模块是树形结构模块专门用来解析xml/html文件# 准备解析的数据
# 导入模块
from lxml import etree  #这个导入的模块是树形结构模块专门用来解析xml/html文件# 准备解析的数据
# 导入模块
from lxml import etree  #这个导入的模块是树形结构模块专门用来解析xml/html文件# 准备解析的数据
html_str = '''<html lang="en"><head><meta charset="UTF-8"><title>python</title></head><body><div class="name" id="title"><h1>python官网</h1><p>爬虫</p><a href="https://www.python.org/"></a></div></body></html>
'''# 创建解析对象
html = etree.HTML(html_str)
res = etree.tostring(html) #将元素转化为str字符串
# 使用xpath结点获取数据
xpathRes