当前位置：首页 > news >正文

DataWhale-零基础络网爬虫技术（二er数据的解析与提取）

news 2025/10/10 18:00:46

课程链接先给各位 ↓↓↓ （点击即可食用.QAQ

Datawhale-学用 AI,从此开始

一、数据的解析与提取

数据提取的几种方式：

re解析
bs4解析
xpath解析

1.1正则表达式（Reuglar Experssion）

RE是一种用于字符串匹配的规则描述方式。它通过特定的组合字符来定义字符串的模式，从而实现对字符串的搜索、匹配、替换等操作。Python也支持同样re的用法，需要引入模块import re。

使用场景

用于简单的文本提取，尤其是当目标内容有明确的模式，我们平常搜个作文或者材料的文字内容；
用于快速验证字符串格式，这个写过web的朋友都知道，需要登录验证，还可以进行高亮提示，用Ajax刷新；
对于结构简单的HTML或文本内容，可以快速提取特定信息，用于快速抽取想要爬取的目标数据格式。

优点

高效：正则表达式在处理简单模式匹配时速度快；
灵活：可以通过复杂的正则表达式匹配几乎任何文本模式，当然加密的内容需要另说；
简单：不需要额外的第三方库，使用原生Python自带re模块即可完成。

缺点

复杂：对于杂复的HTML、XML文档，正则表达式很容易失，尤其是密加文档，密解需要
出易错：HTML、XML嵌套场景结构，在使用时正则表达式无法准确匹配。
性能不稳定：复杂的正则表达式在处理大型文本时可能会导致性能问题。

1.2BeautifulSoup解析（`bs4`）

Bs4是一个用于解析HTML、XML文档的Python库。它提供了一种简单而直观的方式来查找、提取和操作HTML、XML中的标签和内容。BeautifulSoup通常与requests库结合使用，用于抓取网页内容并解析。

使用场景

用于解析文档，尤其是需要提取标签内容、属性的时候，直接一整个提出来；
处理结构复杂的网页内容，这里的复杂指的是嵌套复杂，加密还需要单独解答；
用于数据爬取、网页内容提取等一般情况下；

优点

简单上手使用：API非常之多，网上的案例也是很多，大家易于学习和使用；
兼容性好：可以结合多种解析器如html.parser、lxml、html5lib等配合使用；
容错相比较高：能够处理不规范的HTML文档。

缺点

性能不稳定：对于非常大的HTML文档，bs4反应慢；
需要额外安装库：需要安装额外beautifulsoup4和解析器

1.3 XPath（XML Path Language）解析

XPath是一种在XML和HTML文档中查找信息的语言。它使用路径表达式来选定文档中的节点或节点集，XPath是W3C标准，广泛应用于文档的解析，在Python中添加lxml库可食用

使用场景

用于需要精确查找HTML、XML文档中的节点或节点集；
处理结构复杂的文档，尤其是需要根据多种条件（如标签名、属性、文本内容等）进行精确匹配时常用于
本节课中的数据爬取、自动化测试等场景；

优点

精确性高：可以通过复杂的路径表达式精确查找节点；
性能好：lxml库的XPath解析器通常比BeautifulSoup更快；
兼容性高：支持节点选择、属性选择、文本选择等

缺点

语法难：XPath语法相对复杂，需要一定的学习成本；
需要额外安装库：需要安装lxml库

二、群内的问题

在BeautifulSoup模块中 find（）和find_all()的区别？

共同点：都可以用于解析 HTML 、 XML 文档查找特定的标签或内容；
不同点：find找文档的第一个匹配内容，如果没找到就返回none，所以只找一个find快；find_all找所有的匹配内容，全部没有就返回空，适合匹配内容多的场景。
在使用方法上：

from bs4 import BeautifulSoup
<html><head><title>Test Page</title></head><body><p class="title">Hello, world!</p >nbnb</body>
</html>
soup = BeautifulSoup(html_doc, 'html.parser')# 使用 find()查找第一个匹配的标签
first_p = soup.find('p')
print("First <p> tag:", first_p)
## First <p> tag: <p class="title">Hello, world!</p >
# 使用 find_all()查找所有匹配的标签。，
all_a = soup.find_all('a')
print("All <a> tags:", all_a)
## All <a> tags: [ nb，nb]

三、总结

正则表达式（re）：用于简单的文本提取和验证，但不适合复杂的HTML或XML解析，在网上搜作文写作材料等等之类的可以使用re，包括写web登录页面后端数据核验的时候，也可以加上re的判断，后期将为安全性能提供保障。

BeautifulSoup（bs4）：用于解析HTML、XML文档，尤其是需要提取标签内容或属性时，就可以用bs4，但是同样是找标签属性没有人家xpath跑的快，所以结合实际情况选择进行

XPath：用于精确查找HTML、XML文档中的节点，性能较好，就是语法有些难，对刚入门的新手不太友好，学到半截有可能就劝退放弃了，理性选择

在实际使用场景中，可以根据业务的相关需求选择合适的解析方式

如果只是提取简单的文本信息搜搜作文、思想汇报这类型的，可以使用正则表达式，如果需要解析HTML、XML文档并提取标签内容，可以使用BeautifulSoup、xpath，一些精确查找节点并处理复杂文档，就选XPath。。。。

为了反机器爬取，我将本文中许多语序和词语行进调整了，正常人工查看是阅读毫无碍障的，机器爬取则会产生一些困难，同时html及一些练习就不提到单独了，请大家操作也在隔离安全的环境下操作，学习首先也要保护好自己，需要注意的点是，Python原生的镜像下载库比较慢，可以更换源后进行下载，这里马老师也写了清华的下载源，请大家参考。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple bs4

查看全文

http://www.dtcms.com/a/255368.html

粗浅理解：为什么左旋右旋的组合反而收旋转矩阵影响

ajax中get和post的区别

5.基于神经网络的时间序列预测

Git 命令全景图：从 clone 到 merge 的完整流程解析

【时时三省】(C语言基础)善于利用指针

统计一个区间内的素数并求和

3D Gaussian Splatting算法安装与实测

android 渲染流水线中的两个重要阶段：swapBuffers 和 DrawFrames

大模型Text2SQL之在CentOS上使用yum安装与使用MySQL

【Golang学习】1-基于mysql增删改查

工具：Autosar：DBC转ARXML

《Go语言圣经》利用结构体和接口实现更优雅的Go错误处理

Linux之线程同步与互斥

Plotly图表全面使用指南 -- Displaying Figures in Python

.docx 和 .doc 都是 Word 文档格式的区别

迅捷CAJ转换器 1.7.4

java: 警告: 源发行版 17 需要目标发行版 17

一个库，比如kott_tinymce ,想把的依赖库从kotti升级到kotti2 ，请问我是不是查找替换，把所有的kotti字符替换成kotti2就行了？

macOS - 根据序列号查看机型、保障信息

深度学习N5周：Pytorch文本分类入门

从番茄炒蛋到神经网络：解密AI模型的本质

Linux命令合集

删除一个无进程使用却显示被使用的文件

.Net Framework 4/C# 进程和线程的使用

No module named ‘dbgpt_ext.rag.retriever.doc_tree‘

【FineDance】一次训练后得到音乐和动作数据切片 (6790个文件)

MVCC（多版本并发控制）深度解析：原理、流程与实战应用

数据融合平台是什么？如何搭建数据融合平台？

如何轻松地将音乐从 iPhone 传输到 Mac？

npm/yarn报错“certificate has expired“

一、数据的解析与提取

1.1正则表达式（Reuglar Experssion）

使用场景

优点

缺点

1.2BeautifulSoup解析（bs4）

使用场景

优点

缺点

1.3 XPath（XML Path Language）解析

使用场景

优点

缺点

二、群内的问题

三、总结

相关文章：

1.2BeautifulSoup解析（`bs4`）