当前位置：首页 > news >正文

Python 爬虫（5）Beautiful Soup 4 实战

news 2025/10/9 2:07:36

文章目录

一、Beautiful Soup实战
- 1、什么是 Beautiful Soup ?
- 2、安装
- 3、解析器
- 4、创建 Beautiful Soup 对象
- 5、选择器
- - 5.1、节点选择器

前言：

在网络数据处理与分析的领域里，网页数据提取是极为关键的一环。Python 作为一种功能强大且广受欢迎的编程语言，为开发者们提供了众多实用的库来处理这类任务，其中 BeautifulSoup 便是一款在网页数据提取方面表现卓越的库。

一、Beautiful Soup实战

1、什么是 Beautiful Soup ?

BeautifulSoup 是一个用于从 HTML 或 XML 文件中提取数据的 Python 库。它可以将复杂的 HTML 或 XML 文档转化为树形结构，使得开发者能够轻松地遍历、搜索和修改文档内容。借助 BeautifulSoup，我们能够迅速定位到所需的数据，如特定的标签、属性或文本信息。主要特点：

自动将输入文档转换为Unicode编码，输出文档转换为UTF-8编码。
支持多种解析器（如lxml、html5lib等）。
提供简单易用的导航、搜索和修改文档树的方法。
能够处理不规范的HTML文档。

2、安装

执行下面的命令进行安装

pip install beautifulsoup4

3、解析器

Beautiful Soup 支持多种解析器，每种解析器有不同的特点和适用场景。以下是主要的解析器及其差异对比。

解析器	安装方式	速度	容错性	依赖	适用场景
Python标准库 `html.parser`	内置，无需安装	中等	中等	无	简单项目，不需要额外依赖
lxml的HTML解析器 `lxml`	`pip install lxml`	快	好	lxml库	大多数情况下的首选
lxml的XML解析器 `xml`	`pip install lxml`	快	严格	lxml库	解析严格的XML文档
html5lib `html5lib`	`pip install html5lib`	慢	非常好	html5lib库	解析不规范HTML，模拟浏览器行为

4、创建 Beautiful Soup 对象

创建 Beautiful Soup 对象时大多数情况下只需要关注markup和features参数，其他参数用于处理特殊情况。

markup 参数（必需）

作用：指定要解析的文档内容
可接受类型：
- 字符串形式的HTML/XML内容
- 文件对象（如通过open()打开的文件）
- URL响应内容（如requests库获取的响应）

示例：

# 从字符串创建
html_str = "<html><body><p>Hello World</p></body></html>"
soup = BeautifulSoup(html_str, 'html.parser')

# 从文件创建
with open('index.html') as f:
    soup = BeautifulSoup(f, 'html.parser')

# 从网页响应创建
import requests
response = requests.get('http://example.com')
soup = BeautifulSoup(response.text, 'html.parser')

features 参数（推荐指定）

作用：指定使用的解析器类型
常用选项：
- 'html.parser'：Python内置解析器（无需安装额外库）
- 'lxml'：lxml的HTML解析器（速度快，推荐使用）
- 'xml'：lxml的XML解析器
- 'html5lib'：容错性最好的HTML解析器

示例：

# 使用不同解析器
soup1 = BeautifulSoup(html_str, 'html.parser')  # 内置解析器
soup2 = BeautifulSoup(html_str, 'lxml')        # 推荐使用的lxml解析器
soup3 = BeautifulSoup(xml_str, 'xml')          # 解析XML文档
soup4 = BeautifulSoup(bad_html, 'html5lib')    # 处理不规范HTML

5、选择器

通过选择器来定位节点以及获取节点对应的值，常见的选择器有下面几种

5.1、节点选择器

通过标签名直接访问

soup.title  # 获取第一个<title>标签
soup.p  # 获取第一个<p>标签

find() 方法

soup.find('div')  # 查找第一个<div>标签
soup.find('a', class_='external')  # 查找第一个class为external的<a>标签

find_all() 方法

soup.find_all('li')  # 查找所有<li>标签
soup.find_all('span', {'class': 'highlight'})  # 查找所有class为highlight的<span>标签

查看全文

http://www.dtcms.com/a/100891.html

数字隔离器选型与设计

通过安当TDE透明加密实现ClickHouse数据库安全加密存储

从失衡到平衡：手撕红黑树的插入旋转操作

后端开发基础：语言选择与 RESTful API 设计

GET 和 POST 有什么区别

H3C交换机的配置 VLAN间通信及网关部署在三层交换机

vector算法练习

关于OpenManu的技术实现与部署要求

QT对话框

洛谷题单1-P5707 【深基2.例12】上学迟到-python-流程图重构

c++进阶之----哈希（桶）

决策树原理详解

3月30号

Windows10 下QT社区版的安装记录

在 Vue 项目中快速集成 Vant 组件库

磁盘冗余阵列

KMeans算法案例

微服务架构中的精妙设计：服务注册/服务发现-Eureka

MySQL执行计划分析

MATLAB中rmfield函数用法

中国网络安全产业分析报告

ngx_get_options

鸿蒙HarmonyOS NEXT设备升级应用数据迁移流程

算法刷题-最近公共祖先-LCA

元编程思想

MySQL8.4 NDB Cluster 集群配置安装

《K230 从熟悉到...》圆形检测

推荐系统（二十）：TensorFlow 中的两种范式 tf.keras.Model 和 tf.estimator.Estimator

playwright解决重复登录问题，通过pytest夹具自动读取storage_state用户状态信息

【深度学习】不管理论，入门从手写数字识别开始