当前位置：首页 > news >正文

学习Python的第二天之网络爬虫

news 2025/7/4 9:24:05

30岁程序员学习Python的第二天之网络爬虫的信息提取

BeautifulSoup库

地址：https://beautifulsoup.readthedocs.io/zh-cn/v4.4.0/

1、BeautifulSoup4安装

在windows系统下通过管理员权限运行cmd窗口
运行pip install beautifulsoup4
在这里插入图片描述
测试实例

import requests
from bs4 import BeautifulSoup
r = requests.get('https://python123.io/ws/demo.html')
print(r.text)
demo = r.text
soup = BeautifulSoup(demo, 'html.parser')
print(soup.prettify())

在这里插入图片描述
注：prettify() 方法将Beautiful Soup的文档树格式化后以Unicode编码输出,每个XML/HTML标签都独占一行

2、BeautifulSoup库基本信息

Beautiful Soup库是解析、遍历、维护“标签树”的功能库
BeautifulSoup库是标签Tag进行解析的。
例：<p calss=“title”> … </p> 每个标签都是成对出现的，并且在第一个标签上可以有多个属性值

可通过以下语句导入beautiful Soup库

from bs4 import BeautifulSoup
或
import bs4

BeautifulSoup的解析器

在这里插入图片描述

BeautifulSoup类的基本元素

在这里插入图片描述

如何通过解析获取每个标签内容

1、获取Tag的名字：<tag>.name

soup = BeautifulSoup(demo, 'html.parser')
print(soup.title.name)

在这里插入图片描述
2、获取Tag的attrs(属性）：<tag>.attrs

soup = BeautifulSoup(demo, 'html.parser')
print(soup.a.attrs)
print(soup.a['href'])
print(soup.a['id'])

在这里插入图片描述
3、获取Tag内的NavigableString(非属性字符串）：<tag>.string

soup = BeautifulSoup(demo, 'html.parser')
print(r.text)
print(soup.a.string)

在这里插入图片描述
4、获取Tag内字符串的注释部分Comment：

newsoup = BeautifulSoup("<b><!--这是注释--></b><p>这不是注释</p>", "html.parser")
print(newsoup.b.string)
print(type(newsoup.b.string))
print(newsoup.p.string)
print(type(newsoup.p.string))

在这里插入图片描述
Comment是一种特殊的类型，可通过这个判断非属性字符串是否是注释。

3、基于bs4遍历HTML页面的内容

HTMl页面按标签划分是二叉树的形式
在这里插入图片描述
所以在进行HTML内容遍历时，可分为横向遍历和纵向遍历。

纵向遍历

向下遍历

在这里插入图片描述

soup = BeautifulSoup(demo, 'html.parser')
print(soup.head.contents)
print(soup.body.contents)
for child in soup.body.children:print(child)

向上遍历

在这里插入图片描述

soup = BeautifulSoup(demo, 'html.parser')
print(soup.title.parent)
print(soup.html.parent)
for parent in soup.a.parents:if parent is None:print(parent)else:print(parent.name)

在这里插入图片描述

横向遍历

在这里插入图片描述
平行遍历发生在同一个父节点下的各节点间

soup = BeautifulSoup(demo, 'html.parser')
print(soup)
print(soup.title.next_sibling)
print(soup.body.previous_sibling)
for sibling in soup.a.next_siblings:print(sibling)
for prev in soup.a.previous_siblings:print(prev)

在这里插入图片描述

4、基于bs4的HTML的内容查找

搜索方法：find() 和 find_all()

find_all()

<>.find_all(name, attrs, recursive, string, **kwargs)
返回一个列表类型，存储查找的结果
name 对标签名称的检索字符串
可通过name参数进行html页面进行标签名称检索，也可传True，检索全部的标签信息

soup = BeautifulSoup(demo, 'html.parser')
print(soup.find_all('a'))

在这里插入图片描述
attrs: 对标签属性值的检索字符串，可标注属性检索

soup = BeautifulSoup(demo, 'html.parser')
print(soup.find_all('p','course'))
print(soup.find_all(id='link1'))

在这里插入图片描述
recursive: 是否对子孙全部检索，默认True

soup = BeautifulSoup(demo, 'html.parser')
print(soup.find_all('p'))
print(soup.find_all('p', recursive=False))

在这里插入图片描述
string: <>…</>中字符串区域的检索字符串

soup = BeautifulSoup(demo, 'html.parser')
print(soup.find_all(string='Basic Python'))

在这里插入图片描述
扩展方法：

查看全文

http://www.dtcms.com/a/174383.html

各国健康指标数据查询

P48-56 应用游戏标签

PCIe控制逻辑介绍(一)

GitHub中多个PR时，如何协同合并和管理

【计算机网络】TCP为什么可靠？解决了哪些问题？

JPress安装(Docker)

iMeta | 临床研究+scRNA-seq的组合思路 | 真实世界新辅助研究，HER2⁺就一定受益？单细胞揭示真正的“疗效敏感克隆”

【BUG】mmdetection ValueError: need at least one array to concatenate

【Qt4】Qt4中实现PDF预览

【东枫科技】代理英伟达产品：智能网卡的连接线

URP - 深度图

CSS网格布局

UE5 ML机械学习肌肉反应与布料反应

大疆三方云平台部署

Linux grep 命令详解及示例大全

多线程“CPU 飙高”问题：如何确保配置的线程数与CPU核数匹配（Java、GoLang、Python ）中的最佳实践解决方案

可检查异常与不可检查异常

suna工具调用可视化界面实现原理分析（三）

【神经网络、Transformer及模型微调】

Windows11下ESP-IDF开发环境搭建【基于Cursor/VS Code插件】

2025-05-06 滑动窗口最大值

逐次逼近式A/D转换器

1、PLC控制面板 - /自动化与控制组件/plc-control-panel

AI-02a5a2.神经网络的学习

C# 实现PLC数据自动化定时采集与存储（无需界面，自动化运行）

2021-10-31 C++求一个千位和十位数字之和为10，百位个位之积为12的四位数

针对面试-redis篇

mybatis 的多表查询

【SpringBoot3】idea找不到log符号

开源与商业：图形化编程工具的博弈与共生

BeautifulSoup库

1、BeautifulSoup4安装

2、BeautifulSoup库基本信息

BeautifulSoup的解析器

BeautifulSoup类的基本元素

如何通过解析获取每个标签内容

3、基于bs4遍历HTML页面的内容

纵向遍历

向下遍历

向上遍历

横向遍历

4、基于bs4的HTML的内容查找

find_all()

相关文章：