当前位置: 首页 > news >正文

Python爬虫09_Requests用bs4进行数据解析

一、步骤解读

bs4进行数据解析
数据解析的原理:
1.标签定位
2.提取标签、标签属性中存储的数据值
bs4数据解析的原理:
1.实例化一个Beautifulsoup对象,并且将页面源码数据加载到该对象中
2.通过调用Beautifulsoup对象中相关的属性或者方法进行标签定位和数据提取
环境安装:
pip install bs4
pip install lxml
如何实例化BeautifulSoup对象:
from bs4 import Beautifulsoup
对象的实例化:
1.将本地的html文档中的数据加载到该对象中
fp = open(‘./test.html’,‘r’,encoding=‘utf-8’)
soup = BeautifulSoup(fp,‘lxml’)
2.将互联网上获取的页面源码加载到该对象中
page_text = response.text
soup = BeautifulSoup(page_text,‘lxml’)
提供用于数据解析的方法和属性:
soup.tagName:返回的是文档中第一次出现的tagName对应的标签
soup.find():
find(‘tagName’):等同于soup.div
属性定位
soup.find(‘div’,class_/id/attr=‘song’)
soup.find_all(‘tabName’):返回符合要求的所有标签(列表)
select:
select(‘某种选择器(id,class,标签…选择器)’),返回的是一个列表。
层级选择器:
soup.select(‘.tang > ul > li > a’)

二、源代码示例

from bs4 import BeautifulSoup
fp = open('E:\\Program\\Code\\Html\\惠泉酒坊\\index.html','r',encoding='utf-8')
soup = BeautifulSoup(fp,'lxml')
print(soup.a)
print('---------------------------------------------------------------------------------------------')
print(soup.div)
print('---------------------------------------------------------------------------------------------')
print(soup.find('div'))
print('---------------------------------------------------------------------------------------------')
print(soup.find('div',class_='c1'))
print('---------------------------------------------------------------------------------------------')
print(soup.select('.tu2'))
print('---------------------------------------------------------------------------------------------')
print(soup.select('.ai2 > ul')[0])
http://www.dtcms.com/a/315490.html

相关文章:

  • 【科研绘图系列】R语言绘制误差棒图
  • 【C++】模板深入进阶
  • 通信算法之298: verilog语法generate和for介绍
  • 深入浅出:Ajax 与 Servlet 实现前后端数据交互
  • VUE+SPRINGBOOT从0-1打造前后端-前后台系统-登录实现
  • 平面设计软件PS+AI百度云网盘资源在线观看
  • 读者提问:如果维度退化或下沉的维度属性发生了变化,事实表该如何处理?
  • 技术与情感交织的一生 (十一)
  • spring循环依赖解决
  • 一(3)理解 newNode->next = head 和 Node* temp = head 的区别
  • UF_MODL_ask_curve_points 离散曲线,按长度分段曲线,不准确 不知道为啥
  • 面向对象的七大设计原则
  • 【音视频】WebRTC 一对一通话-信令服
  • 【计算机网络】6应用层
  • 【Qt开发】常用控件(一)
  • IP证书使用场景及注意事项
  • 16-Chapter03-Example01
  • Android Studio下载及安装配置
  • MyBatis实现SQL
  • 如何通过视觉+自动化组合拳提升UI测试的质量
  • 扣子Coze中的触发器实现流程自动化-实现每日新闻卡片式推送
  • 深入浅出 RabbitMQ-路由模式详解
  • 【2025年8月5日】mysql-8.0.38-linux-glibc2.12-x86_64.tar.xz 安装MySQL操作指引
  • 数据结构(01)—— 数据结构的基本概念
  • Wisdom SSH:自动化网络配置管理的领航者
  • 工业级 CAN 与以太网桥梁:串口服务器CAN通讯转换器深度解析(下)
  • 基于deepSeek的流式数据自动化规则清洗案例【数据治理领域AI带来的改变】
  • wps创建编辑excel customHeight 属性不是标准 Excel Open XML导致比对异常
  • 用 Python 批量处理 Excel:从重复值清洗到数据可视化
  • Unity编辑器工具:一键为场景中所有MeshRenderer对象添加指定脚本