当前位置: 首页 > news >正文

收录网站是什么意思湛江网站开发公司

收录网站是什么意思,湛江网站开发公司,网页视频如何下载到电脑,最新小组排名1.beatuifulSoup 基本用法 beautifulSoup(简称bs4)是python的一个第三方库,用于解析html和xml文档中提取数据的python库。它能够将复杂的文档转化为树形结构,方便快速定位和提取所需数据以及查找和修改,常常与爬虫框架…

1.beatuifulSoup 基本用法

beautifulSoup(简称bs4)是python的一个第三方库,用于解析html和xml文档中提取数据的python库。它能够将复杂的文档转化为树形结构,方便快速定位和提取所需数据以及查找和修改,常常与爬虫框架如requests结合使用:
一下是bs4的核心功能的介绍:

  • 四大对象类型
    tag:html、xml中的标签,如div和a标签
    NavigableString:标签内的文本内容
    BeautifulSoup:表示整个文档树
    Comment:Html中的注释部分
  • 解析器对比
解析器优势劣势
html内置无需安装速度比较慢,容错性一般
lxml速度快容错性强需要额外安装依赖
html5lib遵循html5标准容错性最强速度最慢,需要额外安装
  • 安装与导入
    命令:
 pip install beautifulsoup4
执行结果![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/85154572e27b485b903f9965bea34c6a.png)

还需要安装解析器(如lxml或者html.parse)
命令:

pip install lxml

导包使用

  • 使用BeautifulSoup流程
    ①导入BeautifulSoup模块
    ②创建BeautifulSoup对象
    ③使用标签名称查找元素
    ④使用css选择器查找元素
    ⑤获取元素的文本内容
  • BeautifulSoup基本用法
    ①初始化与解析
    a. 字符串解析
from bs4 import BeautifulSoup# 字符串解析,相当于把需要解析的内容,不需要放到html中,直接放在str中
html_doc = '''
<!DOCTYPE html>
<html lang="en"><head><meta charset="UTF-8"><title>python</title></head><body><div class="name" id="title"><h1> python 学习</h1><p> 爬虫 </p><a href="https://www.python.org/"></a></div></body>
</html>
'''
# 设置解析器进行解析
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup)
	b. 文件解析(从html文件中进行解析)
from bs4 import BeautifulSoup# 文件解析
with open('bs.html', 'r', encoding='utf8') as f:soup = BeautifulSoup(f, 'html.parser')print(soup)
	c. URL获取HTML并解析(使用爬虫脚本发送请求的时候就已经可以进行解析了)
from bs4 import BeautifulSoup
import requests# url获取html并解析
url = 'http://www.baidu.com'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 ''Safari/537.39996'
}
response = requests.get(url= url, headers=headers)
soup = BeautifulSoup(response.text, 'lxml')
print(soup)

②访问元素
例如:获取字符串中的某个标签,通过标签名来进行访问

from bs4 import BeautifulSoup# 字符串解析,相当于把需要解析的内容,不需要放到html中,直接放在str中
html_doc = '''
<!DOCTYPE html>
<html lang="en"><head><meta charset="UTF-8"><title>python</title></head><body><div class="name" id="title"><h1> python 学习</h1><p> 爬虫 </p><a href="https://www.python.org/">路径</a></div></body>
</html>
'''
# 设置解析器进行解析
soup = BeautifulSoup(html_doc, 'html.parser')
# 1.直接访问子标签
h1_data = soup.h1
p_data = soup.p
div_data = soup.div
print(soup)
print(h1_data)
print(p_data)
print(div_data)
# 2.访问标签的标签名、标签值
# (先获取h1标签)
title = soup.h1
# 获取标签名
name= title.name
print(name)
# 获取标签值
str = title.string
print(str)
# 获取某个父标签下的某个子标签下的内容(嵌套访问:父亲找儿子的某个内容)
print(soup.body.div.a.string)

2. 高级查找方法

2.1 查找元素

2.2 提取文本和属性

2.3 find()和findAll()

2.4 CSS选择器(推荐使用)

3. 导航树操作(处理复杂结构)

4. 新浪往案例实战

5. jsonpath提取数据

http://www.dtcms.com/a/614082.html

相关文章:

  • Qt QHostInfo::lookupHost()函数,10分钟讲清楚
  • DOM 添加节点
  • 餐饮行业做网站的好处佛山市网站建设哪家好
  • 从算法到产品:《自然语言处理实战》如何用Hugging Face落地NLP应用
  • 凡客网站规划与建设ppt青岛建站
  • 低成本开发者工作生存手册
  • 网站集约化建设意义linux网站服务器配置
  • Go语言编译型 | 理解Go语言的编译特性与优势
  • SSM交通违章举报平台lxsqm(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
  • Java 基于Java语法实验专题
  • Android并发编程三剑客:深入理解CountDownLatch、CyclicBarrier和Semaphore
  • OS进程控制
  • datax的shell脚本常见报错
  • Java在线编译C语言 | 快速高效的跨语言在线编译工具
  • 前端响应式图片实现,srcset与sizes
  • 品牌网站建设解决期货软件定制开发公司
  • OpenCV(二十五):方盒滤波与均值滤波
  • Vscode 配置C++ Mingw调试、编译环境-无需修改系统PATH变量的VS Code配置方法
  • superset_config.py 配置文件的参数详解
  • 搭建本地deepseek大模型
  • 阳泉 网站建设合作网页设计心得体会2000字
  • 网站程序授权码电商网站经营性备案
  • 自动化测试任务或者定义AI AGENT(智能体)任务,通过使用它可以操作浏览器来执行特定操作,如访问网页、单击按钮、提取网页信息等。 ...
  • BFS 广度优先搜索算法
  • Jinja 模板引擎介绍文档
  • 深圳响应样式网站建设费用灵台县门户网
  • Excel工作簿自动销毁功能,使用时间到期后自动删除文件
  • Linux-信号2
  • 河南省两学一做网站官网建设的意义
  • 【Python TensorFlow】BiTCN-BiGRU双向时间序列卷积双向门控循环神经网络时序预测算法(附代码)