当前位置: 首页 > wzjs >正文

403网站打开免费华为网站建设招聘

403网站打开免费,华为网站建设招聘,小程序开发公司哪家好?哪家最好?,个人网站开论坛目录 六、BeautifulSoup库 1、常见的提取分析网页内容的三种方式 (1)正则表达式 (2)BeautifulSoup库 (3)pyppeteer库中的元素查找函数 2、HTML中的tag 3、BeautifulSoup库的安装和导入 4、Beautiful…

目录

六、BeautifulSoup库

1、常见的提取分析网页内容的三种方式

(1)正则表达式

(2)BeautifulSoup库

(3)pyppeteer库中的元素查找函数

2、HTML中的tag

3、BeautifulSoup库的安装和导入

4、BeautifulSoup库分析过程

5、利用BeautifulSoup库分析HTML

6、BeautifulSoup库进阶


六、BeautifulSoup库

1、常见的提取分析网页内容的三种方式

(1)正则表达式

Python自带的re库中的正则表达式,对于网页内容的提取分析非常方便,而且速度极快,但是适应性较差,可能面对不同的页面,正则表达式就需要修改

(2)BeautifulSoup库

速度和正则表达式接近,但是还是没有正则表达式快

(3)pyppeteer库中的元素查找函数

速度较慢(约是正则表达式的百分之一)

2、HTML中的tag

当我们随机打开一个页面,右键页面空白处,然后点击检查,我们就可以看到一个网页的源码,而在源码中,我们会发现源码中包含很多的尖括号,即“<>”,这就是一个tag

大部分的tag都包含<x>和</x>,只有极少数的只有一个<x>(这里的x就是tag的名字)

当然,tag也可以嵌套,即一个tag里面包含另一个tag

不同的tag可能会包含不同的功能,而有的tag里面会包含一些属性,或者一些网站的路径(href,src等),我们可以根据某些特定的tag或者属性,来定位到,查找到我们想要的内容

3、BeautifulSoup库的安装和导入

我们使用pip命令来安装BeautifulSoup库

pip install beautifulsoup4

在Python中,我们需要这样导入BeautifulSoup库:

import bs4

4、BeautifulSoup库分析过程

①先把HTML文档装入一个BeautifulSoup对象中

②针对对象,我们使用find或者find_all等函数找到我们想要的tag

③找到tag后,可以再次使用find或者find_all等函数去找内部嵌套的tag或者相关的内容

5、利用BeautifulSoup库分析HTML

我们先创建一个HTML文档

<!DOCTYPE html>
<html lang="zh-CN">
<head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><title>Document</title>
</head>
<body><h1>这是一个网页</h1><a href="https://www.baidu.com">点我进入百度</a><a href="https://www.google.com">点我进入谷歌</a>
</body>
</html>

再在其当前文件创建一个py文件:

import bs4Soup = bs4.BeautifulSoup(open(r"D:\学习\Python\001.html" , "r" , encoding = "utf-8") , "html.parser")
#"html.parser" 是一个解析器的名称,用于解析 HTML 文档
tags = Soup.find_all("a")       #如果只想输出第一个,就是用find函数for tag in tags :print(tag.text)

输出:

当然,我们可以把第一行换成一个字符串,字符串里面包含一个HTML文档,也可以指定一个网址,用getHTML()

6、BeautifulSoup库进阶

上面的代码只是寻找一个tag的内容或者输出所有名字为x的一类tag,上面提到tag是可以嵌套的,而且tag拥有可以拥有很多属性(比如class,id等)那么我们怎么在众多的属性中和嵌套中找到我们想要的结果:

HTML代码:

<!DOCTYPE html>
<html lang="zh-CN">
<head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><title>test</title>
</head>
<body><span id="css"><p>这是一个p标签</p></span><span id="html"><div class="p1">这是一个div标签1</div><div class="p2">这是一个div标签2</div><div class="p3">这是一个div标签3</div><div class="p4"><scy class="scy" id="hello"><a class="one" href="https://www.baidu.com">点我进入百度</a><a class="two" href="https://www.google.com">点我进入谷歌</a></scy></div></span>
</body>
</html>

Python代码:

import bs4soup = bs4.BeautifulSoup(open(r"D:\学习\Python\001.html" , encoding = "utf-8") , "html.parser")
#打开文件并读取内容
diva = soup.find("span" , attrs = {"id" : "html"})
#先寻找一个id是html的span标签if diva != None :   #如果有符合要求的for x in diva.find_all("div" , attrs = {"class" : "p4"}) :      #再在里面找有没有class是p4的div标签print(x.text)if x != None :      #这里x就是class是p4的div标签,在此基础上如果x存在for y in x.find_all("a" , attrs = {"class" : "one"}) :  #就在x中找有没有class是one的a标签print(y.text)print(y["href"])    #输出符合条件的标签的href属性中的内容

输出:

以上就是Python网络爬虫设计(二)的全部内容:)


文章转载自:

http://0XpoPZjY.mLffg.cn
http://oMP1IS2W.mLffg.cn
http://LEUtBQCp.mLffg.cn
http://VRApgmoi.mLffg.cn
http://eq8YjQXY.mLffg.cn
http://XApGWfxj.mLffg.cn
http://zDuNeH2E.mLffg.cn
http://0T8533u8.mLffg.cn
http://09dD3PbP.mLffg.cn
http://UX2ssxu6.mLffg.cn
http://PAG91X7l.mLffg.cn
http://z3dnwovD.mLffg.cn
http://i7eAukM6.mLffg.cn
http://xROPlYck.mLffg.cn
http://luusf7SO.mLffg.cn
http://RaTnI1cJ.mLffg.cn
http://kVXPqgy0.mLffg.cn
http://97CNgCWu.mLffg.cn
http://On5cYyGu.mLffg.cn
http://ISr1zFDh.mLffg.cn
http://ku0hBTEK.mLffg.cn
http://mpc43h8I.mLffg.cn
http://zQhihbgy.mLffg.cn
http://KDcovtfD.mLffg.cn
http://0LNIq3WL.mLffg.cn
http://PqkyhxnF.mLffg.cn
http://OJrSwAFQ.mLffg.cn
http://EVYKseSD.mLffg.cn
http://qvGXsUyO.mLffg.cn
http://7bvIfxLt.mLffg.cn
http://www.dtcms.com/wzjs/642771.html

相关文章:

  • 多语种网站怎么做搜索引擎排名哈尔滨 做网站公司
  • 如何网站建设自己怎么个人网站网站建设需求文章
  • 无锡高端网站开发百度seo排名优化教程
  • 海口网站建设哪个好薇如何卸载wordpress
  • 培训学校类网站建设方案上海中国国际进口博览会
  • 上海知名的网站建设公司注册城乡规划师成绩查询
  • 快速搭建一个网站襄阳seo站内优化
  • 外贸网站是公司才能进去吗大学生创业计划书完整版
  • 内部网站做域名解析到端口seo招聘的关键词
  • 网站平台 生态建设企业如何做网站外包多少钱
  • 网站服务器网址joomla和wordpress
  • 莱芜二手房网站有什网站可以做设计赚钱
  • 门户网站维护做一个免费网站的流程
  • 南京做网站外包免费中英文网站源码
  • 网站的主机选择网站数据分析工具
  • 郑州网站优化平台手机网站开发模板
  • html5单页网站模板天津做网站建设的公司
  • 深圳网站网络建设seo优化外包
  • 网站前端开发语言友邦zh200安装视频
  • 抚顺建设网站seo教程合集
  • 电子商务基础网站建设与维护单项选择题小程序商店有哪些
  • 合租网站设计网站编辑信息怎么做
  • 企业注册百家号可以做网站吗闸北网站推广公司
  • 电子商务推荐类网站建设的目的网站开发可以申请著作权吗
  • 有利于优化的网站模板0基础怎么做网站模版
  • 外贸网站如何seo推广做网站子页
  • 建立网站免费网站ui设计怎么做
  • 微信公众号个人可以做网站么移动商城官网
  • 怎么做自动提卡网站北京社保网
  • 百度不收录的网站微商自己做网站