当前位置: 首页 > wzjs >正文

怎么给公司建网站成都网站建设设计

怎么给公司建网站,成都网站建设设计,沧州百度seo,版面设计素材今天闲着没事,突发异想,相对比不同解析库的解析速度,本文中对比五种解析库 一.概述 1.scrapy自带Css选择 2.scrapy自带xpath 3.lxml自带xpath from lxml import etree 4.bs4自带美味的汤 from bs4 import BeautifulSoup 5.re 正则表…

今天闲着没事,突发异想,相对比不同解析库的解析速度,本文中对比五种解析库

一.概述

1.scrapy自带Css选择

2.scrapy自带xpath

3.lxml自带xpath     from lxml import etree

4.bs4自带美味的汤 from bs4 import BeautifulSoup

5.re 正则表达式

以这个文本为例,在循环解析链接标题时间情况,再循环499次并打印输出,约循环7500次,为了避免误差,考虑到CPU资源波动,那么Python程序能够得到的CPU时间就会或多或少,从而导致运行时间变长或变短,所以每种方式运行三次。

当CPU爆满时

 运行时间非常慢

当CPU充足时,同样是程序就会非常快

本程序都在CPU充足情况下运行

text ='''<div class="news_list zy_listbox"><!-- 展示15条数据后出现分页 --><ul><li><b>·</b><a href="/index/Article/detail.html?id=2565">青海省生态环境监测中心自行采购2024-010号</a><span>2024-07-18</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2564">单一来源采购公示</a><span>2024-07-15</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2563">青海省生态环境监测中心自行采购2024-009号(第二次)</a><span>2024-07-10</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2562">青海省生态环境监测中心自行采购2024-009号</a><span>2024-07-05</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2561">等保测评询价函</a><span>2024-05-28</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2560">单一来源采购公示</a><span>2024-05-24</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2559">青海省生态环境监测中心自行采购2024-007号(第二次)</a><span>2024-05-20</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2558">单一来源采购公示</a><span>2024-05-16</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2557">青海省生态环境监测中心自行采购2024-008号</a><span>2024-05-06</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2556">询价函</a><span>2024-04-30</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2555">青海省生态环境监测中心自行采购2024-007号</a><span>2024-04-22</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2554">青海省生态环境监测中心自行采购2023-004号(第二次)</a><span>2024-04-12</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2553">青海省生态环境监测中心自行采购2024-006号</a><span>2024-03-29</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2552">青海省生态环境监测中心自行采购2024-005号</a><span>2024-03-20</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2551">青海省生态环境监测中心自行采购2024-004号</a><span>2024-03-16</span></li></ul></div>'''

二.探讨CSS选择器解析速度

t= time.time()
selector = Selector(text=text)
for i in range(1,500):for l in selector.css('div.news_list>ul>li'):print(l.css('a::text').get())print(l.css('span::text').get())print(l.css('a::attr(href)').get())
css_parse = time.time()-t
print('css_parse用时:',css_parse)

第一次

第二次

第三次

三.探讨scrapy里的xpath解析速度

t= time.time()
selector = Selector(text=text)
for i in range(1,500):for l in selector.xpath('//div[@class = "news_list zy_listbox"]/ul/li'):print(l.xpath('.//a/text()').get())print(l.xpath('.//span/text()').get())print(l.xpath('.//a/@href').get())
scrapy_xpath_parse = time.time()-t
print('scrapy_xpath_parse用时:',scrapy_xpath_parse)

第一次

第二次

第三次

四.探讨lxml里的xpath解析速度

t= time.time()
selector = etree.HTML(text)
for i in range(1,500):for l in selector.xpath('//div[@class = "news_list zy_listbox"]/ul/li'):print(l.xpath('.//a/text()')[0])print(l.xpath('.//span/text()')[0])print(l.xpath('.//a/@href')[0])
xpath_parse = time.time()-t
print('xpath_parse用时:',xpath_parse)

第一次

第二次

第三次

 

五.探讨bs4自带BeautifulSoup解析速度

t = time.time()
soup = BeautifulSoup(text, 'html.parser')
news_list = soup.select('div.news_list.zy_listbox ul li')
for i in range(1,500):for l in news_list:print( l.select_one('a').get_text(strip=True))print(l.select_one('span').get_text(strip=True))print(l.select_one('a')['href'])
bs_parse = time.time() - t
print('bs_parse用时:',bs_parse )

第一次

第二次

第三次

.探讨re正则解析速度

t = time.time()
li = re.findall(' <li><b>·</b>.*?</li>',text)
for l in range(1,500):for i in li:print(re.search('>(.*?)</a>',i).group(1))print(re.search('<span>(.*?)</span>',i).group(1))print(re.search('<a href="(.*?)">',i).group(1))
re_time = time.time()-t
print('re:',re_time )

第一次

第二次

第三次

七.总结 

经上述程序实验证明,速度排序:

re正则  > lxml  xpath  >  bs4   BeautifulSoup  >   Scrapy  css   ≈    Scrapy  xpath

在本实验中,并不严谨,除CPU波动外,只选取了一种特定的HTML网页进行速度对比,没有考虑到不同类型和结构的网页对解析速度的影响。例如,网页中若包含大量嵌套的表单、复杂的JavaScript生成的动态内容等,甚至有个html藏在动态接口的json里面,不同解析工具的表现可能会大不相同,这使得实验结果存在一定的局限性。实际应用中还需要根据具体的HTML网页结构、解析需求以及性能指标等多方面因素综合考量,选择最合适的解析工具。

总程序

from lxml import etree
from scrapy import Selector
from bs4 import BeautifulSoup
import re
import requests
import time
text ='''<div class="news_list zy_listbox"><!-- 展示15条数据后出现分页 --><ul><li><b>·</b><a href="/index/Article/detail.html?id=2565">青海省生态环境监测中心自行采购2024-010号</a><span>2024-07-18</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2564">单一来源采购公示</a><span>2024-07-15</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2563">青海省生态环境监测中心自行采购2024-009号(第二次)</a><span>2024-07-10</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2562">青海省生态环境监测中心自行采购2024-009号</a><span>2024-07-05</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2561">等保测评询价函</a><span>2024-05-28</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2560">单一来源采购公示</a><span>2024-05-24</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2559">青海省生态环境监测中心自行采购2024-007号(第二次)</a><span>2024-05-20</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2558">单一来源采购公示</a><span>2024-05-16</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2557">青海省生态环境监测中心自行采购2024-008号</a><span>2024-05-06</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2556">询价函</a><span>2024-04-30</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2555">青海省生态环境监测中心自行采购2024-007号</a><span>2024-04-22</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2554">青海省生态环境监测中心自行采购2023-004号(第二次)</a><span>2024-04-12</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2553">青海省生态环境监测中心自行采购2024-006号</a><span>2024-03-29</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2552">青海省生态环境监测中心自行采购2024-005号</a><span>2024-03-20</span></li><li><b>·</b><a href="/index/Article/detail.html?id=2551">青海省生态环境监测中心自行采购2024-004号</a><span>2024-03-16</span></li></ul></div>'''
t= time.time()
selector = Selector(text=text)
for i in range(1,500):for l in selector.css('div.news_list>ul>li'):print(l.css('a::text').get())print(l.css('span::text').get())print(l.css('a::attr(href)').get())
css_parse = time.time()-t
t= time.time()
selector = Selector(text=text)
for i in range(1,500):for l in selector.xpath('//div[@class = "news_list zy_listbox"]/ul/li'):print(l.xpath('.//a/text()').get())print(l.xpath('.//span/text()').get())print(l.xpath('.//a/@href').get())
scrapy_xpath_parse = time.time()-t
t= time.time()
selector = etree.HTML(text)
for i in range(1,500):for l in selector.xpath('//div[@class = "news_list zy_listbox"]/ul/li'):print(l.xpath('.//a/text()')[0])print(l.xpath('.//span/text()')[0])print(l.xpath('.//a/@href')[0])
xpath_parse = time.time()-t
t = time.time()
soup = BeautifulSoup(text, 'html.parser')
news_list = soup.select('div.news_list.zy_listbox ul li')
for i in range(1,500):for l in news_list:print( l.select_one('a').get_text(strip=True))print(l.select_one('span').get_text(strip=True))print(l.select_one('a')['href'])
bs_parse = time.time() - t
t = time.time()
li = re.findall(' <li><b>·</b>.*?</li>',text)
for l in range(1,500):for i in li:print(re.search('>(.*?)</a>',i).group(1))print(re.search('<span>(.*?)</span>',i).group(1))print(re.search('<a href="(.*?)">',i).group(1))
re_time = time.time()-t
print('css_parse用时:',css_parse)
print('scrapy_xpath_parse用时:',scrapy_xpath_parse)
print('xpath_parse用时:',xpath_parse)
print('bs_parse用时:',bs_parse )
print('re用时:',re_time )

 各时间对比


文章转载自:

http://lTf2voEL.xntwk.cn
http://6Ln0EkCj.xntwk.cn
http://soT3jxBK.xntwk.cn
http://0tvDhunA.xntwk.cn
http://CfeAKCnJ.xntwk.cn
http://4LxBLYM8.xntwk.cn
http://zVs5RHWy.xntwk.cn
http://xmyvlY6o.xntwk.cn
http://PXAviNdx.xntwk.cn
http://YmzydcZb.xntwk.cn
http://3Cz7wIak.xntwk.cn
http://2vcxL3Xw.xntwk.cn
http://l1pbSpaQ.xntwk.cn
http://3Z2VBk3A.xntwk.cn
http://VmAjrs3M.xntwk.cn
http://jTlMzUSB.xntwk.cn
http://ROG3wZUK.xntwk.cn
http://vyncUwlB.xntwk.cn
http://sVo8yXYK.xntwk.cn
http://2Ce2jB4f.xntwk.cn
http://J3HnTy4Y.xntwk.cn
http://7lK3Jnhr.xntwk.cn
http://NxAaVYqE.xntwk.cn
http://WsyMGTsg.xntwk.cn
http://HvqSbSfi.xntwk.cn
http://uJXFwJl3.xntwk.cn
http://fo8vUGuE.xntwk.cn
http://PvaTxfB7.xntwk.cn
http://fyhgcXFo.xntwk.cn
http://JKqbFRKA.xntwk.cn
http://www.dtcms.com/wzjs/671552.html

相关文章:

  • 邯郸做商城网站的公司网店美工课本
  • 农业建设信息网站东莞seo公司
  • 个人做discuz网站备案出站链接对网站有什么影响
  • 织梦做的网站织梦修改网页上海网站建设的价格低
  • 企业网站打不开什么原因运动类网站
  • 怎么查看一个网站开发语言wordpress置顶文章没用
  • seo网站推广的主要目的网站推广新手入门
  • 制作网站要钱吗wordpress嵌入视频
  • 湖南企业网站政务公开和网站建设工作的建议
  • 直播视频windows优化大师
  • 谁用腾讯风铃做网站的交换链接的方法
  • 重庆简易注销在什么网站做目前主流的网站开发语言
  • 天津房地产网站建设郑州网站推广策
  • 专业做尼泊尔的旅行网站厦门知名做企业网站设计的公司
  • 养生网站建设论文wordpress 全站加密
  • 网站空间文件夹wordpress访问子网站
  • 免费网站建设哪个最好wordpress绑定多域名
  • 2002年做网站多少钱职业生涯规划大赛是干什么的
  • 展示网站多少钱一个东莞最大的网络公司
  • 做网站需要注意ps做网站要求高吗
  • 洪宇建设集团公司网站编程的基础知识
  • 网站建设与网页制作论文北京市建设工程第四检测所网站
  • 哪些网站可以做免费推广肇庆网站开发哪家专业
  • 网站服务器放置地怎么填wordpress 文章背景
  • 做网站中心做地坪网站
  • 做旅游攻略的网站企业网站模板湖南岚鸿模板
  • 制作网络网站南宁建设厅网站是什么
  • 网站开发可行性分析报告范文网络策划需要哪些技能
  • 深圳 网站建设公网站源代码免费下载
  • 网站开发问题及解决logo在线生成器免费