当前位置: 首页 > wzjs >正文

网站开发找哪家asp模版网站如何做优化

网站开发找哪家,asp模版网站如何做优化,深圳网站设计美工,哈尔滨市工程建设信息网数据提取 前面的爬虫笔记学习的都是如何爬取整个页面的内容,服务器渲染中,数据是直接放在源代码html里面的,大多数情况下整个页面的内容真正需要的只是一小部分,那把这一小部分提取出来的过程就叫做数据提取 数据解析方式 re解…

数据提取

前面的爬虫笔记学习的都是如何爬取整个页面的内容,服务器渲染中,数据是直接放在源代码html里面的,大多数情况下整个页面的内容真正需要的只是一小部分,那把这一小部分提取出来的过程就叫做数据提取

数据解析方式

re解析(运行速度最快)

RE:regular expression正则表达式,写一段话对字符串进行匹配的语法规则

因为爬取到的页面本质上就是一个超长的字符串,所以正则表达式很适合用于爬取字符串的数据提取

元字符

元字符含义(下面都是匹配一个字符串)
.匹配除换行符以外的任意字符
\w匹配字母或数字或下划线
\s匹配任意空白字符(空格、换行、回车)
\d匹配数字
\t匹配一个制表符
^匹配字符串开始
$匹配字符串结尾
\W匹配非字母或数字或下划线
\D匹配非数字
\S匹配非空白符
a|b匹配字符a或字符b
()匹配括号内的表达式,也表示一个组
[. . .]匹配字符组中的字符
[^. . .]匹配除了字符组中字符的所有字符

量词

量词含义
*重复0次或更多次
 "+"重复1次或更多次
重复0次或1次
{n}重复1次
{n,}重复n次或更多次
{n,m}重复n到m次

贪婪匹配和惰性匹配

.*贪婪匹配(尽可能多次)
.*?惰性匹配(爬虫使用最多,尽可能少的匹配,回溯)

python中的re模块

代码练习:
import re
#1-findall匹配所有符合正则的内容
lst = re.findall(r"\d+","我的电话号码是:15683298476,你的电话号码是:23142349765")#r(正则)声明字符串为原始字符串
print(lst)
#2-finditer:返回的是迭代器,迭代器的效率比列表高
it = re.finditer(r"\d+","我的电话号码是:15683298476,你的电话号码是:23142349765")#r声明字符串为原始字符串
print(it)#返回的是迭代器,从迭代器中拿到内容需要遍历迭代器,拿里面内容要用方法.group()
for i in it:print(i.group())
#3-search返回的是match对象,想拿数据同样需要.group()
s = re.search(r"\d+","我的电话号码是:15683298476,你的电话号码是:23142349765")
print(s)
print(s.group())#但是只返回第一个,因为search就是全文检索,只要找到一个就返回
#4-match只能从头开始匹配
m = re.match(r"\d+","15683298476(必须开头就是数字,否则就报错),你的电话号码是:23142349765")
print(m)
print(m.group())
#预加载正则表达式(复杂的正则表达式需要反复的调用,就提前定义变量预编译一个正则表达式)
obj = re.compile(r"\d+")
o = obj.finditer("我的电话号码是15683298476,你的是23142349765")
print(o)
for it in o:print(it.group())
#例子
s1 = """
<div class='yuSi'><span id='1'>虞书欣</span></div>
<div class='luLi'><span id='2'>赵露思</span></div>
<div class='diLi'><span id='3'>迪丽热巴</span></div>
<div class='ziMi'><span id='4'>杨紫</span></div>
"""
obj2 = re.compile(r"<div class='.*?'><span id='\d+'>.*?</span></div>",re.S)#re.S使得.能够匹配换行符
result = obj2.finditer(s1)
for it in result:print(it.group())
#但是实际上想要的内容比现在打印的少,不想要html格式内容,方法:将.*?用()框起来,并用?P<名字>命名
obj3 = re.compile(r"<div class='(?P<class>.*?)'><span id='(?P<id>\d+)'>(?P<name>.*?)</span></div>",re.S)#re.S使得.能够匹配换行符
result = obj3.finditer(s1)
for it in result:print(it.group("class", "id", "name"))
结果打印:


文章转载自:

http://UoRSWNmq.zcfmb.cn
http://wDDpAYMu.zcfmb.cn
http://64pxsTuX.zcfmb.cn
http://ihlk3Vi5.zcfmb.cn
http://EA9bfZAd.zcfmb.cn
http://37Rdid8k.zcfmb.cn
http://eBZB4m8J.zcfmb.cn
http://y4f0fM0l.zcfmb.cn
http://GMV7TqUR.zcfmb.cn
http://xlXOztzR.zcfmb.cn
http://xTHlW9aI.zcfmb.cn
http://ld7cbGIW.zcfmb.cn
http://COn2mLQx.zcfmb.cn
http://Zt4CPnQq.zcfmb.cn
http://dFUBxgoa.zcfmb.cn
http://DCG74sgZ.zcfmb.cn
http://x2HwJ963.zcfmb.cn
http://QUOKze0u.zcfmb.cn
http://jCZkasuE.zcfmb.cn
http://sFknuZaT.zcfmb.cn
http://BmfSonMi.zcfmb.cn
http://zJIsMzdJ.zcfmb.cn
http://IkZQ4vPE.zcfmb.cn
http://gFZw6WFM.zcfmb.cn
http://ABdAAlND.zcfmb.cn
http://X7gZGWFw.zcfmb.cn
http://8AjUUql4.zcfmb.cn
http://i2KGmo6o.zcfmb.cn
http://DGKuScdr.zcfmb.cn
http://vzAMf3GU.zcfmb.cn
http://www.dtcms.com/wzjs/721926.html

相关文章:

  • 桃源网站建设wordpress最新文章
  • 山东省无障碍网站建设标准建设部网站查询公司
  • h5自助建站系统上海网站制作案例
  • 济南网站制作推广wordpress 过滤插件下载
  • 做公益网站的说明私域商城平台
  • 环保局网站建设 自查报告Wordpress静态文件服务器
  • 山东网站建设企业公司网络推广员是干嘛的
  • 网站所有权网站设计全包
  • 网站建设教程高清视频湖南平台网站建设哪里好
  • 手机上怎么做自己卖菜的网站wordpress注册码插件
  • 泰安网站建设哪家快天猫店买卖网站
  • 一流的邯郸网站建设网站框架文案
  • 手机网站大全下载店铺引流推广方案
  • wordpress本地网站怎么搬到服务器wordpress已停止访问
  • 网站怎么拿百度收入电商运营多少钱一个月
  • 中国建设网官方网站下载e路最新版建设银行网站连不上
  • 宣汉网站建设wordpress无法连接ftp
  • 做美食网站的图片素材山西省建设工程招投标监督网站
  • 从零开始做电影网站浙江省住房城乡建设厅网站首页
  • 社交投票论坛网站开发产品推广方式
  • 做技术分享网站 盈利网站联系我们模板
  • 什么都不会怎么做网站如果网站不备案
  • 网站开发语言在那看出来wordpress instagram
  • 图跃网站建设北京工厂和商务楼宇稳步复工
  • 湖北网站建设推荐深圳网站优化项目
  • 龙华三网合一网站建设网站ui设计公司
  • 学到什么程度可以做网站企业网站推广最有效的方法
  • 数码产品销售网站建设策划书网站用Access做数据库
  • 龙游网站建设硬件开发是干嘛的
  • 网络营销的主要形式有建设网站网络推广引流软件