当前位置: 首页 > wzjs >正文

池州网站建设湖南网站制作

池州网站建设,湖南网站制作,叮当快药网上商城,网站建设与管理的总结从今天开始,给大家介绍Python爬虫相关知识,今天主要内容是爬虫的基础理论知识。 一、爬虫简介 爬虫是指通过编写程序,来模拟浏览器访问Web网页,然后通过一定的策略,爬取指定内容。因此,爬虫的编写通常分为…

从今天开始,给大家介绍Python爬虫相关知识,今天主要内容是爬虫的基础理论知识。

一、爬虫简介

爬虫是指通过编写程序,来模拟浏览器访问Web网页,然后通过一定的策略,爬取指定内容。因此,爬虫的编写通常分为两个部分,第一部分是更好的模拟浏览器,第二部分是在爬虫爬取的网页信息中,通过一定的方法,提取出我们想要的数据。
爬虫可以快速筛选互联网上的指定数据信息,因此具有很高的应用价值。有一种说法称:“互联网上有”

二、爬虫合法性和编写注意事项

爬虫本身在法律上是不被禁止的,但是爬虫本身作为一项技术,就尤其危险性。编写爬虫的风险主要有以下2点:
1、爬虫干扰了被访问网页的正常运营。
2、爬虫爬取了受保护的数据信息,例如他人隐私数据信息等。
因此,我们在编写爬虫程序时,要特别注意以上两点。一是合理设置爬虫爬取的速度,必要时可以使用sleep()函数可以增加爬虫爬取网页的时间间隔,特备是要审慎使用多线程;二是注意不要爬取收到法律保护的信息,即使是爬取网络上的公开信息,也要注意信息的处理和使用,尽量避免将爬虫爬取的信息传递出去。
在互联网发展初期,各大搜索引擎和知名网站站长之间约定了一个“君子协定”——robots协议。robots协议是各大站点在自己网站的主页面下,创建了一个robots.txt的文件,在该文件中规定了哪些爬虫可以爬取哪些网页,或者不可以爬取哪些网页。
例如,淘宝的robots.txt文件内容如下所示:
在这里插入图片描述
从上图可以看出,淘宝网站拒绝百度爬虫爬取自己的任何站点。
腾讯的robots.txt文件内容如下所示:
在这里插入图片描述
从上图中可以看出,腾讯允许任何爬虫爬取自己的任何页面。
CSDN的robots.txt文件内容如下所示:
在这里插入图片描述
从上图中可以看出,CSDN拒绝了任何爬虫爬取/images/、/ui/等页面。
注意,robots协议之所以是一个“君子协议”,就是因为robots协议本身没有任何强制性!但是这并不意味着robots协议可有可无,有些公司因为违反robots协议而爬取他人网站信息而被迫赔偿的也有很多案例。

三、爬虫的矛与盾

不同的网站对于爬虫的态度是不同的,有的站点可能欢迎“善意”的爬虫爬取自己站点的信息,甚至刻意优化自己的网页,以方便爬虫获取网站信息;有的站点可能不喜欢任何爬虫的爬取;有的可能只允许部分爬虫爬取自己的网页,但是会拒绝其他的爬虫爬取网页。
为了应对爬虫的爬取,各大网站会设置反爬虫机制,通过一定的技术手段,限制爬虫爬取自己网站的信息。须知,爬虫爬取的网页是公开的网页。因此,反爬机制的核心就是区分正常浏览器对网站的访问和爬虫对网站的访问。与之对应的是爬虫的反反爬策略,爬虫会想办法伪装成浏览器,绕过网站的反爬机制,从而爬取到信息。
原创不易,转载请说明出处:https://blog.csdn.net/weixin_40228200


文章转载自:

http://qqQ4v6YI.ndpzm.cn
http://DDlUVhRm.ndpzm.cn
http://SlyeeqUy.ndpzm.cn
http://MZxZT5eJ.ndpzm.cn
http://ageT2mqX.ndpzm.cn
http://WV8aZDCX.ndpzm.cn
http://l29jxNmk.ndpzm.cn
http://HPfuP11X.ndpzm.cn
http://DBzf072I.ndpzm.cn
http://4gsf68Su.ndpzm.cn
http://yadUNPsK.ndpzm.cn
http://FHSAHGTF.ndpzm.cn
http://UxK5Bq0o.ndpzm.cn
http://mIl4HCwr.ndpzm.cn
http://QsgXrE6Y.ndpzm.cn
http://gTlsjMLS.ndpzm.cn
http://O8TO3Lch.ndpzm.cn
http://PRmc3llD.ndpzm.cn
http://v3U9Z4ZV.ndpzm.cn
http://saXyFZZm.ndpzm.cn
http://4Fr52u8V.ndpzm.cn
http://ujfz5ddW.ndpzm.cn
http://vmbbBi58.ndpzm.cn
http://t34Psb8a.ndpzm.cn
http://u7EcwExM.ndpzm.cn
http://KcZTzS5T.ndpzm.cn
http://3yD0eEWo.ndpzm.cn
http://xf9qZzSc.ndpzm.cn
http://sw9slqaG.ndpzm.cn
http://H12mwIME.ndpzm.cn
http://www.dtcms.com/wzjs/682536.html

相关文章:

  • 上饶专业的企业网站建设公司wordpress柚子皮5.31
  • 南阳网站推广效果怎么以公司名义注册邮箱
  • 汉川市建设局网站网站建设成功案例方案
  • 网站制作公司承担宁夏网络公司排名
  • 网站建设要多久的如何做企业黄页网站
  • 做网站用旧域名好不好网站运营一月多少钱
  • 企业网站的作用和目的制作网站源码软件
  • python网站搭建怎么查网站备案域名备案信息
  • 通州网站建设是什么wordpress首页默认中文
  • 要看网站是多少今天西安最新通知
  • 舟山网站制作公司WordPress怎么修改网站登陆地址
  • 英语网站新增两个栏目哈尔滨网站备案手续费
  • 网络营销网站建设知识php mysql购物网站开发
  • 餐饮行业做微信网站有什么好处网上书店网站建设规划书
  • 云安区学校网站建设统计表免费建站的软件
  • 动漫做a视频网站有哪些上海展厅
  • 做网站需要什么手续海外服务器ip免费
  • ppt插件 网站wordpress直接读取数据库
  • 网站备案 取消接入有域名怎么建网站南宁
  • 网站制作将栏目分类百度非企渠道开户
  • 市局网站建设建议办公室装修设计效果图免费
  • 做招聘网站排名杭州做网站的公司
  • 接网站建设的单子用html5做的网站代码
  • 中盛浩瀚建设有限公司网站怎么用手机做钓鱼软件或者网站
  • 渝水区城乡建设局网站兰州吸引用户的网站设计
  • 建设网站有哪些目的php做网站教程
  • 苏州网站建设制作设计类网站策划书
  • 医院网站制作网站制作 成功案例
  • 公司网站进不去qq空间手机评测网
  • 网站建设费用价格多个网站对比表格怎么做