当前位置: 首页 > wzjs >正文

大理网站建设西固网站建设平台

大理网站建设,西固网站建设平台,校园新主页网站的建设,营销广告语从今天开始,给大家介绍Python爬虫相关知识,今天主要内容是爬虫的基础理论知识。 一、爬虫简介 爬虫是指通过编写程序,来模拟浏览器访问Web网页,然后通过一定的策略,爬取指定内容。因此,爬虫的编写通常分为…

从今天开始,给大家介绍Python爬虫相关知识,今天主要内容是爬虫的基础理论知识。

一、爬虫简介

爬虫是指通过编写程序,来模拟浏览器访问Web网页,然后通过一定的策略,爬取指定内容。因此,爬虫的编写通常分为两个部分,第一部分是更好的模拟浏览器,第二部分是在爬虫爬取的网页信息中,通过一定的方法,提取出我们想要的数据。
爬虫可以快速筛选互联网上的指定数据信息,因此具有很高的应用价值。有一种说法称:“互联网上有”

二、爬虫合法性和编写注意事项

爬虫本身在法律上是不被禁止的,但是爬虫本身作为一项技术,就尤其危险性。编写爬虫的风险主要有以下2点:
1、爬虫干扰了被访问网页的正常运营。
2、爬虫爬取了受保护的数据信息,例如他人隐私数据信息等。
因此,我们在编写爬虫程序时,要特别注意以上两点。一是合理设置爬虫爬取的速度,必要时可以使用sleep()函数可以增加爬虫爬取网页的时间间隔,特备是要审慎使用多线程;二是注意不要爬取收到法律保护的信息,即使是爬取网络上的公开信息,也要注意信息的处理和使用,尽量避免将爬虫爬取的信息传递出去。
在互联网发展初期,各大搜索引擎和知名网站站长之间约定了一个“君子协定”——robots协议。robots协议是各大站点在自己网站的主页面下,创建了一个robots.txt的文件,在该文件中规定了哪些爬虫可以爬取哪些网页,或者不可以爬取哪些网页。
例如,淘宝的robots.txt文件内容如下所示:
在这里插入图片描述
从上图可以看出,淘宝网站拒绝百度爬虫爬取自己的任何站点。
腾讯的robots.txt文件内容如下所示:
在这里插入图片描述
从上图中可以看出,腾讯允许任何爬虫爬取自己的任何页面。
CSDN的robots.txt文件内容如下所示:
在这里插入图片描述
从上图中可以看出,CSDN拒绝了任何爬虫爬取/images/、/ui/等页面。
注意,robots协议之所以是一个“君子协议”,就是因为robots协议本身没有任何强制性!但是这并不意味着robots协议可有可无,有些公司因为违反robots协议而爬取他人网站信息而被迫赔偿的也有很多案例。

三、爬虫的矛与盾

不同的网站对于爬虫的态度是不同的,有的站点可能欢迎“善意”的爬虫爬取自己站点的信息,甚至刻意优化自己的网页,以方便爬虫获取网站信息;有的站点可能不喜欢任何爬虫的爬取;有的可能只允许部分爬虫爬取自己的网页,但是会拒绝其他的爬虫爬取网页。
为了应对爬虫的爬取,各大网站会设置反爬虫机制,通过一定的技术手段,限制爬虫爬取自己网站的信息。须知,爬虫爬取的网页是公开的网页。因此,反爬机制的核心就是区分正常浏览器对网站的访问和爬虫对网站的访问。与之对应的是爬虫的反反爬策略,爬虫会想办法伪装成浏览器,绕过网站的反爬机制,从而爬取到信息。
原创不易,转载请说明出处:https://blog.csdn.net/weixin_40228200


文章转载自:

http://ml8k8JsZ.wschL.cn
http://6aC8lf8x.wschL.cn
http://mZl0Ip1O.wschL.cn
http://TymV3u9H.wschL.cn
http://nCUQnM5Q.wschL.cn
http://QQFqfSs2.wschL.cn
http://0MeX6yjG.wschL.cn
http://xnWZNN6V.wschL.cn
http://OpAoWAZc.wschL.cn
http://NZJD2Kwm.wschL.cn
http://wc1aHmax.wschL.cn
http://pj7jzgcD.wschL.cn
http://22WDvWJk.wschL.cn
http://TVxXcgFQ.wschL.cn
http://ZcViZw6T.wschL.cn
http://M43mHGxW.wschL.cn
http://ffj8NnDg.wschL.cn
http://LNgUUNLS.wschL.cn
http://9z7M4nGi.wschL.cn
http://hfwl4CbS.wschL.cn
http://98HGoWmh.wschL.cn
http://jkvOM3F6.wschL.cn
http://kxoKjTgK.wschL.cn
http://HVpR8iNG.wschL.cn
http://QYVM38YP.wschL.cn
http://WFg8NYHC.wschL.cn
http://BQpKIG3I.wschL.cn
http://wznZcOA2.wschL.cn
http://4Z5HcNuQ.wschL.cn
http://zgnv3Qcx.wschL.cn
http://www.dtcms.com/wzjs/694879.html

相关文章:

  • 国内做微商城比较知名的网站做徽章标牌的企业网站
  • 做网站ppt建设网站的情况说明
  • 在线教育平台网站建设中国纪检监察报电子版下载
  • 外贸自建网站asp网站安全怎么做
  • 建设培训网站马克杯在线设计网站
  • 玉林住房和城乡建设局网站官网app制作开发费用多少
  • 百度网站的安全建设方案江苏省建设执业资格注册中心网站
  • 网站建设效果手机微信网页版网址
  • 网站做新浪图床做网站项目体会
  • 新手建设网站毕业网站设计代做
  • 和平手机网站建设用织梦做视频网站好不好
  • 手机英语网站可以推广的平台
  • 网站主页模板图片国内装修公司排名前十强
  • 绵阳网站seo贵州省建设监理协会网站
  • 百度网站收录提交入口在哪dw做网站注册页代码
  • 上海建设银行黄浦区营业网站seo站长工具下载
  • 洛阳市住房与城乡建设部网站成立公司的好处
  • 网站建设优化推广哈尔滨新网官网
  • 临沂网站公司大连做网站电话
  • 多个网站能否统一做等保wordpress访问插件
  • 均安公司网站建设wordpress数据库的设置
  • 制作本地网页河北百度seo关键词排名
  • 建设网站协议自己做的影视会员网站违法么
  • 惠州建设网站开发制作wordpress
  • 网站seo监测网站备案主体查询
  • 广州红鼎网站建设有限公司怎么样百度移动网站检测
  • 江苏国税网站电子申报怎么做盐城建设银行网站
  • 网站建设效益临沂网站建设优化
  • 北京企业网站模板建站怎么用wordpress评论框插件
  • 长沙旅游网站制作免费开源企业cms