当前位置: 首页 > wzjs >正文

网站建设申请百度热榜

网站建设申请,百度热榜,做留言的网站,胶州网站建设公司从今天开始,给大家介绍Python爬虫相关知识,今天主要内容是爬虫的基础理论知识。 一、爬虫简介 爬虫是指通过编写程序,来模拟浏览器访问Web网页,然后通过一定的策略,爬取指定内容。因此,爬虫的编写通常分为…

从今天开始,给大家介绍Python爬虫相关知识,今天主要内容是爬虫的基础理论知识。

一、爬虫简介

爬虫是指通过编写程序,来模拟浏览器访问Web网页,然后通过一定的策略,爬取指定内容。因此,爬虫的编写通常分为两个部分,第一部分是更好的模拟浏览器,第二部分是在爬虫爬取的网页信息中,通过一定的方法,提取出我们想要的数据。
爬虫可以快速筛选互联网上的指定数据信息,因此具有很高的应用价值。有一种说法称:“互联网上有”

二、爬虫合法性和编写注意事项

爬虫本身在法律上是不被禁止的,但是爬虫本身作为一项技术,就尤其危险性。编写爬虫的风险主要有以下2点:
1、爬虫干扰了被访问网页的正常运营。
2、爬虫爬取了受保护的数据信息,例如他人隐私数据信息等。
因此,我们在编写爬虫程序时,要特别注意以上两点。一是合理设置爬虫爬取的速度,必要时可以使用sleep()函数可以增加爬虫爬取网页的时间间隔,特备是要审慎使用多线程;二是注意不要爬取收到法律保护的信息,即使是爬取网络上的公开信息,也要注意信息的处理和使用,尽量避免将爬虫爬取的信息传递出去。
在互联网发展初期,各大搜索引擎和知名网站站长之间约定了一个“君子协定”——robots协议。robots协议是各大站点在自己网站的主页面下,创建了一个robots.txt的文件,在该文件中规定了哪些爬虫可以爬取哪些网页,或者不可以爬取哪些网页。
例如,淘宝的robots.txt文件内容如下所示:
在这里插入图片描述
从上图可以看出,淘宝网站拒绝百度爬虫爬取自己的任何站点。
腾讯的robots.txt文件内容如下所示:
在这里插入图片描述
从上图中可以看出,腾讯允许任何爬虫爬取自己的任何页面。
CSDN的robots.txt文件内容如下所示:
在这里插入图片描述
从上图中可以看出,CSDN拒绝了任何爬虫爬取/images/、/ui/等页面。
注意,robots协议之所以是一个“君子协议”,就是因为robots协议本身没有任何强制性!但是这并不意味着robots协议可有可无,有些公司因为违反robots协议而爬取他人网站信息而被迫赔偿的也有很多案例。

三、爬虫的矛与盾

不同的网站对于爬虫的态度是不同的,有的站点可能欢迎“善意”的爬虫爬取自己站点的信息,甚至刻意优化自己的网页,以方便爬虫获取网站信息;有的站点可能不喜欢任何爬虫的爬取;有的可能只允许部分爬虫爬取自己的网页,但是会拒绝其他的爬虫爬取网页。
为了应对爬虫的爬取,各大网站会设置反爬虫机制,通过一定的技术手段,限制爬虫爬取自己网站的信息。须知,爬虫爬取的网页是公开的网页。因此,反爬机制的核心就是区分正常浏览器对网站的访问和爬虫对网站的访问。与之对应的是爬虫的反反爬策略,爬虫会想办法伪装成浏览器,绕过网站的反爬机制,从而爬取到信息。
原创不易,转载请说明出处:https://blog.csdn.net/weixin_40228200

http://www.dtcms.com/wzjs/31398.html

相关文章:

  • 网站开发建设与维护谷歌网页版
  • 什么事网站建设南京seo网络优化公司
  • html5 网站案例360搜图片识图
  • 网站链接怎么做标记商城全网推广运营公司
  • 网站建设seo营销策划
  • 做网站外包公司seo整站优化吧
  • 济南轻电商网站建设公司360优化大师安卓手机版下载安装
  • 做优秀网站淘宝店铺怎么运营
  • 一个人建网站app推广80元一单
  • 苏州市吴中区住房和城乡建设局官方网站房地产新闻最新消息
  • 彩网站开发网站优化包括哪些内容
  • 丰城建设网站怎么搭建自己的网站
  • 湖南省金力电力建设有限公司 网站市场营销产品推广策划方案
  • 网站长图怎么做seo专业培训费用
  • 用front page2003做网站的导航条今日国际军事新闻
  • 刚开始的网站开发公司小吃培训2000元学6项
  • javaweb网站开发今日新闻头条新闻最新
  • 做动态网站的软件微信广告投放平台
  • 全国知名网站建设亚马逊seo关键词优化软件
  • 大气公司网站源码营销型网站建设专家
  • 公司网站建设开发维护工作总结网络服务提供者
  • 建站排名网站收录提交入口大全
  • 怀柔网站建设优化seo关键词网站
  • 石狮网站定制武汉seo排名
  • 无锡市住房城乡建设委网站优化神马网站关键词排名价格
  • 网站首页的动态怎么做网站关键词优化排名软件
  • 网站怎么做聚合天津天狮网络营销课程
  • 做相册本哪个网站好用什么是搜索引擎销售
  • 如何做网站主页新闻软文广告
  • 做快三网站培训方案怎么做