当前位置: 首页 > wzjs >正文

网站建设申请网站推广方案策划

网站建设申请,网站推广方案策划,wordpress边栏,网站备案许可证号查询网站从今天开始,给大家介绍Python爬虫相关知识,今天主要内容是爬虫的基础理论知识。 一、爬虫简介 爬虫是指通过编写程序,来模拟浏览器访问Web网页,然后通过一定的策略,爬取指定内容。因此,爬虫的编写通常分为…

从今天开始,给大家介绍Python爬虫相关知识,今天主要内容是爬虫的基础理论知识。

一、爬虫简介

爬虫是指通过编写程序,来模拟浏览器访问Web网页,然后通过一定的策略,爬取指定内容。因此,爬虫的编写通常分为两个部分,第一部分是更好的模拟浏览器,第二部分是在爬虫爬取的网页信息中,通过一定的方法,提取出我们想要的数据。
爬虫可以快速筛选互联网上的指定数据信息,因此具有很高的应用价值。有一种说法称:“互联网上有”

二、爬虫合法性和编写注意事项

爬虫本身在法律上是不被禁止的,但是爬虫本身作为一项技术,就尤其危险性。编写爬虫的风险主要有以下2点:
1、爬虫干扰了被访问网页的正常运营。
2、爬虫爬取了受保护的数据信息,例如他人隐私数据信息等。
因此,我们在编写爬虫程序时,要特别注意以上两点。一是合理设置爬虫爬取的速度,必要时可以使用sleep()函数可以增加爬虫爬取网页的时间间隔,特备是要审慎使用多线程;二是注意不要爬取收到法律保护的信息,即使是爬取网络上的公开信息,也要注意信息的处理和使用,尽量避免将爬虫爬取的信息传递出去。
在互联网发展初期,各大搜索引擎和知名网站站长之间约定了一个“君子协定”——robots协议。robots协议是各大站点在自己网站的主页面下,创建了一个robots.txt的文件,在该文件中规定了哪些爬虫可以爬取哪些网页,或者不可以爬取哪些网页。
例如,淘宝的robots.txt文件内容如下所示:
在这里插入图片描述
从上图可以看出,淘宝网站拒绝百度爬虫爬取自己的任何站点。
腾讯的robots.txt文件内容如下所示:
在这里插入图片描述
从上图中可以看出,腾讯允许任何爬虫爬取自己的任何页面。
CSDN的robots.txt文件内容如下所示:
在这里插入图片描述
从上图中可以看出,CSDN拒绝了任何爬虫爬取/images/、/ui/等页面。
注意,robots协议之所以是一个“君子协议”,就是因为robots协议本身没有任何强制性!但是这并不意味着robots协议可有可无,有些公司因为违反robots协议而爬取他人网站信息而被迫赔偿的也有很多案例。

三、爬虫的矛与盾

不同的网站对于爬虫的态度是不同的,有的站点可能欢迎“善意”的爬虫爬取自己站点的信息,甚至刻意优化自己的网页,以方便爬虫获取网站信息;有的站点可能不喜欢任何爬虫的爬取;有的可能只允许部分爬虫爬取自己的网页,但是会拒绝其他的爬虫爬取网页。
为了应对爬虫的爬取,各大网站会设置反爬虫机制,通过一定的技术手段,限制爬虫爬取自己网站的信息。须知,爬虫爬取的网页是公开的网页。因此,反爬机制的核心就是区分正常浏览器对网站的访问和爬虫对网站的访问。与之对应的是爬虫的反反爬策略,爬虫会想办法伪装成浏览器,绕过网站的反爬机制,从而爬取到信息。
原创不易,转载请说明出处:https://blog.csdn.net/weixin_40228200

http://www.dtcms.com/wzjs/244775.html

相关文章:

  • 装饰工程施工优化网络软件
  • 陕西网站建设多少钱现在推广什么app最挣钱
  • 淘宝网站建设的目的seo是怎么优化
  • 中企动力为什么一直招人黑帽seo365t技术
  • 建设网站选什么地方的主机成都关键词优化报价
  • 国外网站怎么进入seo长尾关键词排名
  • 安徽网站建设推荐 晨飞网络怎么联系地推公司
  • 分类目录网站做排名体验式营销
  • 河南建设监理协会网站6优化排名软件
  • 七宝做网站公司百度关键词优化
  • 各省住房和城乡建设厅网站网站搜索优化公司
  • 建外贸网站用什么主机企业营销策划公司
  • 设计社交网站东莞网站建设市场
  • 有什么网站可以做logo赚钱西安企业seo
  • 做网站需要具备的基础条件国际新闻 军事
  • 网站排名优化服务现在有哪些推广平台
  • 邢台千度网络科技有限公司汉川seo推广
  • 宝宝发烧反反复复什么原因导致的郑州seo外包平台
  • 杭州哪家网站建设比较好重庆seo薪酬水平
  • 上海网站建设公司电重庆seo排名优化费用
  • 营销传播策略朝阳seo
  • 佛山茶叶网站建设有什么推广产品的渠道
  • 移动端网站建设seo类目链接优化
  • 做app和网站sem竞价托管代运营
  • 政府网站建设的安全如何做好网络营销
  • wordpress有广告插件自动seo系统
  • 业务自助下单平台衡阳seo外包
  • 接单做网站怎么开价格武汉seo招聘网
  • 怎么样通过做网站赚钱吗企业官网
  • wordpress 免费中文模板下载地址seo翻译