当前位置: 首页 > news >正文

杭州做网站哪个公司好阳江房产网官网查询

杭州做网站哪个公司好,阳江房产网官网查询,wordpress 菜单 导出,网站制作的收费一、使用HTTP服务代理 由于网络环境、网站对用户的访问速度的限制等原因,使得爬取过程会出现IP被封禁,故使用代理可提高爬取速度。在Scrapy中提供了一个HttpProxyMiddleware专门用于进行爬虫代理设置。在使用该代理进行爬取操作时,需要先在ba…

一、使用HTTP服务代理

由于网络环境、网站对用户的访问速度的限制等原因,使得爬取过程会出现IP被封禁,故使用代理可提高爬取速度。在Scrapy中提供了一个HttpProxyMiddleware专门用于进行爬虫代理设置。在使用该代理进行爬取操作时,需要先在bash中设置好系统环境变量,然后使用该代理设置自动默认获取*****_proxy的路径作为代理路径此外,还可以实现使用多个代理。

二、redis使用

在Ubuntu中使用apt-get对redis进行安装。

其安装指令为:sudo apt-get install redis-server

其开启/重启、停止服务器指令为:sudo service redis-server start/restart/start

redis默认在127.0.0.1:6379上开启服务,可以使用netstat -ntl命令进行查询。如果想让其他的计算机被监听和访问,可以在redis配置文件/etc/redis/redis.conf中对监听地址进行修改和扩展,使用redis-cli-h IP地址 -p 端口号,来链接服务器;查看链接数据库是否成功使用PING,若返回PONG,则说明连接成功。相关redis的官方文档为:Redis - The Real-time Data Platform

redis支持五种Key类型:字符串、列表、字典,有序字典、哈希。此外,除了在ubuntu中可以使用redis,在python中也可使用redis,使用sudo pip install redis即可,然后import redis导入使用即可。

三、通过Scrapy实现分布式爬取

使用scrapy-redis实现分布式爬取,分布式的本质就是“人多力量大”,首先找到可以使用的多个LINIX主机并获取各主机的IP地址,然后在各个主机中安装scrapy和scrapy-redis

安装指令为:pip install scarpy;pip install scrapy-redis,从多个主机中选择一个作为供所有爬虫使用的redis数据库,并在该主机上安装redis-server;然后在redis配置文件(/etc/redis/redis.conf)中修改服务器的地址,确保该数据库能被所有的爬虫进行访问;然后重启redis服务器即可。然后测试多个主机能否访问设定为redis数据库的主机(redis-cli -h IP地址 ping,返回为PONG则说明连接成功)

http://www.dtcms.com/a/463504.html

相关文章:

  • 漳浦县建设局网站济南个人制作网站
  • 湖北望新建设有限公司网站网站建设服务器费用
  • 厦门学网站建设美食网页界面设计
  • 自己做的网站如何上首页设计与绘制一个网站首页
  • redis的红锁
  • 网站空间的控制面板首页如何添加网站代码
  • 电商网站的成本做网站的视频
  • Python实例方法与Python类的构造方法全解析
  • 网站关键词突然搜不到了标签在数据库wordpress
  • 公司网站 正式上线asp网站有哪些
  • 免费凡科网站wordpress程序覆盖
  • 小说网站建设费用wordpress局部刷新
  • 写作网站推荐行业信息网站有哪些
  • 单页网站如何做杭州软件开发
  • 招聘网站怎么做介绍成都网站开发 Vr
  • 计算机视觉 图像分类 → 目标检测 → 实例分割
  • 免费建站哪个好网站搭建报价
  • 天津百度网站快速排名深圳平面设计招聘
  • 媒体村网站建设怎么做网站教程 用的工具
  • 汽车软件开发的质量和安全管理流程
  • 数据库查询网站建设广点通广告投放平台
  • 东莞网站建设方案外包城市门户网站建设
  • 深圳电子烟网站建设网站开发的基本流程
  • 百度地图手机网站代码wordpress去除分类目录
  • dw 做网站图片之间的链接怎么查看网站是哪个公司建的
  • 深圳营销型网站建设烟台市做网站
  • 做服装团购网站怎样做音乐网站
  • 给别人做网站的销售叫什么软件网站建设与运营实训总结
  • 做网站好的老网站301跳转新网站
  • 上海做高端网站建设网络平台制作方法