当前位置: 首页 > wzjs >正文

学校网站注重服务平台建设信通网站开发中心

学校网站注重服务平台建设,信通网站开发中心,做搜狐网站页面,中国建设银行网站江苏分行一、下载文件和图片 Scrapy中有两个类用于专门下载文件和图片,FilesPipeline和ImagesPipeline,其本质就是一个专门的下载器,其使用的方式就是将文件或图片的url传给它(eg:item[“file_urls”])。使用之前需要在settings.py文件中对其进行声明…

一、下载文件和图片

Scrapy中有两个类用于专门下载文件和图片,FilesPipeline和ImagesPipeline,其本质就是一个专门的下载器,其使用的方式就是将文件或图片的url传给它(eg:item[“file_urls”])。使用之前需要在settings.py文件中对其进行声明其导入路径,并且置于其他ItemPipeline之前。

二、模拟用户登录

有许多网站带有登录功能,并且有的网站必须登录了才能获取信息,故可以利用Scrapy来模拟用户登录的行为,进而自动化获取网页信息。登录实质是向服务器发送含有登录表单数据的HTTP请求。在Scrapy中有一个继承Request基类的FormRequest类,这个类可以帮助我们模拟用户登录的行为。其中最为简单的方式是(将需要登录的信息提前以发送请求的格式设定好,直接使用FormRequest的from_response方法就可以实现):

Fd={“number_phone”:******************,”password”:12334455}

Request=FormRequest.from_response(response,formdata=fd)

在实际应用中,一般将登录和爬取内容进行分开实现,保证逻辑为登录成功后,再爬取网页内容。

除了登录的网页外,网页中可能会出现识别验证码的情况,其设置的目的是为了防止爬虫爬取,故要求用户登录输入验证码。识别验证码的方法有很多,以下是常规的方法:

①OCR识别tesseract-ocr是基于OCR实现的一个验证码识别库,再Python中可以通过第三方库pytesseract进行调用。由于是第三方库故需要对其进行安装下载,,pip install tesseract-ocr,由于其依赖其他的图像处理库,故还需要安装pip install pillow pytesseract

一般这种的识别率不是很高,多在70%~80%之间,且用于识别较为简单的验证码,

②购买服务:对于复杂的验证码其识别较为困难,可以通过借助一些网站实现验证码识别服务(大概为1元钱识别100个验证码),并且这些平台提供HTTP服务接口,用户可以通过HTTP请求将验证码图片发送给平台,平台识别后将结果通过HTTP响应返回。类似的这类平台有阿里云市场上有很多这类服务的识别平台。

③人工识别验证码:在Scrapy下载完验证码图片后,调用image.show()方法将其显示出来,然后调用Python内置函数input,将人工识别的结果进行输入即可。

④利用浏览器的cookie:在使用浏览器登录网站后,包含用户身份信息的Cookie会被浏览器保存在本地,如果Scrapy爬虫能直接使用浏览器中的Cookie发送 HTTP请求,就可以绕过提交表单登录的过程。这个过程需要一直持续到人工登录网站后进行爬取操作。如何获取cookie,在python中直接进行pip install browsercookie即可进行导入并查看浏览器的cookie,使用方法:

Import browsercookie

Cookies=browsercookie.chrome()/firefox()即可

通过浏览器的cookie可以直接进行使用,将BrowserCookieMiddleware源码将其复制到middlewares.py中,并在配置文件中添加如下信息即可,直接使用cookie登录网站进行数据爬取。

USER_agent=”    ”

DOWNLOADER_MIDDLEWARES={
 “scrapy.downloadermiddlewares.cookie.CookieMiddleware”:None,
 “browser_cookie.middlewares.BrowserCookieMiddleware”:701,
}

通过这种方式就可以直接利用一个伪装好的用户代理来实现利用cookie对直接进行网站登录对其进行信息爬取。

http://www.dtcms.com/wzjs/561319.html

相关文章:

  • 江浙沪做网站的公司广州最新静态管理
  • 淘宝优惠券 如果做网站网站开发框架 Wordpress
  • 石河子做网站怎么运行wordpress文件
  • 大企业门户网站建设四川省住房和城乡建设厅网站首页
  • 网站推广策划书范文相亲网站怎么建设
  • 东莞大朗网站建设哪家口碑好兰陵网站建设
  • 广州网站建设公司小程序做网站如何找客户
  • wordpress网站管理网站建设选择什么模式
  • 酒店网站设计方案衡水做网站的公司
  • 专业提供网站建设服务国际新闻最新消息今天100字
  • 阿里云里面网站建设做一个微商城要多少钱
  • 两个人做类似的梦 网站装修风格效果图小户型
  • 邢台网站建设与制作定制网站建设提供商
  • 做一家开发网站的公司简介红光网站建设
  • 杭州桐庐网站建设中企动力地址
  • 纯flash网站价格重庆互联网公司招聘信息
  • 四川住房和建设厅网站做网站的费用如何写分录
  • 合肥红酒网站建设如何管理wordpress网站模板
  • 深圳集团网站建设公司分销系统软件
  • 自己建网站流程要学什么免费网站建设力荐 186一6159一6345绘政正规
  • 制作网站需要哪些工作手机 网站开发软件有哪些
  • 广州站八个字凡科网 免费网站
  • 网站设计描述免费个人网站平台
  • 简述电子商务网站开发过程广州pc网站建设
  • 网站建设综合做任务免费领取东西的网站
  • wordpress网站维护成都网页设计
  • 网站安全狗服务名做神马网站优化快速
  • 企业网站添加图片天翼云免费服务器
  • 中国建设银行官网首页 网站聊城app制作网站
  • 宜春网站设计公司wordpress主题Qinmei