当前位置: 首页 > wzjs >正文

装饰公司怎么做微网站百度首页网站推广多少钱一年

装饰公司怎么做微网站,百度首页网站推广多少钱一年,wordpress类似网站,域名信息目的 通过编写程序爬取互联网上的优质资源 爬虫必须要使用python吗 非也~ 编程语言知识工具,抓取到数据才是目的,而大多数爬虫采用python语言编写的原因是python的语法比较简单,python写爬虫比较简单!好用!而且pyt…

目的

通过编写程序爬取互联网上的优质资源

爬虫必须要使用python吗

非也~

编程语言知识工具,抓取到数据才是目的,而大多数爬虫采用python语言编写的原因是python的语法比较简单,python写爬虫比较简单!好用!而且python有很多第三方支持的库。很多繁琐复杂的工作直接交给这些第三方库就可以,自己不需要做这些额外的准备工作只需要导入库就好

爬虫合法吗

爬虫在法律上不禁止,但是有违反的风险(类比菜刀,法律上允许菜刀的存在,但是有人会使用菜刀做一些非法的事)

爬虫分为善意的和恶意的,如下图所示

反爬机制

门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取,如加密机制

反反爬机制

爬虫程序通过制定相关的策略或者技术手段,破解门户网站的反爬机制,获取门户网站的相关数据

robots.txt协议

君子协议(防君子不防小人),规定了网站中哪些数据可以被爬虫爬取,哪些数据不可以被爬取,所有网站的君子协议所在地都是,网站名后加子目录/robots.txt,如下面的百度的君子协议

网址:https://www.baidu.com/robots.txt

第一个爬虫程序

使用工具:pycharm

爬取百度页面的资源

代码:

from urllib.request import urlopen
url = "https://www.baidu.com"
response = urlopen(url)#打开网址会返回响应的数据
#response.read()读取响应回的数据中的内容(内容是字节的形式,所以要解码成文字)
with open("myBaidu.html", mode="w",encoding="utf-8") as f:#写入模式f.write(response.read().decode("utf-8"))

保存文件中的内容:

 点击谷歌浏览器,对爬取到的html页面进行打开

结果如下图,和真正的百度页面完全相同

为什么拿到的是html代码,浏览器页面显示却不是?

其实浏览器拿到的也是html代码,只是浏览器会把html代码(源代码)运行成正常的页面动画及数据,因此爬虫读取到的实际上是网页的源代码

http://www.dtcms.com/wzjs/391126.html

相关文章:

  • 佛山的网站建设公司新闻式软文
  • WordPress单栏二次元主题天津优化代理
  • 网站的付款链接怎么做网上推广app怎么做
  • 医院网站源码asp站长工具 seo综合查询
  • wordpress怎么打删除线班级优化大师免费下载安装
  • 医院网站建设费用宁波网络推广联系方式
  • 北京高端网站设计外包公司四川seo快速排名
  • 订阅号如何做微网站网络推广方法技巧
  • 专注营销型网站建设公司 做网站网络品牌营销
  • 做设计什么兼职网站宁波seo搜索平台推广专业
  • 开装潢公司做网站品牌营销推广方案
  • 网站建设要学哪些软件有哪些优化视频
  • 瑞昌市建设局网站b2b电商平台有哪些
  • 柳市做网站的公司北京网站优化策略
  • 商业网站制作教程免费网站在线客服软件
  • 产品包装设计网站找谁做廊坊百度关键词优化
  • 做网站公司共有几处密码千万不要学网络营销
  • 网站上的销售怎么做的互联网产品运营推广方案
  • 诚信宁津建设网站谷歌seo优化推广
  • 企业微信网站怎么做百度小说风云榜2022
  • 网站改版后新版前台如何跟旧版后台链接上海网络营销seo
  • 小企网站建设解决方案免费seo优化
  • 旅游推荐网站怎么做企业网站有哪些类型
  • 嘉兴型网站系统总部推广渠道有哪些平台
  • 网站建设专题会议seo推广效果
  • 网站建设的什么是网站建设的第一阶段品牌广告视频
  • 网站优化连云港哪家强?seo推广软件排名
  • 顺德门户网站建设公司如何查看一个网站的访问量
  • 企业网站明细费用重庆网站推广专家
  • 企业网站设计有名 乐云seo谷歌搜索引擎大全