当前位置: 首页 > news >正文

网络爬虫-2:基础与理论

一.同步加载与异步加载

1.1同步加载定义:

页面所有内容一起加载出来,当某一个数据加载有问题,整个页面就不会加载出来(如HiFiNi音乐网站),所以又叫阻塞模式

1.2爬取步骤:

看netword->document

2.1异步加载定义:

数据是分开加载的,当某一份数据有异常时,不影响其他数据的加载呈现,所以又叫非阻塞模式

2.2爬取步骤:

看network->XHR/fetch

3.区分:

看左上角的刷新按钮:
1.动了:同步
2.没动:异步

二.网页数据返回方式

1.直接返回网页文本--HTML
2.Ajax加载 --json
3.JavaScript渲染--json

三.爬虫步骤

1.检查网页是同步加载还是异步加载

我们要实战的网页url:HiFiNi - 音乐磁场,经检测在翻页时,左上角的刷新按钮动了,所以是同步加载,所以我们要从network中的document获取我们要爬取的内容

2.实战

1.右击网页,点击检查

2.点开network中的doc,并点击左上角的刷新按钮,点开index-1.htm文档

3.在headers中看到Request url,Request Method 在看Response

相关文章:

  • 论文阅读笔记:Denoising Diffusion Probabilistic Models (3)
  • C语言中*a与a的区别和联系
  • 数据结构——B树、B+树、哈夫曼树
  • 安全测试理论
  • JavaScript 性能优化实战
  • 【云馨AI-大模型】自动化部署Dify 1.1.2,无需科学上网,Linux环境轻松实现,附Docker离线安装等
  • 【C++教程】setw()函数的使用方法
  • 深入理解Linux中的SCP命令:使用与原理
  • Hutool中的相关类型转换
  • 山东大学数据结构课程设计
  • linux--时区查看和修改
  • 动态规划-01背包
  • 牛客网【模板】二维差分(详解)c++
  • 分区表的应用场景与优化实践
  • 001-JMeter的安装与配置
  • 【操作系统笔记】操作系统的功能
  • 【Linux】线程库
  • 常见中间件漏洞攻略-Jboss篇
  • 多线程编程中什么时候使用锁和原子操作
  • Leetcode 3495. Minimum Operations to Make Array Elements Zero
  • 视频丨英伟达总裁黄仁勋:美勿幻想AI领域速胜中国
  • 青海西宁市城西区副区长于媛媛主动投案,接受审查调查
  • 解放日报:持续拿出排头兵姿态先行者担当
  • 兴业银行一季度净赚超237亿降逾2%,营收降逾3%
  • 三大白电巨头去年净利近900亿元:美的持续领跑,格力营收下滑
  • 准80后湖北省财政厅副厅长徐晶华已调任襄阳市副市长