爬虫基础学习day2
# 爬虫设计领域
- 工商:企查查、天眼查
- 短视频:抖音、快手、西瓜 ---> 飞瓜
- 电商:京东、淘宝、聚美优品、亚马逊 ---> 分析店铺经营决策标题、排名
- 航空:抓取所有航空公司价格 ---> 去哪儿
- 自媒体:采集自媒体数据进行汇总 ---> 新榜
- 外卖:饿了么、美团
# 爬虫基本原理解读
- 数据采集三大领域:网站、app、小程序
- 基本流程:采集数据、提取信息(结构化信息+非结构化数据)、保存数据
# 网络核心请求
- 请求方法
方法 描述 get 请求页面,返回页面内容 head 类似于get请求,只不过返回的响应中无具体内容,用于获取报头
post
用于表单提交、上传文件,数据包含在请求体中 put 从客户端向服务器传送的数据取代指定文档中的内容
delete 请求服务器删除指定的页面 connect 请求服务器当做挑板,让服务器代替客户端访问其他网页 options 允许客户端查看服务器的性能
trace 回显服务器收到的请求,主要用于测试或者诊断 - 请求网址
- 请求头
- 请求体
# 网络响应核心