当前位置: 首页 > news >正文

爬虫基础学习day2

# 爬虫设计领域

  • 工商:企查查、天眼查
  • 短视频:抖音、快手、西瓜 ---> 飞瓜
  • 电商:京东、淘宝、聚美优品、亚马逊 ---> 分析店铺经营决策标题、排名
  • 航空:抓取所有航空公司价格 ---> 去哪儿
  • 自媒体:采集自媒体数据进行汇总 ---> 新榜
  • 外卖:饿了么、美团

# 爬虫基本原理解读

  • 数据采集三大领域:网站、app、小程序
  • 基本流程:采集数据、提取信息(结构化信息+非结构化数据)、保存数据

# 网络核心请求

  1. 请求方法
    方法描述
    get请求页面,返回页面内容
    head

    类似于get请求,只不过返回的响应中无具体内容,用于获取报头

    post

    用于表单提交、上传文件,数据包含在请求体中
    put

    从客户端向服务器传送的数据取代指定文档中的内容

    delete请求服务器删除指定的页面
    connect请求服务器当做挑板,让服务器代替客户端访问其他网页
    options

    允许客户端查看服务器的性能 

    trace回显服务器收到的请求,主要用于测试或者诊断

  2. 请求网址
  3. 请求头
  4. 请求体

# 网络响应核心

相关文章:

  • Electron简介(附电子书学习资料)
  • day030-Shell自动化编程-函数
  • Electron 防脱壳转二进制 JSC 打包过程以及踩坑记录
  • 【向量库】Weaviate 搜索与索引技术:从基础概念到性能优化
  • 二维数组 行列混淆区分 js
  • 第十四届“中国软件杯”大学生软件设计大赛启幕,A9赛题解析会6月12日开课
  • MODBUS TCP转CANopen 技术赋能高效协同作业
  • NoSQL 之 Redis 集群
  • Java基于BS架构的OA流程可视化实战:从工作流引擎到前端交互(附完整源代码+论文框架)
  • 【Rust TCP编程】Rust网络编程之TCP编程语法解析与应用实战
  • Linux C语言网络编程详细入门教程:如何一步步实现TCP服务端与客户端通信
  • 如何让非 TCP/IP 协议驱动屏蔽 IPv4/IPv6 和 ARP 报文?
  • gephi绘制网络拓扑图:批量给节点着色
  • spring boot使用HttpServletResponse实现sse后端流式输出消息
  • 代理篇12|深入理解 Vite中的Proxy接口代理配置
  • validate校验的使用
  • 50、文件上传-单文件与多文件上传的使用
  • 使用大模型预测巨细胞病毒视网膜炎的技术方案
  • JavaScript 标签加载
  • QT 第三讲 --- 基础篇 初用信号槽与命名规范
  • 企业如何选择网站/百度的官方网站
  • html5网站建站书/长沙网
  • 什么网站没人做/sem是什么测试
  • 公司网站建设有什么好处/全媒体运营师
  • 网站建设协议书 印花税/优化是什么梗
  • 网站内容运营/今天重大新闻国内最新消息