当前位置: 首页 > news >正文

爬虫:基本流程和robots协议

基本流程:

1.确认目标:url:www.baidu.com

2.发送请求:发送网络请求,获取到特定的服务端给你的响应

3.提取数据:从响应中提取特定的数据

4.保存数据:本地(html,json,txt),数据库

获取到的响应中,有可能会提取到还需要继续发送请求的url,可以拿着解析到的url继续发送请求

robots协议:并不是规范,只是约定俗成的,是一种通过简单文本文件(robots.txt)来规范搜索引擎爬虫等网络机器人对网站内容访问行为的协议。

  1. User - Agent: 用于指定适用的爬虫名称,* 代表所有爬虫。
  2. Disallow: 后面跟禁止访问的路径,例如 /private/ 表示禁止访问所有以 /private/ 开头的目录。
  3. Allow: 用于允许访问特定路径,常常和 Disallow 配合使用。
  4. Sitemap: 可指定网站地图文件的位置,方便爬虫快速发现网站内容。
http://www.dtcms.com/a/102096.html

相关文章:

  • 从零构建大语言模型全栈开发指南:第四部分:工程实践与部署-4.1.1模型量化(INT8/FP16)与剪枝策略
  • 【软考备考】管道一过滤器(Pipe-Filter)的架构风格
  • USB有驱IC卡读卡器
  • Spring中都用到了哪些设计模式
  • 美团小程序 mtgsig1.2 拼好饭案例 分析 mtgsig
  • 六级词汇量积累day13
  • dayjs dayjs时间格式化工具(时间计算、时间格式化)
  • DeepSeek 助力 Vue3 开发:打造丝滑的表格(Table)之添加行拖拽排序功能示例14,TableView16_14 拖拽自动保存示例
  • python leetcode简单练习(1)
  • 【FreeRTOS】任务(TASK)——任务的创建(源码解读)
  • Qt中绘制不规则控件
  • ​Linux 中 nmap 命令详解:从基础到实战的全面指南
  • dfs记忆化搜索刷题 + 总结
  • 如何判断列表a中元素是否在列表b中
  • [leetcode]2685. 统计完全连通分量的数量
  • C++ 结构体、结构体指针与结构体指针数组详解
  • RabbitMQ 的三种集群模式
  • ETL数据集成:企业数字化转型的核心驱动力与实施策略
  • C++ Primer Plus 编程练习题 第五章 循环和关系表达式
  • 22-ArkTs 常见错误
  • DataPlatter:利用最少成本数据提升机器人操控的泛化能力
  • K8S学习之基础六十四:helm常用命令
  • 戴尔电脑安装Ubuntu双系统
  • 设计模式中的“万能转换器”——适配器模式
  • 【AI News | 20250331】每日AI进展
  • 鸿蒙编译构建-多目标产物
  • Scala循环守卫
  • vi编辑器常见命令
  • stm32第十一天外部中断按键控制灯
  • 自定义类型:结构体