当前位置: 首页 > news >正文

爬虫:基本流程和robots协议

基本流程:

1.确认目标:url:www.baidu.com

2.发送请求:发送网络请求,获取到特定的服务端给你的响应

3.提取数据:从响应中提取特定的数据

4.保存数据:本地(html,json,txt),数据库

获取到的响应中,有可能会提取到还需要继续发送请求的url,可以拿着解析到的url继续发送请求

robots协议:并不是规范,只是约定俗成的,是一种通过简单文本文件(robots.txt)来规范搜索引擎爬虫等网络机器人对网站内容访问行为的协议。

  1. User - Agent: 用于指定适用的爬虫名称,* 代表所有爬虫。
  2. Disallow: 后面跟禁止访问的路径,例如 /private/ 表示禁止访问所有以 /private/ 开头的目录。
  3. Allow: 用于允许访问特定路径,常常和 Disallow 配合使用。
  4. Sitemap: 可指定网站地图文件的位置,方便爬虫快速发现网站内容。

相关文章:

  • 从零构建大语言模型全栈开发指南:第四部分:工程实践与部署-4.1.1模型量化(INT8/FP16)与剪枝策略
  • 【软考备考】管道一过滤器(Pipe-Filter)的架构风格
  • USB有驱IC卡读卡器
  • Spring中都用到了哪些设计模式
  • 美团小程序 mtgsig1.2 拼好饭案例 分析 mtgsig
  • 六级词汇量积累day13
  • dayjs dayjs时间格式化工具(时间计算、时间格式化)
  • DeepSeek 助力 Vue3 开发:打造丝滑的表格(Table)之添加行拖拽排序功能示例14,TableView16_14 拖拽自动保存示例
  • python leetcode简单练习(1)
  • 【FreeRTOS】任务(TASK)——任务的创建(源码解读)
  • Qt中绘制不规则控件
  • ​Linux 中 nmap 命令详解:从基础到实战的全面指南
  • dfs记忆化搜索刷题 + 总结
  • 如何判断列表a中元素是否在列表b中
  • [leetcode]2685. 统计完全连通分量的数量
  • C++ 结构体、结构体指针与结构体指针数组详解
  • RabbitMQ 的三种集群模式
  • ETL数据集成:企业数字化转型的核心驱动力与实施策略
  • C++ Primer Plus 编程练习题 第五章 循环和关系表达式
  • 22-ArkTs 常见错误
  • 国际购物网站有哪些/百度快照客服
  • 怎么自己在电脑上做网站/国外搜索引擎优化
  • 最新获取网站访客qq接口/中国十大电商培训机构
  • e4a做网站软件/上海seo顾问推推蛙
  • 个人网站做企业备案/郑州企业网络推广外包
  • 网站设置密码进入/吸引人的软文标题例子