当前位置：首页 > news >正文

爬虫：基本流程和robots协议

news 2025/9/24 11:08:50

基本流程：

1.确认目标：url:www.baidu.com

2.发送请求：发送网络请求，获取到特定的服务端给你的响应

3.提取数据：从响应中提取特定的数据

4.保存数据：本地(html,json,txt)，数据库

获取到的响应中，有可能会提取到还需要继续发送请求的url，可以拿着解析到的url继续发送请求

robots协议：并不是规范，只是约定俗成的，是一种通过简单文本文件（robots.txt）来规范搜索引擎爬虫等网络机器人对网站内容访问行为的协议。

USB有驱IC卡读卡器

Spring中都用到了哪些设计模式

六级词汇量积累day13

python leetcode简单练习(1)

Qt中绘制不规则控件

dfs记忆化搜索刷题 + 总结

如何判断列表a中元素是否在列表b中

RabbitMQ 的三种集群模式

22-ArkTs 常见错误

K8S学习之基础六十四：helm常用命令

戴尔电脑安装Ubuntu双系统

【AI News | 20250331】每日AI进展

鸿蒙编译构建-多目标产物

Scala循环守卫

vi编辑器常见命令

stm32第十一天外部中断按键控制灯

自定义类型：结构体