当前位置：首页 > news >正文

爬虫的笔记整理

news 2025/7/7 14:05:02

网络爬虫首先要认识http和https协议

在浏览器中发送一个http请求：

1.输入一个URL地址之后，向http服务器发送请求，主要分为GET和POST两种方法

2.输入URL之后，发送一个request请求，这时候服务器把response文件对象发送回浏览器

3.浏览器中解析返回的HTML，其中引用了许多的其他文件，images，css文件，JS文件等，再次法中request去获取这些内容

4.所有的文件都下载成功之后，就完整的显示出来

URL：统一资源定位符

常用的请求方法

1.get，只将内容从服务器获取下来

2，post，发送数据登录，上传文件等

两种视情况而定，有可能因为反爬虫机制而使用不同的请求方法

请求头常见的参数：

1.User-Agent ：浏览器名称

2.Referer ：表明当前这个请求是从哪个 url 过来的。

3.Cookie ： http 协议是无状态的，需要登录时候使用

网页抓包工具

1.elements，源代码

2，console，控制台

3，sources，所有的源代码

4，network，浏览器发动的所有请求

urillb

1，是python中的一个基本网络请求库，模拟浏览器行为，相关的网络请求都被集中到urllib.request中。

2.urlopen函数.

3.cookie.http请求是无状态的 cookie第一次登录后服务器返回的数据（cookie）到浏览器，保存在本地，第二次就会被浏览器自动识别了

cookie的格式：

Set-Cookie: NAME=VALUE； Expires/Max-age=DATE ； Path=PATH ； Domain=DOMAIN_NAME ；SECUR

NAME ： cookie 的名字。

VALUE ： cookie 的值。

Expires ： cookie 的过期时间。

Path ： cookie 作用的路径。

Domain ： cookie 作用的域名。

SECURE ：是否只在 https 协议下起作用

requests库

发送get的请求

1.用requests.get来调用

2. 添加 headers 和查询参数：

如果想添加 headers ，可以传入 headers 参数来增加请求头中的 headers 信息。如果要将参数

放在 url 中传递，可以利用 params 参数。

发送post的请求：

1.用requests。post来获取

2.传入data数据，传入字典进去（data数据是在需要传入其他内容时使用）

使用代理：

查看全文

http://www.dtcms.com/a/268346.html

在Ubuntu 24.04上部署Zabbix 7.0对服务器进行监控

Grok 4 最新技术评测与发布指南

位置编码和RoPE

光纤的最小弯曲半径是多少？

商业秘密攻防战：技术信息与经营信息的界定之道

基于Flask和机器学习开发的米其林餐厅数据可视化平台

爬虫-request模块使用

CSS05：结构伪类选择器和属性选择器

反向遍历--当你修改一个元素的outerHTML时，该元素会被从 DOM 中移除

大模型RLHF中PPO强化学习代码学习笔记（二）

回环检测 Scan Contex

DolphinScheduler 3.2.0 后端开发环境搭建指南

XML 笔记

极简的神经网络反向传播例子

用户中心Vue3项目开发2.0

Docker 容器编排原理与使用详解

125.【C语言】数据结构之归并排序递归解法

FileZilla二次开发实战指南：C++架构解析与界面功能扩展

操作系统王道考研习题

76、覆盖最小子串

【STM32】通用定时器PWM

漫漫数学之旅046

ThreadLocal的挑战与未来：在响应式编程与虚拟线程中的演变

ARMv8 创建3级页表示例

【嵌入式电机控制#11】PID控制入门：对比例算法应用的深度理解

Python数据容器-str

ch03 部分题目思路

数据驱动实时市场动态监测：让商业决策跑赢时间

端到端矢量化地图构建与规划

Solidity——什么是selfdestruct

相关文章：