当前位置: 首页 > news >正文

爬虫基础学习-robots协议,以及request各种请求方式的实操

1、robot协议
爬虫协议:告诉爬虫or搜索引擎,哪些可以爬 哪些不能爬
robot.txt(一般就在根目录下)

User-agent:*
Disallow: /ulink?
Allow:/public

2、robots.txt敏感信息泄露:/admin;漏洞级别:中危or低危

3、robotparser模块:用于解析robots.txt

#!/usr/bin/env python3import urllib.robotparser
from urllib.robotparser import RobotFileParserurl = 'https://www.baidu.com/robots.txt'# 创建一个RobotFileParser用于解析robots.txt协议
robot_Parser = urllib.robotparser.RobotFileParser()
robot_Parser.set_url(url)# 读取并解析robots.txt协议
robot_Parser.read()# 检查是否可以爬起特定的URL
user_agent = 'BaiduSpider'
check_url = 'https://www.baidu.com/baidu'# can_fetch
if robot_Parser.can_fetch(user_agent, check_url):print("可以爬取")
else:print("不可以爬取")

requests各种请求方式

#!/usr/bin/env python3import requestsurl_1 = 'http://httpbin.org/get'
url_2 = 'http://httpbin.org/post'# 1、########get
req = requests.get(url_1)
print(req.text)# 2、########添加参数的get
data = {'name': 'handsome_boy_wangbo','age': '23'
}
req = requests.get(url_1, data)
print(req.text)# 3、########post
data = {'name': 'handsome_boy_wangbo','age': '23'
}
req = requests.post(url_2, data)
print(req.text)r1 = requests.delete('http://httpbin.org/delete')
r2 = requests.head('http://httpbin.org/head')
r3 = requests.options('http://httpbin.org/options')
r4 = requests.put('http://httpbin.org/put')headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/139.0.0.0 Safari/537.36'
}req = requests.get('https://www.baidu.com/', headers=headers)
print(req.text)
http://www.dtcms.com/a/346784.html

相关文章:

  • 解决Conda访问官方仓库失败:切换国内镜像源的详细教程
  • Python爬虫入门指南:从零开始的网络数据获取之旅
  • 【51单片机】【protues仿真】基于51单片机冰箱系统
  • MYSQL-约束
  • 自学嵌入式第二十六天:数据结构-哈希表、内核链表
  • 【Day 11】238.除自身以外数组的乘积
  • Trae 编辑器在 Python 环境缺少 Pylance,怎么解决
  • 构建现代高并发服务器:从内核机制到架构实践
  • Spring把「手动」的复杂裹成了「自动」的温柔
  • PostgreSQL15——查询详解
  • 【51单片机】【protues仿真】基于51单片机宠物投食器系统
  • Qt图像裁剪实时显示尺寸实现
  • Qt5 高级功能
  • 当 AI 学会 “理解” 人类:自然语言处理的进化与伦理边界
  • 商品与股指类ETF期权买卖五档Tick分钟级历史行情数据分析
  • 【KO】前端面试三
  • GPT-5:天变了吗?还是风停了?
  • 基于Python的农作物病虫害防治网站 Python+Django+Vue.js
  • MySQL奔溃,InnoDB文件损坏修复记录
  • [2025CVPR-目标检测方向]PointSR:用于无人机视图物体检测的自正则化点监控
  • 尤弥尔传奇能够进行挂机搬砖吗?
  • AI实现超级客户端打印 支持APP 网页 小程序 调用本地客户端打印
  • 爬小红书图片软件:根据搜索关键词,采集笔记图片、正文、评论等
  • Angular初学者入门第三课——工厂函数(精品)
  • 游戏广告投放数据分析项目:拆解投放的“流量密码”
  • kail的浏览器连接不上网
  • 20250823给荣品RD-RK3588开发板刷Rockchip原厂的Buildroot【linux-5.10】时调通AP6275P的WIFI【源码部分】
  • 从 M4S 到 MP4:用 FFmpeg 轻松合并音视频文件
  • 达梦数据库统计信息收集
  • 无人机光伏巡检误检率↓79%!陌讯多模态融合算法在组件缺陷检测的落地优化