当前位置: 首页 > news >正文

使用Urllib库创建第一个爬虫程序

Urllib 是 Python 的标准库,它提供了一系列用于处理 URL 的函数和类,包括发送 HTTP 请求、处理 HTTP 响应、解析 URL 等功能。可以使用 urllib 来编写简单的网络爬虫。

request:它是最基本的HTTP请求模块,可以用来模拟发送请求。只需要给库方法传入URL以及额外的参数,就可以模拟实现请求过程了。

error:异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行修正。

parse:一个工具模块,提供了许多URL处理方法,比如拆分、解析、合并等。

robotparser:主要是用来识别网站的robots.txt文件,判断哪些网站可以爬哪些网站不可以爬,其实用得比较少。

代码实现

#第一个爬虫程序
# 使用urllib
from urllib.request import urlopen
url ='http://www.baidu.com/'
# 发送请求,并将结果返回resp
resp = urlopen(url)
print(resp.read().decode())

在以上示例中,我们使用 urlopen() 函数发送了一个 HTTP 请求,并获取了响应。然后,我们使用 read() 函数读取了响应的内容,并使用 decode() 函数将其转换成 UTF-8 编码的字符串。最后,我们打印了响应的内容。

执行结果:

相关文章:

  • 创新研报 | 2024+人工智能安全报告
  • 基于javaweb(springboot+mybatis)生活美食分享平台管理系统设计和实现以及文档报告
  • OD_2024_C卷_100分_70、停车场车辆统计【JAVA】【逻辑分析】
  • 监控API的指标
  • MySQL内置函数
  • 机器学习 - save和load训练好的模型
  • PHP 读取嵌入式数据 SQLite3
  • 一个单生产-多消费模式下无锁方案(ygluu/卢益贵)
  • 数字乡村引领新风尚:科技赋能农村实现全面进步
  • 零基础机器学习(3)之机器学习的一般过程
  • GPT4.0
  • [flask]flask的路由
  • 35 跨域相关问题, 以及常见的解决方式
  • 【笔记】Hbase基础笔记
  • 刚进公司第一天-电脑环境搭建
  • 基于AT89C51单片机的智能交通灯设计
  • APS54083 大功率深度调光降压恒流驱动IC PWM 线性调光 车灯IC
  • 数据加载器
  • AI开源概览及工具使用
  • 在Sequence中缓存Niagara粒子轨道
  • https://app.hackthebox.com/machines/Inject
  • Spring —— Spring简单的读取和存储对象 Ⅱ
  • 渗透测试之冰蝎实战
  • Mybatis、TKMybatis对比
  • Microsoft Office 2019(2022年10月批量许可版)图文教程
  • 《谷粒商城基础篇》分布式基础环境搭建
  • 哈希表题目:砖墙
  • Vue 3.0 选项 生命周期钩子
  • 【车载嵌入式开发】AutoSar架构入门介绍篇
  • 【计算机视觉 | 目标检测】DETR风格的目标检测框架解读