当前位置: 首页 > news >正文

Python爬虫07_Requests爬取图片

一、爬取网页图片

即用 requests 下载一张网络图片,并以当前时间戳作为文件名保存到本地,初步理解实现程序化自动爬取图片数据。

import requests
import time
import datetimeif __name__ == "__main__":#爬取图片数据url = 'https://pics5.baidu.com/feed/023b5bb5c9ea15ce37c1c2b207b6b5fe3b87b2a5.jpeg@f_auto?token=be26647100a6ad7e4a182c2f70dcebf7'#伪造userAgentuserAgent = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:122.0) Gecko/20100101 Firefox/122.0'}#content返回的是二进制形式的图片数据#text(字符串),content(二进制),json()(对象)imgData = requests.get(url=url,headers=userAgent).content#获取当前日期和时间,时间戳形式current_time = time.time()current_timeStr = str(current_time)print("当前时间戳为:", current_timeStr)print('------------------------------------------------------------------')#获取当前时间,格式化可读形式dataTime = datetime.datetime.now()print("格式化时间为:", dataTime)print('------------------------------------------------------------------')#时间戳还原成可读日期时间格式timestamp = 1708009107.9769785  # 输入要还原的时间戳dt_object = datetime.datetime.fromtimestamp(timestamp)formatted_time = dt_object.strftime('%Y-%m-%d %H:%M:%S')print("还原后的时间为:", formatted_time)print('------------------------------------------------------------------')with open('E:/Reptile/img/'+ current_timeStr +'.jpeg','wb') as fp:fp.write(imgData)print("over! 保存成功!")

二、图片数据解析

必须以二进制方式返回图片数据的核心原因是:图片文件在底层就是一串原始字节(binary stream),而不是文本字符串;任何字符编码(如 UTF-8、GBK)都会破坏这些字节的原始顺序,导致图片打不开或损坏。
1、图片不是文本
text 属性会把服务器返回的内容先按某种字符编码(默认 UTF-8)解码成字符串,遇到非文本字节就可能丢码、替换或截断,从而破坏图片格式。
2、二进制 = 无损拷贝
使用 .content 直接拿到 未经任何编码转换的原始字节,写入文件时才能 1:1 还原服务器发来的位图数据。
3、文件系统写图片需要 bytes
open(…, ‘wb’) 要求写入 bytes 类型;如果误用 text(str 类型),Python 会尝试用默认编码把字符串再编码成字节,结果必然失真。

二进制是保证图片完整性的唯一正确方式。

http://www.dtcms.com/a/307515.html

相关文章:

  • 基于Spring Boot实现中医医学处方管理实践
  • 【05】大恒相机SDK C#开发 —— Winform中采集图像并显示
  • 金融分类提示词演示
  • 【03】大恒相机SDK C#开发 —— 回调采集图像,关闭相机
  • STM32学习记录--Day4
  • TOC-Transformer-LSTM-ABKDE,计算机一区算法龙卷风优化算法应用到概率区间预测!Matlab实现
  • 九识智能与星逻智能达成战略合作,共推“无人车 + 无人机”空地一体巡检升级
  • Java中的“Dead Code”
  • 基于 Amazon Nova Sonic 和 MCP 构建语音交互 Agent
  • set_max_delay为何失效了?
  • Python爬虫06_Requests政府采购严重违法失信行为信息记录爬取
  • 全栈:怎么把IDEA和Maven集成一下?
  • 【盘古100Pro+开发板实验例程】FPGA学习 | 基于紫光 FPGA 的键控 LED 流水灯
  • 水库泄洪声光电监测预警系统解决方案
  • Kubernetes (K8s) 部署资源的完整配置OceanBase
  • sqli-labs:Less-13关卡详细解析
  • C 语言结构体深度解析:从数据聚合到内存管理的全维度指南
  • 数据库学习------数据库事务的特性
  • ubuntu22.04系统入门 linux入门 简单命令基础复习 实现以及实践
  • Cesium 快速入门(四)相机控制完全指南
  • 【Django】-1- 开发项目搭建
  • Java Matcher对象中find()与matches()的区别
  • sqli-labs:Less-15关卡详细解析
  • 10.C 语言内存划分,static,字符串
  • MFC CChartCtrl编程
  • 逻辑回归的应用
  • 【人工智能】当AI智能体遇上安全与伦理:一场技术与人性的对话
  • 3DXML 转换为 UG 的技术指南及迪威模型网在线转换推荐
  • arm架构系统打包qt程序--麒麟操作系统为例
  • 递归混合架构(MoR)在医疗领域的发展应用能力探析