当前位置：首页 > news >正文

Python爬虫优化实战：高效稳定爬图技巧

news 2025/10/9 13:01:21

Python 爬虫爬取图片优化实战：从 “能用” 到 “好用”，打造高效稳定的全量爬取工具

import requests
import re
import oslast_page = 200
for page in range(1, last_page + 1):# ❗❗ 关键区别：第 1 页与其它页 URL 规则不同if page == 1:url = "https://xxx.xxx.com/"          # 首页else:url = f"https://xxx.xxx.com/index_{page}.html"print(f"\n----- 正在抓取第 {page}/{last_page} 页  {url} -----")headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/140.0.0.0 Safari/537.36 Edg/140.0.0.0"}
response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
# print(response.text)
#上面是requests库的基本用法，下面是正则表达式的用法：# <img src="/uploads/allimg/250614/201508-17499033082071.jpg" alt="美女 坐地板 报纸墙背景 4K壁纸 3840x2160">
pattern = re.compile(r'src="(/uploads/.*?)".*?alt="(.*?)"', re.S)
images = re.findall(pattern, response.text)#下面是os库的用法：
script_dir = os.path.dirname(os.path.abspath(__file__))
path = os.path.join(script_dir, "xxx图网图片获取第1页")
if not os.path.exists(path):os.mkdir(path)for src, name in images:images_url = "https://xxx.xxx.com" + srcname = re.sub(r'[\\/:*?"<>|]', '', name)if not name:name = "未命名"try:image_data = requests.get(images_url, headers=headers, timeout=5).contentwith open(f'{path}/{name}.jpg', 'wb') as f:f.write(image_data)print(f"✅成功下载 {name}.jpg")except Exception as e:print(f"❌下载{name}.jpg失败：{e}")

这是我能爬取一个简单网站的一张图片或者一个页面的图片的Python爬虫代码

import requests
import re
import os
import time
import concurrent.futures
from urllib.parse import urljoin
from tqdm import tqdm  # 进度条库，需安装：pip install tqdmclass Spider:def __init__(self):# 基础配置self.base_url = "https://xxx.xxx.com"self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ""(KHTML, like Gecko) Chrome/140.0.0.0 Safari/537.36 Edg/140.0.0.0","Referer": self.base_url  # 增加Referer反爬}# 创建会话对象，复用TCP连接，提升效率self.session = requests.Session()self.session.headers.update(self.headers)# 存储所有图片信息self.all_images = []# 创建保存目录（当前目录下的"xxx图网图片全量"）self.save_dir = os.path.join(os.path.dirname(os.path.abspath(__file__)), "xxx图网图片全量")os.makedirs(self.save_dir, exist_ok=True)# 爬取控制参数self.max_workers = 5  # 线程池大小，控制并发数self.retry_times = 3  # 失败重试次数self.delay = 0.5  # 请求间隔，避免给服务器过大压力def get_total_pages(self):"""获取总页数，实现真正的全量爬取"""try:response = self.session.get(self.base_url, timeout=10)response.encoding = response.apparent_encoding# 从分页导航中提取最后一页数字# 页面中通常有类似 <a href="index_200.html">末页</a> 的结构pattern = re.compile(r'href="index_(\d+)\.html".*?末页', re.S)match = pattern.search(response.text)if match:total_pages = int(match.group(1))print(f"成功识别总页数：{total_pages}页")return total_pageselse:print("无法识别总页数，使用默认值200页")return 200except Exception as e:print(f"获取总页数失败：{e}，使用默认值200页")return 200def parse_page(self, page):"""解析单页内容，提取图片信息"""try:# 构造URL（首页特殊处理）if page == 1:url = self.base_urlelse:url = f"{self.base_url}/index_{page}.html"# 添加延迟，礼貌爬取time.sleep(self.delay)response = self.session.get(url, timeout=10)response.encoding = response.apparent_encoding# 优化正则表达式，更精准匹配图片pattern = re.compile(r'<img src="(/uploads/.*?)" alt="(.*?)"', re.S)images = re.findall(pattern, response.text)# 处理提取到的图片信息page_images = []for src, name in images:# 构建完整URLimg_url = urljoin(self.base_url, src)# 清洗文件名（移除特殊字符）clean_name = re.sub(r'[\\/:*?"<>|]', '_', name)# 确保文件名不为空if not clean_name.strip():clean_name = f"page_{page}_unknown_{hash(img_url)}"page_images.append((img_url, clean_name))print(f"第{page}页解析完成，找到{len(page_images)}张图片")return page_imagesexcept Exception as e:print(f"解析第{page}页失败：{e}")return []def download_image(self, img_info):"""下载单张图片，带重试机制"""img_url, img_name = img_infofile_path = os.path.join(self.save_dir, f"{img_name}.jpg")# 跳过已下载的图片if os.path.exists(file_path):return (img_name, True, "已存在")# 带重试的下载逻辑for attempt in range(self.retry_times):try:# 流式下载大图片with self.session.get(img_url, stream=True, timeout=15) as response:response.raise_for_status()  # 检查HTTP错误状态码# 写入文件with open(file_path, 'wb') as f:for chunk in response.iter_content(chunk_size=8192):if chunk:  # 过滤空块f.write(chunk)return (img_name, True, "下载成功")except Exception as e:# 最后一次尝试失败才记录错误if attempt == self.retry_times - 1:# 清理可能的损坏文件if os.path.exists(file_path):os.remove(file_path)return (img_name, False, f"下载失败：{str(e)}")# 重试前短暂等待time.sleep(1)def run(self):"""爬虫主入口"""start_time = time.time()# 1. 获取总页数total_pages = self.get_total_pages()# 2. 多线程解析所有页面，获取图片信息print("\n----- 开始解析所有页面 -----")with concurrent.futures.ThreadPoolExecutor(max_workers=self.max_workers) as executor:# 提交所有页面解析任务futures = [executor.submit(self.parse_page, page) for page in range(1, total_pages + 1)]# 收集所有图片信息for future in tqdm(concurrent.futures.as_completed(futures), total=len(futures), desc="解析进度"):page_images = future.result()self.all_images.extend(page_images)print(f"\n所有页面解析完成，共发现{len(self.all_images)}张图片")# 3. 多线程下载所有图片print("\n----- 开始下载所有图片 -----")with concurrent.futures.ThreadPoolExecutor(max_workers=self.max_workers) as executor:# 提交所有下载任务futures = [executor.submit(self.download_image, img_info) for img_info in self.all_images]# 跟踪下载结果success_count = 0fail_count = 0exist_count = 0for future in tqdm(concurrent.futures.as_completed(futures),total=len(futures),desc="下载进度"):img_name, success, msg = future.result()if success:if msg == "已存在":exist_count += 1else:success_count += 1else:fail_count += 1print(f"\n{msg}：{img_name}.jpg")# 4. 输出统计结果end_time = time.time()total_time = end_time - start_timeprint("\n" + "="*50)print(f"爬虫任务完成，总耗时：{total_time:.2f}秒")print(f"总图片数量：{len(self.all_images)}")print(f"成功下载：{success_count}张")print(f"已存在跳过：{exist_count}张")print(f"下载失败：{fail_count}张")print(f"图片保存目录：{self.save_dir}")print("="*50)if __name__ == "__main__":# 实例化并运行爬虫spider = Spider()spider.run()

上面是我进行优化后的Python爬虫代码

在这里插入图片描述

用优化后的代码也不是把全站的代码都爬下来成功了，只爬取了两百页的三千多张照片

下面来进行这次Python爬虫代码原理的深度解析：

进行原来的代码和优化后的代码进行比较分析:

在日常爬虫开发中，我们常遇到这样的问题：随手写的脚本只能爬几页数据，遇到反爬就崩溃，下载效率低下，还容易出现文件损坏 —— 尤其是图片爬取这类对稳定性和效率要求较高的场景。

本文以 “xxx图网全量图片爬取” 为例，从架构重构、效率提升、反爬对抗、异常处理四个维度，详解如何将一个 “能用” 的基础爬虫，优化成 “企业级标准” 的高效工具。文中代码可直接复用，同时涵盖的优化思路也适用于各类数据爬取场景。

一、背景：原始爬虫的痛点与优化目标

先回顾下优化前的基础爬虫逻辑：固定爬取 200 页，单线程请求，缺乏错误处理，文件名直接使用原始文本（含特殊字符），且无法自动识别总页数。

这些设计会导致以下问题：

效率低下：单线程处理，爬取 200 页需等待数小时；
稳定性差：网络波动直接导致任务中断，无重试机制；
功能残缺：固定页数无法实现 “全量爬取”，新页面无法覆盖；
反爬风险高：无请求间隔、无 Referer 头，容易被识别为爬虫；
文件混乱：特殊字符导致文件名无效，重复下载浪费空间。

基于此，我们设定优化目标：

全量爬取：自动识别网站总页数，不遗漏任何页面；
效率翻倍：多线程并发处理，大幅缩短爬取时间；
稳定可靠：完善的重试机制、异常捕获，故障率低于 1%；
反爬友好：模拟真实浏览器行为，降低被封禁风险；
易用可维护：模块化设计，支持快速适配其他图片网站。

二、优化核心：四大维度重构爬虫架构

我们采用面向对象（OOP） 设计，将爬虫拆分为 “配置初始化、页数识别、页面解析、图片下载、任务调度” 五大核心模块，每个模块职责单一，便于维护和扩展。

2.1 架构设计：封装成类，实现状态与逻辑解耦

首先，将所有逻辑封装到Spider类中，通过__init__方法初始化全局配置（如请求头、保存目录、并发数），避免全局变量混乱。

import requests
import re
import os
import time
import concurrent.futures
from urllib.parse import urljoin
from tqdm import tqdm  # 进度条库class Spider:def __init__(self):# 1. 基础配置：网站信息与请求头self.base_url = "https://xxx.xxx.com"  # 目标网站根域名self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ""(KHTML, like Gecko) Chrome/140.0.0.0 Safari/537.36 Edg/140.0.0.0","Referer": self.base_url  # 关键反爬：模拟从首页跳转，避免直接请求被拦截}# 2. 高效请求：复用TCP连接self.session = requests.Session()  # 替代单次requests.get，减少握手开销self.session.headers.update(self.headers)# 3. 数据存储：收集所有图片信息self.all_images = []# 4. 文件管理：自动创建保存目录（绝对路径）self.save_dir = os.path.join(os.path.dirname(os.path.abspath(__file__)),  # 脚本所在目录"xxx图网图片全量"  # 自定义文件夹名)os.makedirs(self.save_dir, exist_ok=True)  # 不存在则创建，存在则跳过# 5. 爬取控制：平衡效率与反爬self.max_workers = 5  # 并发数（建议5-10，过高易被封）self.retry_times = 3  # 失败重试次数（网络波动容错）self.delay = 0.5  # 页面请求间隔（秒），礼貌爬取

核心优势：

全局配置集中管理，后续适配其他网站（如 “摄图网”）时，只需修改base_url和解析规则；
requests.Session()复用 TCP 连接，比单次请求效率提升 30% 以上（尤其多页面爬取场景）；
os.makedirs(exist_ok=True)避免 “目录已存在” 的报错，无需手动判断。

2.2 全量爬取：自动识别总页数，告别 “固定页数”

原始爬虫硬编码 “200 页”，无法应对网站更新（如新增页面）。我们通过解析 “末页” 链接，动态获取总页数，实现真正的 “全量爬取”。

def get_total_pages(self):"""从首页分页导航中提取总页数"""try:# 发起首页请求（获取分页信息）response = self.session.get(self.base_url, timeout=10)response.encoding = response.apparent_encoding  # 自动识别编码（解决乱码）# 正则匹配“末页”链接：如 <a href="index_200.html">末页</a># 捕获组(\d+)提取页数数字pattern = re.compile(r'href="index_(\d+)\.html".*?末页', re.S)match = pattern.search(response.text)if match:total_pages = int(match.group(1))print(f"✅ 成功识别总页数：{total_pages}页")return total_pageselse:print("⚠️  无法识别总页数，使用默认值200页")return 200except Exception as e:print(f"❌ 获取总页数失败：{e}，使用默认值200页")return 200

关键细节：

response.apparent_encoding：解决部分网站 “GBK 编码” 导致的乱码问题（比response.encoding = 'utf-8'更智能）；
正则re.S修饰符：让.匹配换行符，避免分页导航跨多行导致的匹配失败；
降级处理：即使识别失败（如网站修改分页结构），也会使用默认值 200 页，避免爬虫直接崩溃。

2.3 高效解析：多线程并发解析页面，提升数据收集效率

单线程解析 200 页需要 200×0.5=100 秒，多线程并发可将时间缩短至 “总页数 / 并发数 × 延迟”（如 200/5×0.5=20 秒），效率提升显著。

def parse_page(self, page):"""解析单页内容，提取图片URL和名称"""try:# 1. 构造页面URL（首页特殊处理：无index_1.html）if page == 1:url = self.base_urlelse:url = f"{self.base_url}/index_{page}.html"# 2. 礼貌爬取：添加延迟time.sleep(self.delay)# 3. 发起请求并解析response = self.session.get(url, timeout=10)response.encoding = response.apparent_encoding# 4. 正则提取图片信息：<img src="/uploads/xxx.jpg" alt="图片名称"># 捕获组1：图片相对路径（/uploads/xxx.jpg），捕获组2：图片名称（alt属性）pattern = re.compile(r'<img src="(/uploads/.*?)" alt="(.*?)"', re.S)images = re.findall(pattern, response.text)# 5. 处理图片信息（补全URL、清洗文件名）page_images = []for src, name in images:# 补全相对URL为绝对URL（避免直接用/src导致404）img_url = urljoin(self.base_url, src)# 清洗文件名：移除Windows不允许的特殊字符（\/:*?"<>|）clean_name = re.sub(r'[\\/:*?"<>|]', '_', name)# 处理空文件名（如alt属性为空）if not clean_name.strip():clean_name = f"page_{page}_unknown_{hash(img_url)}"  # 用URL哈希生成唯一名称page_images.append((img_url, clean_name))print(f"📄 第{page}页解析完成，找到{len(page_images)}张图片")return page_imagesexcept Exception as e:print(f"❌ 解析第{page}页失败：{e}")return []  # 失败返回空列表，不影响后续任务

并发调度逻辑（在run方法中）：

# 多线程解析所有页面
print("\n----- 开始解析所有页面 -----")
with concurrent.futures.ThreadPoolExecutor(max_workers=self.max_workers) as executor:# 提交任务：为每一页创建一个解析任务futures = [executor.submit(self.parse_page, page) for page in range(1, total_pages + 1)]# 进度条跟踪：tqdm显示解析进度for future in tqdm(concurrent.futures.as_completed(futures), total=len(futures), desc="解析进度"):page_images = future.result()self.all_images.extend(page_images)  # 收集所有图片信息

核心优化点：

urljoin(self.base_url, src)：补全相对 URL（如/uploads/xxx.jpg→https://xxx.xxx.com/uploads/xxx.jpg），避免直接请求相对路径导致的 404 错误；
文件名清洗：re.sub(r'[\\/:*?"<>|]', '_', name)将特殊字符替换为下划线，解决 “文件名无效” 的问题；
hash(img_url)：为空文件名生成唯一标识，避免同名文件覆盖；
ThreadPoolExecutor：多线程并发解析，结合tqdm进度条，直观展示任务进展。

2.4 稳定下载：重试机制 + 流式下载，解决 “下载失败” 与 “内存溢出”

图片下载是爬虫的核心环节，需解决三个问题：网络波动导致的下载失败、大图片占用内存过高、重复下载浪费空间。

def download_image(self, img_info):"""下载单张图片，带重试机制和重复过滤"""img_url, img_name = img_info# 构造保存路径（绝对路径）file_path = os.path.join(self.save_dir, f"{img_name}.jpg")# 1. 重复过滤：跳过已下载的图片if os.path.exists(file_path):return (img_name, True, "已存在")# 2. 带重试的下载逻辑for attempt in range(self.retry_times):try:# 流式下载：避免大图片一次性加载到内存（如4K图片）with self.session.get(img_url, stream=True, timeout=15) as response:response.raise_for_status()  # 检查HTTP状态码（如403/404会抛异常）# 分块写入文件（每次8KB）with open(file_path, 'wb') as f:for chunk in response.iter_content(chunk_size=8192):if chunk:  # 过滤空块（避免文件损坏）f.write(chunk)return (img_name, True, "下载成功")except Exception as e:# 最后一次尝试失败：清理损坏文件，返回失败信息if attempt == self.retry_times - 1:if os.path.exists(file_path):os.remove(file_path)  # 避免残留损坏文件return (img_name, False, f"下载失败：{str(e)}")# 重试前等待1秒（避免频繁重试给服务器压力）time.sleep(1)

并发下载调度（在run方法中）：

# 多线程下载所有图片
print("\n----- 开始下载所有图片 -----")
with concurrent.futures.ThreadPoolExecutor(max_workers=self.max_workers) as executor:futures = [executor.submit(self.download_image, img_info) for img_info in self.all_images]# 统计下载结果success_count = 0fail_count = 0exist_count = 0for future in tqdm(concurrent.futures.as_completed(futures),total=len(futures),desc="下载进度"):img_name, success, msg = future.result()if success:if msg == "已存在":exist_count += 1else:success_count += 1else:fail_count += 1print(f"\n❌ {msg}：{img_name}.jpg")

关键技术点：

流式下载：stream=True+iter_content(chunk_size=8192)，将大图片分块写入磁盘，内存占用始终低于 10MB（对比 “一次性读取response.content”，内存占用降低 90%）；
重试机制：for attempt in range(self.retry_times)，网络波动时自动重试 3 次，失败率从 20% 降至 1% 以下；
状态码检查：response.raise_for_status()，主动捕获 403（禁止访问）、404（文件不存在）等错误，避免无效下载；
结果统计：区分 “成功、已存在、失败” 三类状态，便于后续处理（如失败图片可单独重试）。

2.5 任务调度：`run`方法串联全流程，输出可视化报告

最后，通过run方法将 “获取总页数→解析页面→下载图片” 串联成完整流程，并输出详细的统计报告，方便用户了解爬取结果。

def run(self):"""爬虫主入口：串联全流程"""start_time = time.time()# 1. 获取总页数total_pages = self.get_total_pages()# 2. 解析所有页面（收集图片信息）# ...（前文已讲，此处省略）# 3. 下载所有图片# ...（前文已讲，此处省略）# 4. 输出统计报告end_time = time.time()total_time = end_time - start_timeprint("\n" + "="*50)print(f"🎉 爬虫任务完成，总耗时：{total_time:.2f}秒")print(f"📊 总图片数量：{len(self.all_images)}")print(f"✅ 成功下载：{success_count}张")print(f"🔄 已存在跳过：{exist_count}张")print(f"❌ 下载失败：{fail_count}张")print(f"📁 图片保存目录：{self.save_dir}")print("="*50)# 运行爬虫
if __name__ == "__main__":spider = Spider()spider.run()

报告价值：

总耗时：帮助用户评估效率（如 200 页 + 2000 张图片，总耗时约 5 分钟）；
失败数量：若失败率过高（如 > 5%），提示用户检查网络或调整反爬策略；
保存目录：直接提供绝对路径，用户无需手动查找文件。

三、实战细节：反爬对抗与问题排查

即使架构优化完成，实战中仍可能遇到 “被封 IP”“解析失败” 等问题，以下是针对性解决方案：

3.1 反爬对抗：模拟真实浏览器行为

请求头优化：

必加Referer：告诉服务器 “请求来自首页”，避免 “直接访问列表页” 被拦截；

动态User-Agent：若被识别为固定 UA，可维护一个 UA 列表（如 Chrome、Firefox、Safari），每次请求随机选择：

self.user_agents = ["Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/140.0.0.0 Safari/537.36","Mozilla/5.0 (Macintosh; Intel Mac OS X 14_0) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.0 Safari/605.1.15","Mozilla/5.0 (X11; Linux x86_64) Firefox/131.0"
]
# 请求时随机选择UA
self.session.headers.update({"User-Agent": random.choice(self.user_agents)})

请求频率控制：
- self.delay = 0.5：避免短时间内大量请求，若仍被封，可增至 1-2 秒；
- 并发数max_workers：建议 5-10，过高（如 50）易触发服务器 “CC 攻击防护”。

3.2 常见问题排查

问题现象	可能原因	解决方案
解析页数为 0	正则表达式不匹配（网站结构更新）	打开首页 HTML，重新调整正则（如用`.*?`非贪婪匹配）
下载图片显示 “损坏”	未分块下载 / 空块未过滤	确保使用`iter_content(chunk_size=8192)`+`if chunk`
提示 “403 Forbidden”	UA/Referer 缺失，或 IP 被封	补充请求头，或使用代理池（见下文扩展建议）
文件名含乱码	编码识别错误	手动指定编码：`response.encoding = 'gbk'`

四、扩展建议：从 “通用” 到 “定制化”

基于本文代码，可进一步扩展功能，满足更复杂的需求：

代理池集成：

若 IP 被封，可添加代理池（如使用 “快代理”“芝麻代理”），在__init__中初始化代理，请求时自动切换：

self.proxies = [{"http": "http://127.0.0.1:8888"},{"http": "http://127.0.0.1:8889"}
]
# 请求时随机选择代理
response = self.session.get(url, proxies=random.choice(self.proxies), timeout=10)

断点续爬：

将已下载的图片名称存入downloaded.txt，每次启动时读取，跳过已下载图片（适合中断后继续爬取）：

# 初始化时读取已下载列表
self.downloaded = set()
if os.path.exists("downloaded.txt"):with open("downloaded.txt", "r", encoding="utf-8") as f:self.downloaded = set(f.read().splitlines())
# 下载成功后写入文件
with open("downloaded.txt", "a", encoding="utf-8") as f:f.write(f"{img_name}\n")

图片尺寸过滤：

只下载高清图片（如分辨率≥1920×1080），可在下载后用PIL库检查尺寸：

from PIL import Image
with Image.open(file_path) as img:width, height = img.sizeif width < 1920 or height < 1080:os.remove(file_path)  # 删除非高清图片return (img_name, False, "非高清图片，已过滤")