当前位置：首页 > news >正文

Scrapy 基础框架搭建教程：从环境配置到爬虫实现（附实例）

news 2025/8/15 10:30:04

Scrapy 基础框架搭建教程：从环境配置到爬虫实现（附实例）

Scrapy 作为 Python 生态中成熟的爬虫框架，凭借异步处理能力和模块化设计，成为数据采集的高效工具。搭建其基础框架虽涉及多个组件，但遵循标准化流程可快速上手。本文将以实战为导向，从环境部署到首个爬虫运行，详解框架搭建的关键步骤，通过精简代码示例展示核心配置，帮助开发者避开常见陷阱，建立可扩展的爬虫项目结构。

一、环境准备与框架安装

Scrapy 的运行依赖 Python 环境及相关系统库，正确安装是框架搭建的第一步。

1. 基础安装步骤

推荐使用 Python 3.8 及以上版本，通过 pip 完成安装：

# 安装Scrapy核心包

pip install scrapy

# 验证安装结果（显示版本号即成功）

scrapy --version

Windows 系统若出现编译错误，需先安装 Microsoft Visual C++ Build Tools，或通过 conda 安装：

# conda安装（适合Windows用户）

conda install -c conda-forge scrapy

2. 虚拟环境配置（推荐）

使用虚拟环境隔离项目依赖，避免版本冲突：

# 创建虚拟环境

python -m venv scrapy-env

# 激活环境（Windows）

scrapy-env\Scripts\activate

# 激活环境（Linux/Mac）

source scrapy-env/bin/activate

# 激活后安装Scrapy

pip install scrapy

二、创建 Scrapy 项目结构

Scrapy 通过命令自动生成标准化项目结构，开发者无需手动创建目录。

1. 初始化项目

执行startproject命令创建项目骨架：

# 创建名为bookspider的项目

scrapy startproject bookspider

# 进入项目目录

cd bookspider

生成的核心目录结构如下：

bookspider/

├── bookspider/ # 项目核心模块

│ ├── __init__.py

│ ├── items.py # 数据模型定义

│ ├── middlewares.py # 中间件配置

│ ├── pipelines.py # 数据处理管道

│ ├── settings.py # 全局配置

│ └── spiders/ # 爬虫脚本目录

│ └── __init__.py

└── scrapy.cfg # 部署配置文件

2. 核心文件功能说明

spiders/：存放爬虫实现代码，每个爬虫对应一个 Python 文件

items.py：定义数据字段结构，类似 ORM 模型

pipelines.py：处理爬取数据（清洗、存储到文件 / 数据库）

settings.py：配置爬虫行为（请求频率、UA 伪装、代理等）

scrapy.cfg：项目部署相关配置，本地开发可暂不关注

三、编写基础爬虫模块

以爬取图书信息为例，演示爬虫的核心实现逻辑，代码聚焦数据提取与页面跳转。

1. 创建爬虫文件

在spiders目录下新建book_spider.py：

import scrapy

class BookSpider(scrapy.Spider):

# 爬虫唯一标识（必须）

name = "bookspider"

# 允许爬取的域名（防止越权爬取）

allowed_domains = ["books.toscrape.com"]

# 起始爬取URL

start_urls = ["https://books.toscrape.com"]

def parse(self, response):

"""解析图书列表页"""

# 提取所有图书信息

for book in response.css('article.product_pod'):

yield {

'title': book.css('h3 a::attr(title)').get(),

'price': book.css('p.price_color::text').get(),

'rating': book.css('p.star-rating::attr(class)').re_first('star-rating (\w+)')

}

# 提取下一页链接并继续爬取

next_page = response.css('li.next a::attr(href)').get()

if next_page:

# 构建完整URL（处理相对路径）

next_page_url = response.urljoin(next_page)

# 发送新请求，回调自身继续解析

yield scrapy.Request(next_page_url, callback=self.parse)

2. 代码核心解析

类定义：必须继承scrapy.Spider，name属性为爬虫唯一标识

解析方法：parse函数处理响应数据，使用 CSS 选择器提取字段

- ::attr(title)：提取标签的 title 属性值

- ::text：提取标签内文本

- re_first()：使用正则提取匹配内容

页面跳转：通过scrapy.Request发送新请求，callback指定解析函数

四、数据模型与管道处理

通过 Items 定义结构化数据，利用 Pipelines 实现数据的持久化存储，代码示例以 JSON 文件存储为例。

1. 定义数据模型（items.py）

import scrapy

class BookItem(scrapy.Item):

# 定义字段类型

title = scrapy.Field()

price = scrapy.Field()

rating = scrapy.Field()

在爬虫中使用 Item 模型（修改book_spider.py）：

from ..items import BookItem # 导入数据模型

# 替换原yield字典部分

item = BookItem()

item['title'] = book.css('h3 a::attr(title)').get()

item['price'] = book.css('p.price_color::text').get()

item['rating'] = book.css('p.star-rating::attr(class)').re_first('star-rating (\w+)')

yield item

2. 实现数据存储管道（pipelines.py）

import json

class JsonFilePipeline:

def open_spider(self, spider):

"""爬虫启动时打开文件"""

self.file = open('books.json', 'w', encoding='utf-8')

self.file.write('[') # JSON数组开始

def close_spider(self, spider):

"""爬虫结束时关闭文件"""

self.file.write(']') # JSON数组结束

self.file.close()

def process_item(self, item, spider):

"""处理每条数据"""

# 转换为字典并写入

line = json.dumps(dict(item), ensure_ascii=False) + ',\n'

self.file.write(line)

return item # 传递给下一个管道（如有）

启用管道（修改settings.py）：

ITEM_PIPELINES = {

'bookspider.pipelines.JsonFilePipeline': 300,

# 数字越小优先级越高（0-1000）

}

五、项目配置与运行调试

通过settings.py优化爬虫行为，使用命令行运行爬虫并验证结果，掌握基础调试技巧。

1. 关键配置项（settings.py）

# 伪装浏览器请求头

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'

# 遵守robots协议（默认True，开发时可设为False）

ROBOTSTXT_OBEY = False

# 下载延迟（秒），控制爬取速度

DOWNLOAD_DELAY = 1

# 并发请求数

CONCURRENT_REQUESTS = 4

2. 运行爬虫与查看结果

# 执行名为bookspider的爬虫

scrapy crawl bookspider

# 直接输出到JSON文件（无需管道）

scrapy crawl bookspider -o books.json

# 输出为CSV格式（适合数据分析）

scrapy crawl bookspider -o books.csv

运行成功后，项目根目录会生成books.json文件，包含爬取的图书数据。

3. 调试技巧

使用scrapy shell进行交互式调试：

# 启动调试环境

scrapy shell "https://books.toscrape.com"

# 在shell中测试选择器

>>> response.css('h3 a::attr(title)').getall()

通过调试可快速验证选择器是否正确，减少代码修改 - 运行的循环次数。

六、常见问题与解决方案

针对框架搭建中可能遇到的路径错误、反爬限制等问题，提供实用解决方法。

1. 爬虫无法启动

ModuleNotFoundError：确保在项目根目录运行命令，且虚拟环境已激活

NameError：检查爬虫类名与文件名是否对应，避免拼写错误

2. 数据提取为空

检查 CSS 选择器是否正确，可通过浏览器开发者工具验证

确认页面是否为动态加载（Scrapy 不支持 JavaScript 渲染，需额外处理）

3. 被网站反爬拦截

基础反反爬配置（settings.py）：

# 禁用Cookies

COOKIES_ENABLED = False

# 添加更多请求头

DEFAULT_REQUEST_HEADERS = {

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Language': 'en-US,en;q=0.5',

}

七、框架扩展与最佳实践

基础框架搭建完成后，可根据需求扩展功能，同时遵循爬虫开发规范。

1. 功能扩展方向

中间件：添加 IP 代理池、处理验证码

动态页面：集成 Splash 或 Playwright 处理 JavaScript 渲染

分布式爬取：结合 Scrapy-Redis 实现多机协作

2. 开发最佳实践

控制爬取速度：通过DOWNLOAD_DELAY设置合理间隔，避免给服务器造成压力

数据去重：在管道中实现基于哈希或数据库唯一键的去重逻辑

异常处理：捕获网络错误和解析错误，确保爬虫稳定运行

代码注释：为复杂选择器和业务逻辑添加注释，提高可维护性

八、总结

Scrapy 基础框架搭建的核心流程可概括为：

安装 Scrapy 并创建标准化项目结构

编写爬虫实现页面解析与数据提取

定义数据模型和存储管道

配置项目参数并运行调试

通过本文示例，开发者可在 30 分钟内搭建起完整的爬虫框架，实现从网页请求到数据存储的全流程。Scrapy 的模块化设计使其易于扩展，后续可根据需求逐步添加反爬策略、分布式支持等高级功能。

掌握框架搭建后，建议深入学习选择器语法、中间件开发和信号机制，这些知识将帮助应对更复杂的爬取场景。合理使用 Scrapy 不仅能提高数据采集效率，更能培养结构化的程序设计思维，为处理大规模数据采集任务奠定基础。<|FCResponseEnd|>

查看全文

http://www.dtcms.com/a/331625.html

开源数据发现平台：Amundsen 第1部分：基础入门与本地环境设置

数据结构：用两个栈模拟队列（Queue Using 2 Stacks）

2025年商协会新运营模式，正在破局

NokoPrint：安卓平台上的全能打印解决方案

软件测试之接口测试，接口自动化测试, request

【FreeRTOS】刨根问底4：优先级反转是啥？咋解决？

系统升级部署中的常见问题与解决方案

京东比价项目开发实录：京东API接口（2025）

AI Agent 为什么需要记忆？

我的 LeetCode 日记：Day 37 - 解锁动态规划：完全背包问题

深度解析 Vue 高阶技巧：提升工程化能力的实用方案

使用EvalScope对GPT-OSS-20B进行推理性能压测实战

Flink中的水位线

STL容器详解：Vector高效使用指南

高效Unicode字符表示：一种创新的词表构建策略分析

MCP智能化问答系统实现方案

K8S企业级应用与DaemonSet实战解析

【车联网kafka】用钟表齿轮理解 Kafka 时间轮（第七篇）

Java应用快速部署Tomcat指南

# 2025全球AI游戏市场研究报告：行业洞察与未来趋势

OpenAI 的浏览器将使用 ChatGPT Agent 来控制浏览器

亚马逊FCF计划：破解高单价产品转化困局的金融杠杆

RH134 管理基本存储知识点

考研408《计算机组成原理》复习笔记，第四章(1)——指令系统概念（指令字长、N地址指令、定长和变长操作码）

H.264编码格式详解：Annex-B vs AVCC

14、Docker Compose 安装 Redis 集群（三主三从）

嵌入式学习笔记--MCU阶段--DAY12实时操作系统rt_thread1

Cypher注入详解：原理、类型与测试方法

使用免费API开发口播数字人

数智化与全球化，双轮驱动艾芬达持续引领行业变革