当前位置：首页 > news >正文

爬虫的基本流程：从发送请求到数据清洗的完整链路

news 2025/10/14 10:56:18

在大数据时代，数据是驱动决策、产品优化与科研创新的核心资源。而网络爬虫（Web Crawler）作为高效获取公开网络数据的工具，已广泛应用于市场分析、舆情监控、学术研究等领域。从技术本质来看，爬虫的核心是 “模拟人类浏览行为，自动化完成‘获取 - 解析 - 存储 - 净化’数据的全链路”。本文将拆解这一流程的每个关键环节，带你理解爬虫如何从 “发送请求” 到 “数据清洗” 实现闭环。

一、前置环节：明确需求与目标 —— 爬虫的 “导航图”

在编写一行代码前，明确需求与目标是避免无效爬取的前提，这一步相当于为爬虫绘制 “导航图”，核心需回答 3 个问题：

爬取什么数据？明确数据的具体维度，例如爬取电商平台商品时，需确定是获取 “商品名称、价格、销量、评价内容”，还是仅需 “分类与链接”；爬取新闻网站时，需确定是否包含 “发布时间、作者、正文段落”。避免无差别爬取冗余数据，浪费时间与服务器资源。
数据来源是哪里？确定目标网站的 URL（统一资源定位符），并初步分析网站结构：是静态网页（HTML 直接包含数据）、动态网页（通过 JavaScript 异步加载数据，如 Ajax 请求），还是需要登录验证的页面（如某些论坛、后台数据）？不同结构的网站，后续爬取方式差异极大。
数据用途与合规性？严格遵守《网络安全法》《数据安全法》及目标网站的 “Robots 协议”（通过https://目标网站/robots.txt查看）。例如，Robots 协议若明确禁止爬取某目录（如Disallow: /admin/），则需尊重规则；同时，不得爬取个人敏感信息（如手机号、身份证号）或商业机密，避免法律风险。

二、核心环节一：发送 HTTP 请求 —— 与服务器的 “第一次对话”

当目标明确后，爬虫的第一步是向目标服务器发送 HTTP 请求—— 这相当于 “敲门”，请求服务器返回网页数据。HTTP（超文本传输协议）是浏览器与服务器交互的标准协议，爬虫本质是 “用代码模拟浏览器发送请求”。

1. 常见的 HTTP 请求类型

爬虫中最常用的两种请求类型是GET和POST，二者的核心区别在于 “数据传递方式”：

GET 请求：数据通过 URL 参数传递（如https://xxx.com/search?keyword=手机中的keyword=手机），适用于 “获取公开数据”，请求参数可见、长度有限，常用于静态网页或简单查询。
POST 请求：数据通过请求体（Request Body）传递，参数不可见、可传输大量数据，适用于 “提交数据后获取结果”（如登录验证、表单提交、动态加载数据），例如爬取某平台 “筛选后的商品列表” 时，筛选条件常通过 POST 请求传递。

2. 如何发送请求？（以 Python 为例）

在实际开发中，我们不会手动构建 HTTP 请求头，而是借助成熟的库简化操作。Python 中最常用的是requests库，以下是一个简单的 GET 请求示例：

python

import requests# 1. 定义目标URL
target_url = "https://www.example.com"  # 示例网站，可替换为实际目标# 2. 构造请求头（模拟浏览器，避免被反爬）
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36","Referer": "https://www.example.com"  # 表示请求来源，部分网站会验证
}# 3. 发送GET请求
response = requests.get(url=target_url, headers=headers)# 4. 查看请求状态（200表示成功）
print("请求状态码：", response.status_code)

关键注意点：请求头中的User-Agent是 “身份标识”—— 若不设置，服务器会识别出 “这是爬虫”，可能返回 403（禁止访问）或 503（服务不可用）。因此，模拟浏览器的User-Agent是规避基础反爬的必要操作。

三、核心环节二：获取响应内容 —— 接收服务器的 “回复”

发送请求后，服务器会返回一个 “HTTP 响应”，爬虫需要解析响应内容，提取其中的 “原始数据”。响应内容的格式取决于目标网站的设计，常见类型有 3 种：

1. HTML 格式（静态网页）

大多数静态网站（如早期的博客、新闻页）会直接返回 HTML 代码 —— 数据嵌入在<div>、<p>、<a>等标签中。我们可以通过response.text获取 HTML 字符串，例如：

python

# 获取HTML内容
html_content = response.text
# 打印前500个字符，查看HTML结构
print("HTML内容（前500字符）：", html_content[:500])

2. JSON 格式（动态网页）

动态网页（如抖音商品列表、知乎回答）不会在 HTML 中直接嵌入数据，而是通过 “异步请求”（Ajax）获取 JSON 格式的数据 ——JSON 是 “键值对” 结构，数据清晰、易于解析。此时需用response.json()直接将响应转为 Python 字典，例如：

python

# 假设目标URL返回JSON数据（如动态加载的商品列表）
json_data = response.json()
# 提取商品名称（假设JSON结构为{"data": [{"name": "手机A"}, ...]}）
product_names = [item["name"] for item in json_data["data"]]
print("商品列表：", product_names)

3. 其他格式（如 XML、文件）

部分网站（如 API 接口、RSS 订阅）会返回 XML 格式数据，需用xml.etree.ElementTree等库解析；若目标是下载文件（如图片、文档），则需用response.content获取二进制数据，再写入本地文件。

关键注意点：响应状态码是 “判断请求是否成功” 的核心指标 —— 除了 200（成功），常见的状态码还包括：

404：URL 不存在（可能是链接错误）；
403：服务器拒绝访问（可能是User-Agent未设置或 IP 被封禁）；
500/502：服务器内部错误（需稍后重试）。若状态码非 200，需排查请求参数、请求头或 IP 是否存在问题。

四、核心环节三：数据解析 —— 从 “原始内容” 中提取 “有用信息”

获取原始响应后，下一步是数据解析—— 从 HTML/JSON/XML 中 “筛选出需要的数据”，剔除无关的标签、代码或冗余字段。这一步是爬虫的 “核心价值环节”，不同响应格式对应不同的解析工具：

1. 解析 HTML：3 种常用工具

（1）BeautifulSoup（简单易用，适合新手）

BeautifulSoup 是 Python 的 HTML 解析库，支持通过 “标签名”“类名”“ID” 快速定位数据，语法简洁。例如，从 HTML 中提取所有新闻标题（假设标题在<h2 class="news-title">标签中）：

python

from bs4 import BeautifulSoup# 1. 初始化解析器（指定HTML内容和解析器，lxml解析速度快）
soup = BeautifulSoup(html_content, "lxml")# 2. 提取所有新闻标题（通过类名定位）
news_titles = soup.find_all("h2", class_="news-title")  # class_避免与Python关键字class冲突# 3. 遍历输出标题文本
for title in news_titles:print("新闻标题：", title.get_text().strip())  # get_text()获取标签内文本，strip()去除空格

（2）XPath（灵活强大，支持复杂定位）

XPath 是一种 “路径表达式语言”，可以通过 “标签层级”“属性” 精准定位数据，支持跨标签、多条件筛选，适合复杂 HTML 结构。Python 中常用lxml库实现 XPath 解析，例如：

python

from lxml import etree# 1. 将HTML字符串转为可解析的对象
html_tree = etree.HTML(html_content)# 2. 用XPath表达式提取新闻标题（//h2[@class="news-title"]表示“所有class为news-title的h2标签”）
news_titles = html_tree.xpath('//h2[@class="news-title"]/text()')  # /text()获取标签内文本# 3. 输出标题
for title in news_titles:print("新闻标题：", title.strip())

（3）正则表达式（适合特殊格式匹配）

若数据格式特殊（如包含固定前缀 / 后缀，如 “价格：¥999”），可通过正则表达式匹配。例如，提取 HTML 中所有价格数据：

python

import re# 正则表达式：匹配“¥”后接1-6位数字（可能包含小数点，如¥199.9）
price_pattern = re.compile(r'¥(\d+\.?\d*)')# 匹配所有价格
prices = price_pattern.findall(html_content)# 输出价格
print("价格列表：", ["¥" + p for p in prices])

2. 解析 JSON/XML：直接提取键值对

对于 JSON 数据，由于已转为 Python 字典，直接通过 “键名” 提取即可（如前文示例中的json_data["data"][0]["name"]）；对于 XML 数据，可通过xml.etree.ElementTree的find()/findall()方法按标签名提取。

五、核心环节四：数据存储 —— 将 “解析后的数据” 落地

解析出有用数据后，需将其持久化存储（避免程序退出后数据丢失）。存储方式需根据数据量、用途选择，常见方案如下：

1. 文本文件（适合小体量、简单数据）

TXT 文件：适合存储单维度数据（如所有新闻标题），操作简单，但不便于检索。

python

# 将新闻标题写入TXT
with open("news_titles.txt", "w", encoding="utf-8") as f:for title in news_titles:f.write(title + "\n")

CSV 文件：适合存储结构化数据（如 “商品名称 - 价格 - 销量”），可用 Excel 打开，便于后续分析。Python 中常用pandas库简化操作：

python

import pandas as pd# 构造DataFrame（结构化数据）
data = {"商品名称": ["手机A", "手机B"],"价格": ["¥2999", "¥3999"],"销量": ["1000+", "500+"]
}
df = pd.DataFrame(data)# 写入CSV文件（index=False避免生成多余的行号）
df.to_csv("products.csv", index=False, encoding="utf-8-sig")  # utf-8-sig解决中文乱码

2. 数据库（适合大体量、需检索的数据）

关系型数据库（如 MySQL）：适合存储结构化、需关联的数据（如 “用户表 - 订单表”），支持 SQL 查询。需用pymysql等库连接数据库，例如：

python

import pymysql# 1. 连接MySQL数据库
db = pymysql.connect(host="localhost",  # 数据库地址user="root",       # 用户名password="123456", # 密码database="spider_db"  # 数据库名
)# 2. 创建游标（用于执行SQL）
cursor = db.cursor()# 3. 执行SQL（插入商品数据）
sql = "INSERT INTO products (name, price, sales) VALUES (%s, %s, %s)"
for i in range(len(data["商品名称"])):cursor.execute(sql, (data["商品名称"][i], data["价格"][i], data["销量"][i]))# 4. 提交事务（保存数据）
db.commit()# 5. 关闭连接
cursor.close()
db.close()

非关系型数据库（如 MongoDB）：适合存储非结构化 / 半结构化数据（如 JSON 格式的评论、嵌套数据），无需预先定义表结构，灵活性高。

3. 其他存储方式

Excel 文件：用openpyxl或xlwt库写入，适合需给非技术人员查看的数据；
缓存（如 Redis）：适合高频访问的数据（如实时舆情监控中的热点词），读取速度远快于数据库。

六、核心环节五：数据清洗 —— 让数据 “从可用到好用”

爬取的原始数据往往存在 “脏数据”（如缺失值、重复值、格式混乱），若直接用于分析，会导致结果偏差。数据清洗的目标是 “修复数据缺陷，统一数据格式”，核心步骤如下：

1. 处理缺失值

缺失值是最常见的问题（如某商品的 “销量” 字段为空），处理方式需根据业务场景选择：

删除：若缺失值占比低（如 < 5%）且无影响，直接删除该行数据（用pandas的dropna()）；

填充：若缺失值占比高，用 “均值、中位数、众数” 或 “默认值” 填充（如销量缺失时填 “0”）：

python

# 用pandas处理缺失值
df = pd.read_csv("products.csv")
# 1. 查看缺失值情况
print("缺失值统计：")
print(df.isnull().sum())
# 2. 填充缺失值（销量缺失时填“0”）
df["销量"] = df["销量"].fillna("0")
# 3. 删除仍有缺失值的行
df = df.dropna(subset=["商品名称", "价格"])  # 商品名称和价格缺失则删除

2. 去除重复值

重复数据会导致统计结果重复（如同一商品被爬取多次），用drop_duplicates()去除：

python

# 去除“商品名称”重复的行（保留第一次出现的）
df = df.drop_duplicates(subset=["商品名称"], keep="first")

3. 处理异常值

异常值是 “超出合理范围的数据”（如手机价格为 “¥999999”，明显不合理），需先识别再处理：

python

# 1. 提取价格数字（去除“¥”，转为浮点数）
df["价格_数字"] = df["价格"].str.replace("¥", "").astype(float)
# 2. 识别异常值（假设手机合理价格范围是1000-10000）
abnormal_mask = (df["价格_数字"] < 1000) | (df["价格_数字"] > 10000)
print("异常价格数据：")
print(df[abnormal_mask])
# 3. 处理异常值（删除或修正）
df = df[~abnormal_mask]  # ~表示“非”，保留正常数据

4. 统一数据格式

数据格式不统一会影响分析（如日期有 “2024-05-01” 和 “2024/05/01” 两种格式），需标准化：

python

# 假设“发布时间”字段格式混乱，统一转为“YYYY-MM-DD”
df["发布时间"] = pd.to_datetime(df["发布时间"], errors="coerce").dt.strftime("%Y-%m-%d")
# errors="coerce"表示无法解析的日期转为NaT（缺失值），后续再处理

清洗完成后，数据会变得 “干净、规范”，可直接用于可视化分析（如用matplotlib画价格分布图）、机器学习（如预测商品销量）等场景。