当前位置：首页 > wzjs >正文

哈尔滨网站改版h5制作易企秀

wzjs 2025/9/6 7:25:50

哈尔滨网站改版,h5制作易企秀,七牛云wordpress缓存附件,外贸建站哪家强外贸网站怎么做Python爬虫入门实战：爬取博客文章数据并保存概述本文将介绍如何使用Python的requests和BeautifulSoup库实现一个简单的网页爬虫，通过实际案例演示如何爬取博客文章数据并存储到本地文件。本文适合Python爬虫初学者，通过案例快速掌握基本爬…

Python爬虫入门实战：爬取博客文章数据并保存

概述

本文将介绍如何使用Python的requests和BeautifulSoup库实现一个简单的网页爬虫，通过实际案例演示如何爬取博客文章数据并存储到本地文件。本文适合Python爬虫初学者，通过案例快速掌握基本爬虫开发流程。

一、环境准备

1.1 安装所需库

pip install requests beautifulsoup4

1.2 目标网站分析

我们以测试网站https://quotes.toscrape.com/（专门用于爬虫练习的网站）为例，目标：

爬取所有页面的名人名言
提取内容、作者、标签信息
保存为CSV文件

二、代码实现

2.1 基础爬虫实现

import requests
from bs4 import BeautifulSoup
import csvdef get_page(url):"""发送HTTP请求获取页面内容"""headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}try:response = requests.get(url, headers=headers)response.raise_for_status()  # 检查请求是否成功return response.textexcept requests.exceptions.RequestException as e:print(f"请求失败: {e}")return Nonedef parse_page(html):"""解析页面提取数据"""soup = BeautifulSoup(html, 'lxml')quotes = soup.find_all('div', class_='quote')data = []for quote in quotes:text = quote.find('span', class_='text').get_text()author = quote.find('small', class_='author').get_text()tags = [tag.get_text() for tag in quote.find_all('a', class_='tag')]data.append({'text': text,'author': author,'tags': ', '.join(tags)})return datadef save_to_csv(data, filename='quotes.csv'):"""保存数据到CSV文件"""with open(filename, 'w', newline='', encoding='utf-8') as f:writer = csv.DictWriter(f, fieldnames=['text', 'author', 'tags'])writer.writeheader()writer.writerows(data)if __name__ == '__main__':base_url = 'https://quotes.toscrape.com/page/{}/'all_data = []# 遍历所有页面（示例网站共有10页）for page in range(1, 11):url = base_url.format(page)print(f"正在爬取第{page}页: {url}")html = get_page(url)if html:page_data = parse_page(html)all_data.extend(page_data)save_to_csv(all_data)print(f"数据已保存到quotes.csv，共爬取{len(all_data)}条数据")

三、核心功能解析

3.1 请求头设置

通过设置User-Agent模拟浏览器访问：

headers = {'User-Agent': 'Mozilla/5.0 (...)'
}

3.2 数据解析

使用BeautifulSoup的find方法定位元素：

soup.find_all('div', class_='quote')  # 定位所有名言区块

3.3 分页处理

通过观察URL规律实现翻页：

base_url = 'https://quotes.toscrape.com/page/{}/'

四、运行结果

生成的CSV文件示例：

text,author,tags
"The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.",Albert Einstein,change,deep-thoughts,thinking,world
"Try not to become a man of success. Rather become a man of value.",Albert Einstein,adulthood,success,value
...