当前位置：首页 > news >正文

Python爬虫入门指南：从零开始的网络数据获取之旅

news 2025/8/27 2:52:29

文章目录

- 前言
- 1. 什么是网络爬虫？
- 2. 爬虫的伦理与法律边界
- 3. Python爬虫的基本工具库
- - 3.1 Requests：HTTP请求库
  - 3.2 Beautiful Soup：HTML/XML解析库
  - 3.3 lxml：高效XML/HTML解析器
  - 3.4 Selenium：自动化浏览器工具
- 4. 第一个爬虫：天气信息获取
- 5. 处理动态加载的网页
- 6. 高级爬虫策略
- - 6.1 反反爬虫技巧
  - 6.2 数据存储
- 7. 实用爬虫项目：电影评分爬虫
- 8. 爬虫进阶方向
- 结语

前言

还记得第一次看到"爬虫"这个词时，我脑海中浮现的是一只小虫子在网页上爬来爬去的画面（有点可爱又有点诡异）！但实际上，网络爬虫是现代数据分析的重要工具，它能帮助我们从互联网获取有价值的信息。无论你是数据分析师、研究人员，还是单纯对技术感兴趣的爱好者，掌握基本的爬虫技能都会让你如虎添翼。

本文将带你从零开始，了解Python爬虫的基础知识，并通过实际案例展示如何构建自己的第一个爬虫程序。准备好开始这段代码之旅了吗？那就继续往下看吧！

1. 什么是网络爬虫？

网络爬虫（Web Crawler）是一种自动获取网页内容的程序。它可以模拟人类访问网站的行为，从互联网上自动下载信息。简单来说，爬虫就是你在网络世界的"数据收集员"，帮你从茫茫网海中获取你需要的信息。

爬虫的工作原理可以概括为以下步骤：

发送网络请求获取网页
解析网页内容提取数据
存储有用的数据
寻找新的URL继续爬取

2. 爬虫的伦理与法律边界

在开始编写爬虫之前，我们必须了解一个重要的事实：爬虫技术本身是中性的，但使用不当可能带来法律风险！

爬虫使用时应注意的原则（超级重要）：

尊重网站的robots.txt协议
控制爬取速度，避免对目标网站造成负担
不要爬取敏感或私人数据
获取数据仅用于个人学习和研究
遵守网站的服务条款

记住，作为一名负责任的开发者，我们应当在技术能力和道德责任之间找到平衡点。

3. Python爬虫的基本工具库

Python之所以成为爬虫开发的首选语言，很大程度上归功于它丰富的第三方库。以下是几个基础且强大的库：

3.1 Requests：HTTP请求库

Requests是Python最流行的HTTP客户端库，它使HTTP请求变得异常简单。

安装：

pip install requests

基本使用：

import requests# 发送GET请求
response = requests.get('https://www.example.com')# 查看响应状态码
print(response.status_code)  # 200表示成功# 查看响应内容
print(response.text)

3.2 Beautiful Soup：HTML/XML解析库

Beautiful Soup能够从HTML或XML文件中提取数据，非常适合网页解析。

安装：

pip install beautifulsoup4

基本使用：

from bs4 import BeautifulSoup# 创建Beautiful Soup对象
soup = BeautifulSoup(response.text, 'html.parser')# 查找所有标题标签
titles = soup.find_all('h1')
for title in titles:print(title.text)

3.3 lxml：高效XML/HTML解析器

lxml是一个高性能的XML和HTML解析库，它基于libxml2和libxslt库。

安装：

pip install lxml

3.4 Selenium：自动化浏览器工具

对于需要JavaScript渲染的动态网页，Selenium可以控制浏览器执行操作。

安装：

pip install selenium

基本使用：

from selenium import webdriver# 创建Chrome浏览器实例
driver = webdriver.Chrome()# 打开网页
driver.get('https://www.example.com')# 获取网页源码
html = driver.page_source# 关闭浏览器
driver.quit()

4. 第一个爬虫：天气信息获取

让我们开始构建一个简单的爬虫，从天气网站获取特定城市的天气信息。这个例子将使用到requests和BeautifulSoup库。

import requests
from bs4 import BeautifulSoup
import timedef get_weather(city):"""获取指定城市的天气信息"""# 构建URL（这里使用天气查询网站示例）url = f"https://www.example.com/weather?city={city}"# 添加请求头，模拟浏览器访问headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}try:# 发送HTTP请求response = requests.get(url, headers=headers, timeout=10)# 检查是否请求成功if response.status_code == 200:# 使用BeautifulSoup解析HTMLsoup = BeautifulSoup(response.text, 'html.parser')# 假设天气信息在特定的div标签中weather_div = soup.find('div', class_='current-weather')if weather_div:temperature = weather_div.find('span', class_='temp').textcondition = weather_div.find('span', class_='cond').textreturn {'city': city,'temperature': temperature,'condition': condition,'update_time': time.strftime('%Y-%m-%d %H:%M:%S')}else:return {'error': '无法找到天气信息'}else:return {'error': f'请求失败，状态码: {response.status_code}'}except Exception as e:return {'error': f'发生异常: {str(e)}'}# 测试函数
city = "北京"
result = get_weather(city)
print(result)

上面的代码包含了构建爬虫的基本步骤：

确定目标URL
发送HTTP请求
解析返回的HTML内容
提取所需的数据
处理并返回结果

5. 处理动态加载的网页

现代网站越来越多地使用JavaScript来动态加载内容。对于这类网站，我们需要使用Selenium等工具来模拟浏览器行为。

下面是一个使用Selenium获取动态加载内容的例子：

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import timedef get_dynamic_content(url):"""获取动态加载的网页内容"""# 配置Chrome选项chrome_options = Options()chrome_options.add_argument('--headless')  # 无头模式，不显示浏览器窗口chrome_options.add_argument('--disable-gpu')# 创建WebDriver对象driver = webdriver.Chrome(options=chrome_options)try:# 访问网页driver.get(url)# 等待页面加载（最多等待10秒）wait = WebDriverWait(driver, 10)wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'content-container')))# 滚动页面以加载更多内容driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")time.sleep(2)  # 等待内容加载# 获取加载后的内容content = driver.find_elements(By.CLASS_NAME, 'article-item')results = []for item in content:title = item.find_element(By.CLASS_NAME, 'title').textdescription = item.find_element(By.CLASS_NAME, 'description').textresults.append({'title': title,'description': description})return resultsexcept Exception as e:print(f"发生错误: {str(e)}")return []finally:driver.quit()  # 关闭浏览器# 使用示例
url = "https://www.example.com/dynamic-page"
data = get_dynamic_content(url)
for item in data:print(f"标题: {item['title']}")print(f"描述: {item['description']}")print("-" * 50)

6. 高级爬虫策略

6.1 反反爬虫技巧

许多网站会实施反爬虫措施，以下是一些应对策略：

随机User-Agent轮换

import randomuser_agents = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.1 Safari/605.1.15','Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
]headers = {'User-Agent': random.choice(user_agents)
}

控制请求频率

import time
import randomdef crawl_with_delay(urls):results = []for url in urls:response = requests.get(url, headers=headers)results.append(response)# 随机延迟1-5秒time.sleep(random.uniform(1, 5))return results

使用代理IP

proxies = {'http': 'http://10.10.10.10:8000','https': 'http://10.10.10.10:8000',
}response = requests.get(url, headers=headers, proxies=proxies)

6.2 数据存储

爬取的数据通常需要保存下来。以下是几种常见的存储方法：

CSV文件存储

import csvdef save_to_csv(data, filename):with open(filename, 'w', newline='', encoding='utf-8') as f:writer = csv.DictWriter(f, fieldnames=data[0].keys())writer.writeheader()writer.writerows(data)

JSON文件存储

import jsondef save_to_json(data, filename):with open(filename, 'w', encoding='utf-8') as f:json.dump(data, f, ensure_ascii=False, indent=4)

数据库存储

import sqlite3def save_to_sqlite(data, db_name, table_name):conn = sqlite3.connect(db_name)cursor = conn.cursor()# 假设data是字典列表，且所有字典具有相同的键if not data:return# 创建表（如果不存在）columns = ', '.join([f"{key} TEXT" for key in data[0].keys()])cursor.execute(f"CREATE TABLE IF NOT EXISTS {table_name} ({columns})")# 插入数据for item in data:placeholders = ', '.join(['?' for _ in item.keys()])query = f"INSERT INTO {table_name} VALUES ({placeholders})"cursor.execute(query, tuple(item.values()))conn.commit()conn.close()

7. 实用爬虫项目：电影评分爬虫

让我们综合前面所学，开发一个电影评分爬虫，获取电影名称、评分和简介。

import requests
from bs4 import BeautifulSoup
import time
import random
import jsonclass MovieCrawler:def __init__(self):self.user_agents = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.1 Safari/605.1.15','Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36']def get_random_headers(self):return {'User-Agent': random.choice(self.user_agents),'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8'}def crawl_movie_page(self, url):try:response = requests.get(url, headers=self.get_random_headers(), timeout=10)if response.status_code == 200:return response.textelse:print(f"请求失败，状态码: {response.status_code}")return Noneexcept Exception as e:print(f"抓取页面时出错: {str(e)}")return Nonedef parse_movie_list(self, html):if not html:return []soup = BeautifulSoup(html, 'html.parser')movie_items = soup.find_all('div', class_='movie-item')movies = []for item in movie_items:try:title = item.find('h2', class_='title').text.strip()rating = item.find('span', class_='rating').text.strip()summary = item.find('div', class_='summary').text.strip()movie = {'title': title,'rating': rating,'summary': summary}movies.append(movie)except AttributeError:continuereturn moviesdef crawl_movies(self, base_url, page_count=5):all_movies = []for i in range(1, page_count + 1):url = f"{base_url}?page={i}"print(f"正在爬取第 {i} 页...")html = self.crawl_movie_page(url)movies = self.parse_movie_list(html)if movies:all_movies.extend(movies)print(f"成功获取 {len(movies)} 部电影信息")else:print("该页面未获取到电影信息")# 随机延迟，防止被封IPdelay = random.uniform(3, 8)print(f"等待 {delay:.2f} 秒后继续...")time.sleep(delay)return all_moviesdef save_movies(self, movies, filename='movies.json'):with open(filename, 'w', encoding='utf-8') as f:json.dump(movies, f, ensure_ascii=False, indent=4)print(f"已将电影数据保存到 {filename}")# 使用示例
if __name__ == '__main__':crawler = MovieCrawler()base_url = 'https://www.example.com/movies'  # 替换为实际的电影网站URLmovies = crawler.crawl_movies(base_url, page_count=3)print(f"总共获取了 {len(movies)} 部电影信息")if movies:crawler.save_movies(movies)# 展示部分结果print("\n部分电影信息预览:")for movie in movies[:5]:  # 只显示前5个print(f"片名: {movie['title']}")print(f"评分: {movie['rating']}")print(f"简介: {movie['summary'][:100]}...")  # 只显示前100个字符print("-" * 50)