当前位置: 首页 > news >正文

Python爬虫实战:获取笔趣阁图书信息,并做数据分析

注意:以下内容仅供技术研究,请遵守目标网站的robots.txt规定,控制请求频率避免对目标服务器造成过大压力!

1. 环境准备与反爬策略

python

import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
import time
import random
from fake_useragent import UserAgent  # 需安装:pip install fake-useragent

# 初始化随机UserAgent
ua = UserAgent()
headers = {'User-Agent': ua.random}

# 代理IP池示例(需自行维护可用代理)
proxies = [
    {'http': 'http://123.45.67.89:8080'},
    {'http': 'http://112.114.96.34:3128'}
]

2. 爬虫核心代码(含分类遍历)

python

def fetch_book_info(base_url, max_pages=3):
    all_books = []
    
    # 第一步:获取所有分类链接
    try:
        response = requests.get(base_url, headers={'User-Agent': ua.random}, timeout=10)
        soup = BeautifulSoup(response.content.decode('gbk'), 'html.parser')  # 注意编码
        
        # 提取分类导航栏(示例选择器,需根据实际页面调整)
        category_links = {
            item.text: item['href'] 
            for item in soup.select('.nav li a')[1:-1]  # 排除首尾非分类项
        }
    except Exception as e:
        print("获取分类失败:", e)
        return []

    # 第二步:遍历每个分类
    for category_name, category_url in category_links.items():
        print(f"正在抓取分类: {category_name}")
        
        for page in range(1, max_pages+1):
            # 构造分页URL(示例格式,需根据实际调整)
            page_url = f"{category_url}index_{page}.html" if page>1 else category_url
            
            try:
                # 随机使用代理
                proxy = random.choice(proxies) if proxies else None
                page_res = requests.get(page_url, he

相关文章:

  • grep如何排除多个目录?
  • 网易易盾接入DeepSeek,数字内容安全“智”理能力全面升级
  • 2-使用wifidog实现portal
  • Java进阶篇之NIO基础
  • MyBatis常见知识点
  • 荣耀手机Magic3系列、Magic4系列、Magic5系列、Magic6系列、Magic7系列详情对比以及最新二手价格预测
  • vue elementui select下拉库组件鼠标移出时隐藏下拉框
  • C++ 常用的设计模式
  • 实时云渲染:驱动XR技术产业化腾飞的核心引擎
  • C语言中常见关键字(static,extern)
  • <论文>DeepSeek-R1:通过强化学习激励大语言模型的推理能力(深度思考)
  • TCP的拥塞控制
  • Postman如何汉化(保姆级教程)
  • Web渗透测试自学习资料超级大全 流程资料文档 涵盖OWASP Top Ten 漏洞 持续更新 ............
  • (Windows | Linux)ssh访问服务器报错:no matching key exchange method found
  • #渗透测试#批量漏洞挖掘#Crocus系统—Download 文件读取
  • Unity崩溃和ANR排查
  • 【个人开发】deepseed+Llama-factory 本地数据多卡Lora微调
  • 《aarch64汇编从入门到精通》-204页PPT+实验
  • sql:时间盲注和boolen盲注
  • 成都酒店网站建设/今日深圳新闻最新消息
  • 徐州建设工程招标信息网官网/外贸seo网站建设
  • 网站上面的logo怎么做/什么平台推广效果最好
  • 做前端网站用什么软件写代码/深圳网络营销推广专员
  • 企业php网站建设/培训机构招生方案模板
  • 网站开发好了如何上线/惠州seo网站推广