当前位置: 首页 > news >正文

爬虫豆瓣电影

以下是一个简单的使用 requests 和 BeautifulSoup 库来爬取网页标题的 Python 爬虫示例代码,以爬取豆瓣电影 Top250 首页为例(注意遵守网站的 robots.txt 协议,不要过度爬取给网站造成负担):

首先确保你已经安装了 requests 和 BeautifulSoup 库,如果没有安装,可以使用 pip install requests beautifulsoup4 命令进行安装。
import requests
from bs4 import BeautifulSoup

# 目标网址
url = 'https://movie.douban.com/top250'

# 发送 GET 请求
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    # 设置响应的编码为网页实际的编码(避免乱码)
    response.encoding = response.apparent_encoding

    # 使用 BeautifulSoup 解析网页内容
    soup = BeautifulSoup(response.text, 'html.parser')

    # 找到所有电影标题的元素
    movie_titles = soup.find_all('span', class_='title')

    # 遍历并打印电影标题
    for title in movie_titles:
        print(title.text)
else:
    print(f"请求失败,状态码: {response.status_code}")
这段代码的作用是:

1. 向目标网址发送 GET 请求获取网页内容。

2. 检查请求是否成功,若成功则设置编码并解析网页。

3. 使用 BeautifulSoup 找到所有包含电影标题的 <span> 元素。

4. 遍历并打印这些电影标题。

 

相关文章:

  • 大模型开发框架LangChain GO
  • 基于Kubernetes部署Prometheus监控平台
  • 探索PyMOL新插件NRGSuite-Qt:全面提升分子对接、结合位点预测与动力学模拟的研究效率
  • spring batch 中JpaNamedQueryProvider、JpaNativeQueryProvider两种查询方式对比
  • Graphpad Prism for Mac医学绘图
  • Svelte 深度理解
  • 31天Python入门——第15天:日志记录
  • 深度学习入门1 基于Python的理论与实现
  • Photoshop 2025安装包下载及Photoshop 2025详细图文安装教程
  • 【LeetCode 题解】算法:8.字符串转换整数(atoi)
  • 自动化测试selenium(Java版)
  • CentOS 8 安装 Redis 全流程指南:从基础部署到远程安全配置
  • 音视频 三 看书的笔记 MediaPlayer的C/S架构
  • 数据库设计-笔记4
  • DeepSeek深度解析:AI在体育比分网中的应用场景与技术实践
  • Kali Linux 下安装 Sublime Text 详细教程
  • 各类神经网络学习:(五)LSTM 长短期记忆(上集),结构详解
  • 01 设计模式和设计原则
  • AI 在测试中的应用:从自动化到智能化的未来
  • Ubuntu下UEFI安全启动安装Nvdia驱动
  • 比熬夜更伤肝的事,你可能每天都在做
  • 西班牙葡萄牙突发全国大停电,欧洲近年来最严重停电事故何以酿成
  • 挤占学生伙食费、公务考察到景区旅游……青岛通报5起违规典型问题
  • 找化学的答案,解人类的命题:巴斯夫的“变革者”成长之道
  • 5月动漫|“爱死机”即将回归,《明末》或是下一个大IP?
  • 三杀皇马剑指四冠,硬扛到底的巴萨,赢球又赢人