当前位置：首页 > news >正文

爬虫豆瓣电影

news 2025/10/31 8:01:03

以下是一个简单的使用 requests 和 BeautifulSoup 库来爬取网页标题的 Python 爬虫示例代码，以爬取豆瓣电影 Top250 首页为例（注意遵守网站的 robots.txt 协议，不要过度爬取给网站造成负担）：

首先确保你已经安装了 requests 和 BeautifulSoup 库，如果没有安装，可以使用 pip install requests beautifulsoup4 命令进行安装。
import requests
from bs4 import BeautifulSoup

# 目标网址
url = 'https://movie.douban.com/top250'

# 发送 GET 请求
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
# 设置响应的编码为网页实际的编码（避免乱码）
response.encoding = response.apparent_encoding

# 使用 BeautifulSoup 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')

# 找到所有电影标题的元素
movie_titles = soup.find_all('span', class_='title')

# 遍历并打印电影标题
for title in movie_titles:
print(title.text)
else:
print(f"请求失败，状态码: {response.status_code}")
这段代码的作用是：

1. 向目标网址发送 GET 请求获取网页内容。

2. 检查请求是否成功，若成功则设置编码并解析网页。

3. 使用 BeautifulSoup 找到所有包含电影标题的 <span> 元素。

4. 遍历并打印这些电影标题。

大模型开发框架LangChain GO

基于Kubernetes部署Prometheus监控平台

Graphpad Prism for Mac医学绘图

Svelte 深度理解

31天Python入门——第15天:日志记录

自动化测试selenium(Java版)

数据库设计-笔记4

Kali Linux 下安装 Sublime Text 详细教程

01 设计模式和设计原则

Ubuntu下UEFI安全启动安装Nvdia驱动

JavaScript Fetch API

secp256k1的模数P是如何选择的？

畅享Mac桌面版TikTok！

服务器中防火墙的重要性