当前位置：首页 > wzjs >正文

西宁高端网站建设郑州网络推广厂家

wzjs 2025/8/8 22:33:13

西宁高端网站建设,郑州网络推广厂家,wordpress分享后可见,wordpress4.9.8下载爬取豆瓣电影2022年Top250部经典电影 1.项目概述从https://movie.douban/top250爬取电影的标题、评分、主题。我在之前使用普通的爬虫实现了类似的功能，可以对比来进行学习（Python爬虫——爬虫基础模块和类库（附实践项目）&#…

爬取豆瓣电影2022年Top250部经典电影

1.项目概述

从https://movie.douban/top250爬取电影的标题、评分、主题。我在之前使用普通的爬虫实现了类似的功能，可以对比来进行学习（Python爬虫——爬虫基础模块和类库（附实践项目））

2.实现步骤

1.将response对象包装成一个Selector对象

sel = Selector(response)

2.在网页（第几页无所谓）打开‘检查’，找到我们需要爬取的区域，复制selector，用于css解析。（对应生成list_items)

#content > div > div.article > ol > li# 获取后需要把li后面的nth-child()去掉，这样我们就获取到所有包含在li中的信息。上面是去掉nth-child后的代码

3.在爬虫中将指定爬取的区域写成css选择器，并返回文本信息

list_item.css('span.title::text').extract_first()#意义为选择在span标签下为title属性的text类型数据
#由于css选择器返回的对象仍然为css选择器对象，需要使用extract_first使其以字符串类型返回
#选择使用extract_first是为了只获取电影的中文标题
#其他的css选择器与之类似

4.将爬虫爬取到的数据组装成为Item对象——>在items.py中编写MovieItem类，并在爬虫中实例化。将实例化的对象以生成器的形式返回。

5.分析页面的导航栏，可知每个页面的起始电影等于（页面-1）*25。使用for循环就可以爬取后续的页面

for page in range(10):yield Request(url=f'https://movie.douban.com/top250?start={page * 25}')# 生成器返回的对象为Request对象

6.运行爬虫，并将数据写入csv文件中

scrapy crawl douban -o douban.csv

7.将数据写入execl文件：在管道pipelines中写初始化函数（__init__)创建的表和关闭爬虫时保存execl文件的操作（~~关闭爬虫是自动的过程，不要过于纠结，写保存的文件的代码就行了~~）

3.代码实现（不包含创建项目的过程）

爬虫部分(douban.py)

import scrapy
from scrapy import Selector, Request
from scrapy.http import HtmlResponsefrom spider2107.items import MovieItemclass DoubanSpider(scrapy.Spider):name = "douban"allowed_domains = ["movie.douban.com"]def start_requests(self):for page in range(10):yield Request(url=f'https://movie.douban.com/top250?start={page * 25}')def parse(self, response: HtmlResponse, **kwargs):sel = Selector(response)list_items = sel.css('#content > div > div.article > ol > li')for list_item in list_items:movie_item = MovieItem()movie_item['title'] = list_item.css('span.title::text').extract_first()movie_item['rank'] = list_item.css('span.rating_num::text').extract_first()movie_item['subject'] = list_item.css('span.inq::text').extract_first()yield movie_item

item对象(items.py)

import scrapyclass MovieItem(scrapy.Item):title = scrapy.Field()rank = scrapy.Field()subject = scrapy.Field()

设置请求头(settings.py)找到对应的位置取消注释并修改即可

USER_AGENT = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 ""Safari/537.36 Edg/117.0.2045.47")

导入写入execl表时需要的库

pip install openpyxl

管道文件（pipelines.py）

import openpyxlclass Spider2107Pipeline:def __init__(self):self.wb = openpyxl.Workbook()self.ws = self.wb.activeself.ws.title = "top250"self.ws.append(('标题', '评分', '主题'))def close_spider(self, spider):self.wb.save('电影数据.xlsx')def process_item(self, item, spider):title = item.get('title', '')rank = item.get('rank', '')subject = item.get('subject', '')self.ws.append((title, rank, subject))return item

配置管道（settings.py）找到对应的位置取消注释并修改即可

ITEM_PIPELINES = {"spider2107.pipelines.Spider2107Pipeline": 300,
}

4.结果展示

挖取数据

放入execl

查看全文

http://www.dtcms.com/wzjs/271567.html

学美工培训费大概多少专业网站优化培训

网站模版模板黑帽seo365t技术

六安商务网站建设电话南京网站设计优化公司

做it的兼职网站有哪些google seo优化

120平米花6万装修效果图优化大师手机版下载

如何做话费卡回收网站如何优化网络延迟

石狮网站建设报价网站注册账号

山东电商网站建设泰安百度推广电话

鄂州网站建设价格福州网站seo

那个软件可以做网站关键词查询工具免费

网站短链接怎么做的企业网站模板免费

学校网站建设机构怀柔网站整站优化公司

深圳做购物网站it培训机构排名前十

如何免费建企业网站seo第三方点击软件

网站重新备案需要关闭网站么品牌推广的方式

给一个公司做网站需要什么内容苏州网站优化公司

网站导航界面百度直播推广

搜索引擎网站推广上海抖音推广

网站可以直接做https吗百度竞价广告推广

上海网站建设哪家好百度搜索大数据

网站建设免费按词收费杭州网站设计制作

长沙网站制作百度手机助手下载安卓版

江门企业网站模板建站网站首页布局设计模板

综合网站开发设计网购网站十大排名

做网站要ftp信息吗网络营销的常用工具

wordpress上下页翻页seo评测论坛

进下加强新闻宣传网站建设网站排名监控工具

做网站销售怎么做seo图片优化

网站宽度多少合适360优化大师官网

天津做网站选择津坤科技c线上如何推广自己的产品

爬取豆瓣电影2022年Top250部经典电影

1.项目概述

2.实现步骤

3.代码实现（不包含创建项目的过程）

4.结果展示

相关文章：