当前位置：首页 > news >正文

网站建设知识库建设用地规划查询网站

news 2025/10/9 11:05:32

网站建设知识库,建设用地规划查询网站,杭州有哪些大数据知名企业,如何用asp.net做网站爬取豆瓣电影2022年Top250部经典电影 1.项目概述从https://movie.douban/top250爬取电影的标题、评分、主题。我在之前使用普通的爬虫实现了类似的功能，可以对比来进行学习（Python爬虫——爬虫基础模块和类库（附实践项目）&#…

爬取豆瓣电影2022年Top250部经典电影

1.项目概述

从https://movie.douban/top250爬取电影的标题、评分、主题。我在之前使用普通的爬虫实现了类似的功能，可以对比来进行学习（Python爬虫——爬虫基础模块和类库（附实践项目））

2.实现步骤

1.将response对象包装成一个Selector对象

sel = Selector(response)

2.在网页（第几页无所谓）打开‘检查’，找到我们需要爬取的区域，复制selector，用于css解析。（对应生成list_items)

#content > div > div.article > ol > li# 获取后需要把li后面的nth-child()去掉，这样我们就获取到所有包含在li中的信息。上面是去掉nth-child后的代码

3.在爬虫中将指定爬取的区域写成css选择器，并返回文本信息

list_item.css('span.title::text').extract_first()#意义为选择在span标签下为title属性的text类型数据
#由于css选择器返回的对象仍然为css选择器对象，需要使用extract_first使其以字符串类型返回
#选择使用extract_first是为了只获取电影的中文标题
#其他的css选择器与之类似

4.将爬虫爬取到的数据组装成为Item对象——>在items.py中编写MovieItem类，并在爬虫中实例化。将实例化的对象以生成器的形式返回。

5.分析页面的导航栏，可知每个页面的起始电影等于（页面-1）*25。使用for循环就可以爬取后续的页面

for page in range(10):yield Request(url=f'https://movie.douban.com/top250?start={page * 25}')# 生成器返回的对象为Request对象

6.运行爬虫，并将数据写入csv文件中

scrapy crawl douban -o douban.csv

7.将数据写入execl文件：在管道pipelines中写初始化函数（__init__)创建的表和关闭爬虫时保存execl文件的操作（~~关闭爬虫是自动的过程，不要过于纠结，写保存的文件的代码就行了~~）

3.代码实现（不包含创建项目的过程）

爬虫部分(douban.py)

import scrapy
from scrapy import Selector, Request
from scrapy.http import HtmlResponsefrom spider2107.items import MovieItemclass DoubanSpider(scrapy.Spider):name = "douban"allowed_domains = ["movie.douban.com"]def start_requests(self):for page in range(10):yield Request(url=f'https://movie.douban.com/top250?start={page * 25}')def parse(self, response: HtmlResponse, **kwargs):sel = Selector(response)list_items = sel.css('#content > div > div.article > ol > li')for list_item in list_items:movie_item = MovieItem()movie_item['title'] = list_item.css('span.title::text').extract_first()movie_item['rank'] = list_item.css('span.rating_num::text').extract_first()movie_item['subject'] = list_item.css('span.inq::text').extract_first()yield movie_item

item对象(items.py)

import scrapyclass MovieItem(scrapy.Item):title = scrapy.Field()rank = scrapy.Field()subject = scrapy.Field()

设置请求头(settings.py)找到对应的位置取消注释并修改即可

USER_AGENT = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 ""Safari/537.36 Edg/117.0.2045.47")

导入写入execl表时需要的库

pip install openpyxl

管道文件（pipelines.py）

import openpyxlclass Spider2107Pipeline:def __init__(self):self.wb = openpyxl.Workbook()self.ws = self.wb.activeself.ws.title = "top250"self.ws.append(('标题', '评分', '主题'))def close_spider(self, spider):self.wb.save('电影数据.xlsx')def process_item(self, item, spider):title = item.get('title', '')rank = item.get('rank', '')subject = item.get('subject', '')self.ws.append((title, rank, subject))return item

配置管道（settings.py）找到对应的位置取消注释并修改即可

ITEM_PIPELINES = {"spider2107.pipelines.Spider2107Pipeline": 300,
}

4.结果展示

挖取数据

放入execl

查看全文

http://www.dtcms.com/a/458257.html

女的和女的做那个视频网站用win2003做网站

No酒店网站建设羊毛网站建设视频

商业网站源码免费下载wordpress网站打开满

自己做付费网站网站网页设计

我的世界做圆网站企业网站推广目标

【LLM开发学习三---LangGraph】

大模型—扩散模型原理讲解

移动wap网站减粘装置反应塔的特点

黄冈网站设计推广哪家好wordpress需要懂什么

企业网站首页排版分析html静态网页模板下载

网站开发培训费多少钱导出 wordpress

网站服务器规划用户数好的广告片拍摄制作公司

计算机操作系统：操作系统的基本特性

赤峰网站建设培训学校大沥九江网站制作

YourTV 你的电视TV v2.0.4清爽版智能电视看电视直播软件APP 高清流畅

SAP MDG —— MDG on S/4HANA 2025 创新汇总

网页版传奇网站wordpress网站添加微信支付

Python自动化开发：批量发送邮件通知

爱站网在线全集私人影视重庆绝美的十大冷门景点

襄阳城乡建设局网站首页大连网络推广机构

网盘视频直接做网站1m的带宽做网站可以吗

String operations 字符操作相关接口详解

Linux小课堂: 自由软件的崛起与发行版生态全景解析

wordpress 时间网站子页面如何做seo

wordpress网站从零深圳公司网站推广

长春网站制作推广南宁网页制作步骤

亳州网站开发公司哪里能找到网站

做网站要注册公司吗永久免费linux服务器

手机上网站重庆市建设工程信息网安全

网站模板素材.net网站

爬取豆瓣电影2022年Top250部经典电影

1.项目概述

2.实现步骤

3.代码实现（不包含创建项目的过程）

4.结果展示

相关文章：