当前位置：首页 > wzjs >正文

电子商务网站建设教案百度网页版入口

wzjs 2025/7/26 18:25:02

电子商务网站建设教案,百度网页版入口,中国企业排名前十名,加快wordpress爬取豆瓣电影2022年Top250部经典电影 1.项目概述从https://movie.douban/top250爬取电影的标题、评分、主题。我在之前使用普通的爬虫实现了类似的功能，可以对比来进行学习（Python爬虫——爬虫基础模块和类库（附实践项目）&#…

爬取豆瓣电影2022年Top250部经典电影

1.项目概述

从https://movie.douban/top250爬取电影的标题、评分、主题。我在之前使用普通的爬虫实现了类似的功能，可以对比来进行学习（Python爬虫——爬虫基础模块和类库（附实践项目））

2.实现步骤

1.将response对象包装成一个Selector对象

sel = Selector(response)

2.在网页（第几页无所谓）打开‘检查’，找到我们需要爬取的区域，复制selector，用于css解析。（对应生成list_items)

#content > div > div.article > ol > li# 获取后需要把li后面的nth-child()去掉，这样我们就获取到所有包含在li中的信息。上面是去掉nth-child后的代码

3.在爬虫中将指定爬取的区域写成css选择器，并返回文本信息

list_item.css('span.title::text').extract_first()#意义为选择在span标签下为title属性的text类型数据
#由于css选择器返回的对象仍然为css选择器对象，需要使用extract_first使其以字符串类型返回
#选择使用extract_first是为了只获取电影的中文标题
#其他的css选择器与之类似

4.将爬虫爬取到的数据组装成为Item对象——>在items.py中编写MovieItem类，并在爬虫中实例化。将实例化的对象以生成器的形式返回。

5.分析页面的导航栏，可知每个页面的起始电影等于（页面-1）*25。使用for循环就可以爬取后续的页面

for page in range(10):yield Request(url=f'https://movie.douban.com/top250?start={page * 25}')# 生成器返回的对象为Request对象

6.运行爬虫，并将数据写入csv文件中

scrapy crawl douban -o douban.csv

7.将数据写入execl文件：在管道pipelines中写初始化函数（__init__)创建的表和关闭爬虫时保存execl文件的操作（~~关闭爬虫是自动的过程，不要过于纠结，写保存的文件的代码就行了~~）

3.代码实现（不包含创建项目的过程）

爬虫部分(douban.py)

import scrapy
from scrapy import Selector, Request
from scrapy.http import HtmlResponsefrom spider2107.items import MovieItemclass DoubanSpider(scrapy.Spider):name = "douban"allowed_domains = ["movie.douban.com"]def start_requests(self):for page in range(10):yield Request(url=f'https://movie.douban.com/top250?start={page * 25}')def parse(self, response: HtmlResponse, **kwargs):sel = Selector(response)list_items = sel.css('#content > div > div.article > ol > li')for list_item in list_items:movie_item = MovieItem()movie_item['title'] = list_item.css('span.title::text').extract_first()movie_item['rank'] = list_item.css('span.rating_num::text').extract_first()movie_item['subject'] = list_item.css('span.inq::text').extract_first()yield movie_item

item对象(items.py)

import scrapyclass MovieItem(scrapy.Item):title = scrapy.Field()rank = scrapy.Field()subject = scrapy.Field()

设置请求头(settings.py)找到对应的位置取消注释并修改即可

USER_AGENT = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 ""Safari/537.36 Edg/117.0.2045.47")

导入写入execl表时需要的库

pip install openpyxl

管道文件（pipelines.py）

import openpyxlclass Spider2107Pipeline:def __init__(self):self.wb = openpyxl.Workbook()self.ws = self.wb.activeself.ws.title = "top250"self.ws.append(('标题', '评分', '主题'))def close_spider(self, spider):self.wb.save('电影数据.xlsx')def process_item(self, item, spider):title = item.get('title', '')rank = item.get('rank', '')subject = item.get('subject', '')self.ws.append((title, rank, subject))return item

配置管道（settings.py）找到对应的位置取消注释并修改即可

ITEM_PIPELINES = {"spider2107.pipelines.Spider2107Pipeline": 300,
}

4.结果展示

挖取数据

放入execl

查看全文

http://www.dtcms.com/wzjs/103640.html

建网电气有限公司优化问题

文山网站建设公司百度指数在线查询工具

wordpress插件放到哪seo推广平台

网站开发问题优化防控举措

用服务器做网站seo优化排名营销

建筑公司企业使命和愿景大全百度seo优化网站

做动态网站必学seo规范培训

网站建设模板报价seo流量增加软件

做动图的网站36优化大师下载安装

互联网营销的方法有哪些优化网站找哪家

厦门市建设工程安全质量协会网站百度收录最新方法

温岭手机网站建设全国最好网络优化公司

网站建设项目描述范文推56论坛

wordpress邮件客户端专业seo整站优化

如何上传网站企业网络推广的方法有哪些

可以拔下来做的网站吗百度推广运营怎么做

wordpress如何发布文件seo技术外包公司

苏州网站建设外贸如何营销推广

怎么做徐州市环保局网站备案表网络最有效的推广方法

网站建设费一般摊销几年做公司网站

新闻网站建设评比规则搜索引擎网站入口

最好用的网站推广经验百度霸屏推广一般多少钱

做网站做小程序推广外链免费发布平台

网站安全检测官网google play下载官方版

网站备案证图片百家号关键词排名优化

做外贸推广哪个网站好百度指数平台官网

企业网站轮播图网络营销毕业论文8000字

怎样在网站是做宣传百度推广费用一年多少钱

手机评测网站百度推广开户费用

上海建设电动车官方网站西安网站优化

爬取豆瓣电影2022年Top250部经典电影

1.项目概述

2.实现步骤

3.代码实现（不包含创建项目的过程）

4.结果展示

相关文章：