当前位置: 首页 > wzjs >正文

顶呱呱网站建设是外包的吗建筑三维建模

顶呱呱网站建设是外包的吗,建筑三维建模,电子商务网站建设实验报告,织梦企业网站爬取豆瓣电影top250 需求分析 将爬取的数据导入到表格中,方便人为查看。 实现方法 三大功能 1,下载所有网页内容。 2,处理网页中的内容提取自己想要的数据 3,导入到表格中 分析网站结构需要提取的内容 代码 import requests…

爬取豆瓣电影top250

需求分析

将爬取的数据导入到表格中,方便人为查看。

实现方法

三大功能
1,下载所有网页内容。
2,处理网页中的内容提取自己想要的数据
3,导入到表格中

分析网站结构需要提取的内容

在这里插入图片描述

代码

import requests
from bs4 import BeautifulSoup
import pprint
import json
import pandas as pd
import time# 构造分页数字列表
page_indexs = range(0, 250, 25)
list(page_indexs)# 请求头
headers = {'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/1'
}# 下载所有的网页然后交给下一个函数处理
def download_all_htmls():htmls = []for idx in page_indexs:url = "https://movie.douban.com/top250?start={}&filter=".format(idx)print("craw html", url)r = requests.get(url, headers=headers)if r.status_code != 200:raise Exception("error")htmls.append(r.text)time.sleep(0.5)return htmls# 解析HTML得到数据def parse_single_html(html):# 使用BeautifulSoup处理网页,传入参数html,使用html.parser模式处理soup = BeautifulSoup(html, 'html.parser')# 使用BeautifulSoup匹配想要的内容,使用find函数article_items = (soup.find("div", class_="article").find("ol", class_="grid_view").find_all("div", class_="item"))datas = []# 内容比较多分步提取内容for article_item in article_items:rank = article_item.find("div", class_="pic").find("em").get_text()info = article_item.find("div", class_="info")title = info.find("div", class_="hd").find("span", class_="title").get_text()stars = (info.find("div", class_="bd").find("div", class_="star").find_all("span"))rating_star = stars[0]["class"][0]rating_num = stars[1].get_text()comments = stars[3].get_text()datas.append({"rank": rank,"title": title,"rating_star": rating_star.replace("rating", "").replace("-t", ""),"rating_num": rating_num,"comments": comments.replace("人评价", "")})return dataspprint.pprint()if __name__ == '__main__':# 下载所有的网页内容htmls = download_all_htmls()# pprint.pprint(parse_single_html(htmls[0]))# 解析网页内容并追到all_datas的列表中all_datas = []for html in htmls:all_datas.extend(parse_single_html(html))# 使用pandas模块,批量导入到表格中df = pd.DataFrame(all_datas)df.to_excel("doubanTOP250.xlsx")

效果图

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考文章

https://www.bilibili.com/video/BV1CY411f7yh/?p=15

http://www.dtcms.com/wzjs/574595.html

相关文章:

  • 寻找做网站的网站案例展示
  • 网站如何做电脑和手机伊春网络推广
  • 新吴网站建设域名注册阿里
  • 网站建设应该注意的问题鞍钢贴吧
  • 360度全景网站的公司在线简历制作
  • 制作网站案例网址查logo的网站
  • 如何做全景网站网站建设对接模版
  • 杭州公司网站开发做demo的网站
  • 外贸鞋的网站建设做h5页面的网站哪个好
  • 重庆帝一网络网站建设专家网站开发前台后台怎么交互
  • 响应式网站常用宽度小白如何搭建一个网站
  • seo网站优化培训怎么做自己创建平台型网站
  • 青海休闲网站建设公司网站制作流程是什么
  • 网站建设的搜索栏怎么设置上海定制建设网站
  • 还有做网站的必要吗网页制作教程ps
  • 网站不支持下载的视频怎么下载网络应用开发
  • 东莞网站建设提供商直播源码
  • 福州企业网站建设哈尔滨做网站seo的
  • 外贸网站怎么营销南昌网站设计专业
  • 电商网站模板引擎网站推广的方法有哪些
  • 做市场调查分析的网站如何用手机创建网站
  • 知名排版网站资深的家居行业网站模板
  • 广州技术支持 网站建设怎样用ps做网站的效果图
  • 对网站进行seo优化jsp做简单校园网站
  • 如何在服务器建设iis网站云南高端网站建设公司
  • 网站新闻编辑怎么做seo网络培训学校
  • 如何做公司网站制作电商网站运营方案
  • 网页制作大宝库天津关键词优化专家
  • 网站开发培训光山大良营销网站建设效果
  • erp .net网站开发网站开发主要运用什么技术