当前位置: 首页 > wzjs >正文

附近的网站建设公司微信搜索推广

附近的网站建设公司,微信搜索推广,wordpress阿里云短信,网站怎么注销备案号爬取豆瓣电影top250 需求分析 将爬取的数据导入到表格中,方便人为查看。 实现方法 三大功能 1,下载所有网页内容。 2,处理网页中的内容提取自己想要的数据 3,导入到表格中 分析网站结构需要提取的内容 代码 import requests…

爬取豆瓣电影top250

需求分析

将爬取的数据导入到表格中,方便人为查看。

实现方法

三大功能
1,下载所有网页内容。
2,处理网页中的内容提取自己想要的数据
3,导入到表格中

分析网站结构需要提取的内容

在这里插入图片描述

代码

import requests
from bs4 import BeautifulSoup
import pprint
import json
import pandas as pd
import time# 构造分页数字列表
page_indexs = range(0, 250, 25)
list(page_indexs)# 请求头
headers = {'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/1'
}# 下载所有的网页然后交给下一个函数处理
def download_all_htmls():htmls = []for idx in page_indexs:url = "https://movie.douban.com/top250?start={}&filter=".format(idx)print("craw html", url)r = requests.get(url, headers=headers)if r.status_code != 200:raise Exception("error")htmls.append(r.text)time.sleep(0.5)return htmls# 解析HTML得到数据def parse_single_html(html):# 使用BeautifulSoup处理网页,传入参数html,使用html.parser模式处理soup = BeautifulSoup(html, 'html.parser')# 使用BeautifulSoup匹配想要的内容,使用find函数article_items = (soup.find("div", class_="article").find("ol", class_="grid_view").find_all("div", class_="item"))datas = []# 内容比较多分步提取内容for article_item in article_items:rank = article_item.find("div", class_="pic").find("em").get_text()info = article_item.find("div", class_="info")title = info.find("div", class_="hd").find("span", class_="title").get_text()stars = (info.find("div", class_="bd").find("div", class_="star").find_all("span"))rating_star = stars[0]["class"][0]rating_num = stars[1].get_text()comments = stars[3].get_text()datas.append({"rank": rank,"title": title,"rating_star": rating_star.replace("rating", "").replace("-t", ""),"rating_num": rating_num,"comments": comments.replace("人评价", "")})return dataspprint.pprint()if __name__ == '__main__':# 下载所有的网页内容htmls = download_all_htmls()# pprint.pprint(parse_single_html(htmls[0]))# 解析网页内容并追到all_datas的列表中all_datas = []for html in htmls:all_datas.extend(parse_single_html(html))# 使用pandas模块,批量导入到表格中df = pd.DataFrame(all_datas)df.to_excel("doubanTOP250.xlsx")

效果图

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考文章

https://www.bilibili.com/video/BV1CY411f7yh/?p=15


文章转载自:

http://FaDtPSHE.pccqr.cn
http://rtkmQpty.pccqr.cn
http://KWak8vCd.pccqr.cn
http://3zcTqR1a.pccqr.cn
http://Q5b3sPs5.pccqr.cn
http://6xzD45j2.pccqr.cn
http://U1R3eDwo.pccqr.cn
http://PvaMjIXU.pccqr.cn
http://nPZo5GB2.pccqr.cn
http://FZesPRZM.pccqr.cn
http://Ek5wqQjI.pccqr.cn
http://r8m5etwV.pccqr.cn
http://1xTsFDrz.pccqr.cn
http://4MOrbXoV.pccqr.cn
http://VOgZpSPo.pccqr.cn
http://OpDW1fee.pccqr.cn
http://wUW1ejzm.pccqr.cn
http://WIPagMwz.pccqr.cn
http://DzUasWTo.pccqr.cn
http://YKI79Tsk.pccqr.cn
http://CXlcLJA9.pccqr.cn
http://0pSNlkCt.pccqr.cn
http://NNPrOtZO.pccqr.cn
http://vNlnzAkc.pccqr.cn
http://P01jPDpH.pccqr.cn
http://6zbBQr3N.pccqr.cn
http://YKI3wPxs.pccqr.cn
http://22fcXtri.pccqr.cn
http://HrDQfGqq.pccqr.cn
http://wpeece8p.pccqr.cn
http://www.dtcms.com/wzjs/652523.html

相关文章:

  • 西安个人网站建设驻马店手机网站制作
  • 兰州网站建设方法网站备案审核通过时间
  • 哈尔滨做网站数据平台的公司品牌设计包装
  • 互动案例的网站天津低价做网站
  • 阿里巴巴国际站客户经理建设银行手机银行网站
  • 做网站开店游戏代理300元一天
  • 新乡营销网站建设烟台做网站那家好
  • 微网站开发+在线商城常州市城乡建设学院网站
  • 深圳网站建设公司平台免费的图库网站
  • 英文网站设计方案慈溪 网站建设
  • 会展中心网站平台建设方案网站设计书籍
  • 江门cms建站平面设计主要做的是什么
  • 企业介绍微网站怎么做上海工商网企业查询
  • 网站建设 响应式东莞城乡建设规划官网
  • 网站开发设计师薪资做h5的图片网站
  • 临沂市建设局官方网站怎样自学设计室内装修效果图
  • 做自媒体怎么在其它网站搬运内容搜狗网页游戏大厅
  • 一站式推广平台绵阳做手机网站建设
  • 贵阳网站建设1685网站建设的功能需求分析策划书
  • 学做网站必须php吗网站地址查询最新区域名
  • au网站怎么注册西宁网站建设哪家好
  • 手机网站做的比较好的网络推广需要多少费用
  • 做影视网站赚钱吗cms代码做网站
  • 网站后台如何备份专业优定软件网站建设
  • 模板网站制作电子商务网站的建设开发工具
  • 提供网站建设工具的公司中国建设银官方网站
  • 网站vi设计公司WordPress更新时间
  • 洛阳有建社网站的吗住房和建设局
  • 网站建设注册网络销售渠道
  • 网站建设前台后台中华建设网