当前位置: 首页 > wzjs >正文

创一东莞网站建设cms文章管理系统

创一东莞网站建设,cms文章管理系统,Wordpress无法显示,wordpress接入熊掌号爬取豆瓣电影top250 需求分析 将爬取的数据导入到表格中,方便人为查看。 实现方法 三大功能 1,下载所有网页内容。 2,处理网页中的内容提取自己想要的数据 3,导入到表格中 分析网站结构需要提取的内容 代码 import requests…

爬取豆瓣电影top250

需求分析

将爬取的数据导入到表格中,方便人为查看。

实现方法

三大功能
1,下载所有网页内容。
2,处理网页中的内容提取自己想要的数据
3,导入到表格中

分析网站结构需要提取的内容

在这里插入图片描述

代码

import requests
from bs4 import BeautifulSoup
import pprint
import json
import pandas as pd
import time# 构造分页数字列表
page_indexs = range(0, 250, 25)
list(page_indexs)# 请求头
headers = {'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/1'
}# 下载所有的网页然后交给下一个函数处理
def download_all_htmls():htmls = []for idx in page_indexs:url = "https://movie.douban.com/top250?start={}&filter=".format(idx)print("craw html", url)r = requests.get(url, headers=headers)if r.status_code != 200:raise Exception("error")htmls.append(r.text)time.sleep(0.5)return htmls# 解析HTML得到数据def parse_single_html(html):# 使用BeautifulSoup处理网页,传入参数html,使用html.parser模式处理soup = BeautifulSoup(html, 'html.parser')# 使用BeautifulSoup匹配想要的内容,使用find函数article_items = (soup.find("div", class_="article").find("ol", class_="grid_view").find_all("div", class_="item"))datas = []# 内容比较多分步提取内容for article_item in article_items:rank = article_item.find("div", class_="pic").find("em").get_text()info = article_item.find("div", class_="info")title = info.find("div", class_="hd").find("span", class_="title").get_text()stars = (info.find("div", class_="bd").find("div", class_="star").find_all("span"))rating_star = stars[0]["class"][0]rating_num = stars[1].get_text()comments = stars[3].get_text()datas.append({"rank": rank,"title": title,"rating_star": rating_star.replace("rating", "").replace("-t", ""),"rating_num": rating_num,"comments": comments.replace("人评价", "")})return dataspprint.pprint()if __name__ == '__main__':# 下载所有的网页内容htmls = download_all_htmls()# pprint.pprint(parse_single_html(htmls[0]))# 解析网页内容并追到all_datas的列表中all_datas = []for html in htmls:all_datas.extend(parse_single_html(html))# 使用pandas模块,批量导入到表格中df = pd.DataFrame(all_datas)df.to_excel("doubanTOP250.xlsx")

效果图

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考文章

https://www.bilibili.com/video/BV1CY411f7yh/?p=15

http://www.dtcms.com/wzjs/580929.html

相关文章:

  • 网站打开的速度特别慢的原因网站不用工具开发建设
  • 网站建设宣传ppt模板下载flash个人网站动画
  • 农业网站开发南宁led大屏投放
  • 青岛工程建设监理公司网站阳江网胜
  • 网站托管要求国产软件开发工具
  • 贵阳软件制作做搜狗网站优化
  • 开网站赚50万做邯郸信息港人才招聘
  • 如何不用百度推广做网站北京设计制作公司
  • 灰色行业网站如何查询网站点击量
  • 做网站必须会编程吗河南网站定制
  • 做视频网站需要哪些条件如何建设网站 企业
  • 个人求职网站履历怎么做如何做跨境电商需要哪些条件
  • 网站文章更新网站宣传用了最字
  • 创意策划网站怎么做网络推广招聘
  • 素材网站建设需要多少费用WordPress静态文件存储
  • iis网站启动不了如何建立一个免费的网站
  • 主机托管网站广告公司经营范围怎么写最好
  • 网站建设案例新闻阿里巴巴上做网站要多少钱
  • 网站申请收录多元网站
  • 七台河建网站学电商
  • 风铃微网站怎么做东莞详细页设计
  • 国外网站欣赏衡水网站设计公司哪家好
  • 中国电子建设公司网站wordpress app模板下载失败
  • 怎样创建自己公司的网站wordpress禁止百度转码
  • 做网站需要会哪些知识百度快照查询
  • 商务网站模板下载汕头百度公司
  • wordpress admin-ajax.php 漏洞泰安网站建设优化
  • 外链提高网站权重网络互联网推广
  • 小企业怎么做网站简历在线制作免费
  • 凡科网站怎么做授权查询对亚马逊网站做简要分析与评价