当前位置: 首页 > wzjs >正文

网站建设加推广需要多少钱如何创建网站教程

网站建设加推广需要多少钱,如何创建网站教程,晋江网站建设报价,WordPress微信高级机器人爬取豆瓣电影top250 需求分析 将爬取的数据导入到表格中,方便人为查看。 实现方法 三大功能 1,下载所有网页内容。 2,处理网页中的内容提取自己想要的数据 3,导入到表格中 分析网站结构需要提取的内容 代码 import requests…

爬取豆瓣电影top250

需求分析

将爬取的数据导入到表格中,方便人为查看。

实现方法

三大功能
1,下载所有网页内容。
2,处理网页中的内容提取自己想要的数据
3,导入到表格中

分析网站结构需要提取的内容

在这里插入图片描述

代码

import requests
from bs4 import BeautifulSoup
import pprint
import json
import pandas as pd
import time# 构造分页数字列表
page_indexs = range(0, 250, 25)
list(page_indexs)# 请求头
headers = {'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/1'
}# 下载所有的网页然后交给下一个函数处理
def download_all_htmls():htmls = []for idx in page_indexs:url = "https://movie.douban.com/top250?start={}&filter=".format(idx)print("craw html", url)r = requests.get(url, headers=headers)if r.status_code != 200:raise Exception("error")htmls.append(r.text)time.sleep(0.5)return htmls# 解析HTML得到数据def parse_single_html(html):# 使用BeautifulSoup处理网页,传入参数html,使用html.parser模式处理soup = BeautifulSoup(html, 'html.parser')# 使用BeautifulSoup匹配想要的内容,使用find函数article_items = (soup.find("div", class_="article").find("ol", class_="grid_view").find_all("div", class_="item"))datas = []# 内容比较多分步提取内容for article_item in article_items:rank = article_item.find("div", class_="pic").find("em").get_text()info = article_item.find("div", class_="info")title = info.find("div", class_="hd").find("span", class_="title").get_text()stars = (info.find("div", class_="bd").find("div", class_="star").find_all("span"))rating_star = stars[0]["class"][0]rating_num = stars[1].get_text()comments = stars[3].get_text()datas.append({"rank": rank,"title": title,"rating_star": rating_star.replace("rating", "").replace("-t", ""),"rating_num": rating_num,"comments": comments.replace("人评价", "")})return dataspprint.pprint()if __name__ == '__main__':# 下载所有的网页内容htmls = download_all_htmls()# pprint.pprint(parse_single_html(htmls[0]))# 解析网页内容并追到all_datas的列表中all_datas = []for html in htmls:all_datas.extend(parse_single_html(html))# 使用pandas模块,批量导入到表格中df = pd.DataFrame(all_datas)df.to_excel("doubanTOP250.xlsx")

效果图

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考文章

https://www.bilibili.com/video/BV1CY411f7yh/?p=15

http://www.dtcms.com/wzjs/23842.html

相关文章:

  • 一般做网站用什么语言引擎搜索是什么意思
  • 网站开发翻译功能北京it培训机构哪家好
  • 内蒙古建设厅网站营销方式有哪几种
  • 成都网站建设公司排行百度员工收入工资表
  • 徐州做网站管理的公司百度投放
  • 提升学历的好处有哪些seo基础入门
  • 网站维护工作计划小程序制作费用一览表
  • 网站前台建设用到哪些工具免费的网页网站
  • 如何注销网站广州网站快速排名
  • 贵阳有做网站的公司吗百度旗下推广平台有哪些
  • 如何做网站计数器360搜图片识图
  • 赛事竞猜网站开发店铺推广
  • 平面设计用到的软件有哪些常用seo站长工具
  • java电商网站开发视频网络营销策划方案模板范文
  • asp动态网站被攻击百度推广关键词排名在哪看
  • 做淘宝券网站seo关键词使用
  • 高端网站建设服务seo店铺描述例子
  • 软件商店正版下载安装专业关键词优化平台
  • 陕西省住房和城乡建设厅网站上怎么打印证书网站关键词查询网址
  • 上海网站seo公司软文营销是什么意思
  • 个人网站做淘宝客如何备案湖南网站建设推广优化
  • 项目加盟代理商怀化网站seo
  • 景点网站开发积极意义百度号码认证平台取消标记
  • 做网站jijianjianzhanseoul是啥意思
  • 旅游的网站怎么做的app运营需要做哪些
  • 做led灯网站有哪些呢yandex引擎
  • 做一个app需要什么流程百度问答seo
  • 东莞公司建设网站新型实体企业100强
  • 用dreamweaver8做网站不限制内容的搜索引擎
  • 苹果软件做ppt模板下载网站有哪些汕头百度关键词推广