当前位置: 首页 > wzjs >正文

网站建设加推广需要多少钱网络营销推广的特点

网站建设加推广需要多少钱,网络营销推广的特点,文化建设ppt,网站竞价 英文爬取豆瓣电影top250 需求分析 将爬取的数据导入到表格中,方便人为查看。 实现方法 三大功能 1,下载所有网页内容。 2,处理网页中的内容提取自己想要的数据 3,导入到表格中 分析网站结构需要提取的内容 代码 import requests…

爬取豆瓣电影top250

需求分析

将爬取的数据导入到表格中,方便人为查看。

实现方法

三大功能
1,下载所有网页内容。
2,处理网页中的内容提取自己想要的数据
3,导入到表格中

分析网站结构需要提取的内容

在这里插入图片描述

代码

import requests
from bs4 import BeautifulSoup
import pprint
import json
import pandas as pd
import time# 构造分页数字列表
page_indexs = range(0, 250, 25)
list(page_indexs)# 请求头
headers = {'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/1'
}# 下载所有的网页然后交给下一个函数处理
def download_all_htmls():htmls = []for idx in page_indexs:url = "https://movie.douban.com/top250?start={}&filter=".format(idx)print("craw html", url)r = requests.get(url, headers=headers)if r.status_code != 200:raise Exception("error")htmls.append(r.text)time.sleep(0.5)return htmls# 解析HTML得到数据def parse_single_html(html):# 使用BeautifulSoup处理网页,传入参数html,使用html.parser模式处理soup = BeautifulSoup(html, 'html.parser')# 使用BeautifulSoup匹配想要的内容,使用find函数article_items = (soup.find("div", class_="article").find("ol", class_="grid_view").find_all("div", class_="item"))datas = []# 内容比较多分步提取内容for article_item in article_items:rank = article_item.find("div", class_="pic").find("em").get_text()info = article_item.find("div", class_="info")title = info.find("div", class_="hd").find("span", class_="title").get_text()stars = (info.find("div", class_="bd").find("div", class_="star").find_all("span"))rating_star = stars[0]["class"][0]rating_num = stars[1].get_text()comments = stars[3].get_text()datas.append({"rank": rank,"title": title,"rating_star": rating_star.replace("rating", "").replace("-t", ""),"rating_num": rating_num,"comments": comments.replace("人评价", "")})return dataspprint.pprint()if __name__ == '__main__':# 下载所有的网页内容htmls = download_all_htmls()# pprint.pprint(parse_single_html(htmls[0]))# 解析网页内容并追到all_datas的列表中all_datas = []for html in htmls:all_datas.extend(parse_single_html(html))# 使用pandas模块,批量导入到表格中df = pd.DataFrame(all_datas)df.to_excel("doubanTOP250.xlsx")

效果图

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考文章

https://www.bilibili.com/video/BV1CY411f7yh/?p=15

http://www.dtcms.com/wzjs/11178.html

相关文章:

  • wordpress超级菜单南宁seo排名首页
  • 什么是营销网站微信引流主动被加软件
  • 51制作工厂网站在线观看无需选择长沙官网seo推广
  • 中天建设集团有限公司总网站网站怎么才能被百度收录
  • 深圳网络营销网站推广方法微博推广方式有哪些
  • 怎么用html5做自适应网站百度seo推广优化
  • 做中文网站的公司seo sem优化
  • web前端开发流程优化软件有哪些
  • 网站主机空间用哪个好网络营销推广工作内容
  • 勒流网站建设sem代运营托管公司
  • 网站建设的一般过程包括哪些内容中央电视台一套广告价目表
  • 网站备案 有效期站长工具域名解析
  • 国外html5做网站磁力链
  • 为什么要用h5建站市场seo是什么意思
  • 怎么对网站的数据库做管理谷歌浏览器网页版入口在哪里
  • 做网站多少钱百度网站安全检测
  • wordpress不显示文章标题最优化方法
  • 视频 播放网站怎么做的推广app拉人头赚钱
  • 四川网站建设服务淄博头条新闻今天
  • 个人网站制作模板图片seo培训师
  • 做线下活动的网站域名买卖交易平台
  • 做网站用哪个eclipse有了域名怎么建网站
  • 长春 美容 网站建设搜索关键词
  • easyui做门户网站百度官方客服
  • 随州网站建设学习千锋教育
  • 北京市地铁建设公司网站百度收录入口在哪里
  • 软件开发网站能做seo吗白度
  • 做大数据和网站开发的前景软文怎么写比较吸引人
  • 建设网站入什么科目网络营销推广公司
  • 做网站费用是什么外包seo服务口碑好