当前位置: 首页 > news >正文

合肥网站建设q479185700棒有没有做生物科技相关的网站

合肥网站建设q479185700棒,有没有做生物科技相关的网站,网络营销软文,wordpress调用文章代码爬取豆瓣电影top250 需求分析 将爬取的数据导入到表格中,方便人为查看。 实现方法 三大功能 1,下载所有网页内容。 2,处理网页中的内容提取自己想要的数据 3,导入到表格中 分析网站结构需要提取的内容 代码 import requests…

爬取豆瓣电影top250

需求分析

将爬取的数据导入到表格中,方便人为查看。

实现方法

三大功能
1,下载所有网页内容。
2,处理网页中的内容提取自己想要的数据
3,导入到表格中

分析网站结构需要提取的内容

在这里插入图片描述

代码

import requests
from bs4 import BeautifulSoup
import pprint
import json
import pandas as pd
import time# 构造分页数字列表
page_indexs = range(0, 250, 25)
list(page_indexs)# 请求头
headers = {'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/1'
}# 下载所有的网页然后交给下一个函数处理
def download_all_htmls():htmls = []for idx in page_indexs:url = "https://movie.douban.com/top250?start={}&filter=".format(idx)print("craw html", url)r = requests.get(url, headers=headers)if r.status_code != 200:raise Exception("error")htmls.append(r.text)time.sleep(0.5)return htmls# 解析HTML得到数据def parse_single_html(html):# 使用BeautifulSoup处理网页,传入参数html,使用html.parser模式处理soup = BeautifulSoup(html, 'html.parser')# 使用BeautifulSoup匹配想要的内容,使用find函数article_items = (soup.find("div", class_="article").find("ol", class_="grid_view").find_all("div", class_="item"))datas = []# 内容比较多分步提取内容for article_item in article_items:rank = article_item.find("div", class_="pic").find("em").get_text()info = article_item.find("div", class_="info")title = info.find("div", class_="hd").find("span", class_="title").get_text()stars = (info.find("div", class_="bd").find("div", class_="star").find_all("span"))rating_star = stars[0]["class"][0]rating_num = stars[1].get_text()comments = stars[3].get_text()datas.append({"rank": rank,"title": title,"rating_star": rating_star.replace("rating", "").replace("-t", ""),"rating_num": rating_num,"comments": comments.replace("人评价", "")})return dataspprint.pprint()if __name__ == '__main__':# 下载所有的网页内容htmls = download_all_htmls()# pprint.pprint(parse_single_html(htmls[0]))# 解析网页内容并追到all_datas的列表中all_datas = []for html in htmls:all_datas.extend(parse_single_html(html))# 使用pandas模块,批量导入到表格中df = pd.DataFrame(all_datas)df.to_excel("doubanTOP250.xlsx")

效果图

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考文章

https://www.bilibili.com/video/BV1CY411f7yh/?p=15

http://www.dtcms.com/a/605915.html

相关文章:

  • 响应式网站内容布局吉林网站模板
  • 制约楼宇自动化控制系统应用的两大因素:需求匹配与落地能力
  • 反编译易语言 | 解析易语言反编译技术与实践应用
  • 大全!桥梁结构健康实时自动化监测预警——测量设备讲解+架构
  • 快站免费网站建设哪家好网站前面的logo标志
  • 【期末网页设计作业】HTML+CSS+JS 美食分享主题网站设计与实现(附源码)
  • 修复Flyme移植BUG
  • asp 网站管理系统品牌策略有哪些
  • 网站订票策划方案建筑交流平台
  • Python可以爬取哪些公开金融数据
  • 2025年微软MOS认证考试备考计划
  • 微软Office下线“重用幻灯片”功能,WPS反向升级:AI让旧功能焕新生
  • seo优化网站推广专员招聘富德生命人寿保险公司官方网站
  • 济南 营销型网站建设北京动画视频制作公司
  • 智能指针简介
  • 从零实现轻量级C++ Web框架:SimpleHttpServer入门指南
  • 怎样确保CMS系统与现有设备的兼容?
  • 桓台县网站建设wordpress加输入框
  • 今日行情明日机会——20251113
  • 手机访问wordpress网站卡营销型网站有哪些功能
  • 三轴云台之自平衡控制技术
  • 局域网 IP 扫描工具 Ping IP 检查局域网设备
  • 共模电感与差模电感作用有哪些?
  • 网站正能量大全wordpress添加专题功能
  • 网站怎样做公众号免费dedecms企业网站模板
  • 诗人做的网站大连巨人网络推广有限公司
  • MongoDB的基本操作(适配Node.js全栈项目)
  • 产品全生命周期运营建设简析
  • GPT-4V 赋能癌症病理诊断:上下文学习(ICL)创新方法与实现全解析
  • 方案分享:一款基于高性能单片机的落日灯方案