当前位置: 首页 > wzjs >正文

做商城网站费用沧州网站建设培训学校

做商城网站费用,沧州网站建设培训学校,网站建设 h5 小程序,做推广怎么让别人加你任务:爬取豆瓣最受欢迎的250个电影的资料 链接:豆瓣电影 Top 250 用浏览器打开后,使用F12或鼠标右键--检查,查看网页的源代码,分析网页结构,如下图所示: 分析后得知: 1.电影名位于…

任务:爬取豆瓣最受欢迎的250个电影的资料

链接:豆瓣电影 Top 250

用浏览器打开后,使用F12或鼠标右键--检查,查看网页的源代码,分析网页结构,如下图所示:

分析后得知:
1.电影名位于class为hd的div中,里边嵌套中一层a标签和span标签,最终目的地为<span class="title"></span> ;

2.电影评分位于class_="rating_num"的span中;

3. 电影资料位于class_="bd"的div中;

参见下图:

下面通过编写python代码,爬取最受欢迎250部电影的名字,评分和电影资料,并导出到movies.txt文件中, 下面简要说下编码实现过程:

1.导入2个第三方库:requests用于发送请求,bs4用于将复杂的网页代码结构解析成可读性强的书籍目录索引结构;

2.headers必不可少,很多网页都有反爬机制,使用headers能在一定程度绕开反爬机制,

3.按照上面分析出,提取出电影名,评分和电影资料,并存储到各自的集合中;

4.找出总面数,在for循环中逐页提取;

5.最后把所有页码中提取出来的信息输出到movies.txt文件中。

import bs4
import requestsheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}def get_response(url):response = requests.get(url, headers=headers)return responsedef find_movies(response):soup = bs4.BeautifulSoup(response.text, 'html.parser')#电影名movies = []targets = soup.find_all("div", class_="hd")for target in targets:movies.append(target.a.span.text)#电影评分ranks = []targets = soup.find_all("span", class_="rating_num")for target in targets:ranks.append('评分:%s'% target.text)#电影资料messages = []targets = soup.find_all("div", class_="bd")for target in targets:try:messages.append(target.p.text.split('\n')[1].strip()+target.p.text.split('\n')[2].strip())except:continueresult = []length = len(movies)for i in range(length):result.append((movies[i]+ranks[i]+messages[i]+'\n'))return result# 找出一共有多少页
def find_pages(response):soup = bs4.BeautifulSoup(response.text, 'html.parser')# 找到总页数total_pages = soup.find("span", class_="next").previous_sibling.previous_sibling.textreturn int(total_pages)# 爬取所有电影
def crawl_movies():url = 'https://movie.douban.com/top250'res = get_response(url)total_pages = find_pages(res)movies = []for i in range(total_pages):page_url = url + '?start=' + str(i*25)page_res = get_response(page_url)movies.extend(find_movies(page_res))with open('movies.txt', 'w', encoding='utf-8') as f:for movie in movies:f.write(movie)if __name__ == '__main__':crawl_movies()

温馨提示:爬虫一定要遵守网站的robot协议,友好爬取,别把对方的网站爬崩了。


文章转载自:

http://uYbQ404U.nfxps.cn
http://gXtvOzhj.nfxps.cn
http://Iw1lwACZ.nfxps.cn
http://FNdCRPO4.nfxps.cn
http://4g1w1NLf.nfxps.cn
http://G1zqeJf3.nfxps.cn
http://bmHxcfo2.nfxps.cn
http://m3YjKtXu.nfxps.cn
http://WM4sXbjl.nfxps.cn
http://XXRMJXHr.nfxps.cn
http://i4ji719L.nfxps.cn
http://0igG8Mn9.nfxps.cn
http://j38h8itg.nfxps.cn
http://DTmsNSwV.nfxps.cn
http://c3nM1veR.nfxps.cn
http://lE6VcmPQ.nfxps.cn
http://ko3HQZhS.nfxps.cn
http://mSHTBKv0.nfxps.cn
http://2RRpX04L.nfxps.cn
http://lOvw1yYa.nfxps.cn
http://ICTSmWnw.nfxps.cn
http://q3mRUZ8E.nfxps.cn
http://2x9rtYjP.nfxps.cn
http://73NbqeYs.nfxps.cn
http://FidzoY1R.nfxps.cn
http://EhWcxZhY.nfxps.cn
http://kA0ch6ki.nfxps.cn
http://MhpB66kp.nfxps.cn
http://qXuAMkUH.nfxps.cn
http://jlRcJoVn.nfxps.cn
http://www.dtcms.com/wzjs/717823.html

相关文章:

  • 天元建设集团有限公司网站肃宁县网站建设价格
  • 做面包有哪些网站知乎网站的搜索引擎方案
  • 济南高新网站建设成都装修报价明细
  • 广东网页设计网站某学校网站的安全建设方案
  • 台州高端网站设计外汇平台网站建设
  • 自己网站怎么做百度优化网站建设公司创业计划书
  • 中企动力销售怎么样一键优化内存
  • 重庆网站制作那家好电视剧手机网站大全
  • 如何制作网站的步骤建筑网农村别墅
  • 网站跳转qq网站建设开标书
  • 成都专业网站建设厂wordpress界面变宽
  • 网站镜像做排名网站推广技术
  • 订制网站建设招一个程序员可以做网站吗
  • 企业门户网站建设报告大庆seo公司
  • 建e网手机app新网站seo优化
  • 德文网站建设广西桂林商贸旅游技工学校
  • 手机微网站尺寸上海网站制作怎么样
  • 美食网站建设服务策划书推广网站建设语句
  • 网站定制化价格南昌seo计费管理
  • 江西宜春市城市建设档案馆网站网站营销活动页面制作
  • 建企业网站程序系统贴吧网站建设
  • 如何做好网站内链全国最大网站建站公司
  • 辽宁省品牌建设促进会网站ppt现成作品下载
  • 建设通网站信息有效吗合肥在线
  • 惠州网页建站模板免费网站建设魔坊
  • 企业网站备案管理系统导航特效网站
  • 外国人做中国英语视频网站模板网站建设咨询
  • 萝岗做网站无锡宜兴网站建设
  • 系统下载 网站 源码从化在哪里建设网站的
  • 福州市晋安区建设局网站西安优秀的集团门户网站建设公司