当前位置: 首页 > wzjs >正文

个人承接网站开发网站制作成本包含

个人承接网站开发,网站制作成本包含,电子产品在哪些网站做调研,苏州室内设计公司排名任务:爬取豆瓣最受欢迎的250个电影的资料 链接:豆瓣电影 Top 250 用浏览器打开后,使用F12或鼠标右键--检查,查看网页的源代码,分析网页结构,如下图所示: 分析后得知: 1.电影名位于…

任务:爬取豆瓣最受欢迎的250个电影的资料

链接:豆瓣电影 Top 250

用浏览器打开后,使用F12或鼠标右键--检查,查看网页的源代码,分析网页结构,如下图所示:

分析后得知:
1.电影名位于class为hd的div中,里边嵌套中一层a标签和span标签,最终目的地为<span class="title"></span> ;

2.电影评分位于class_="rating_num"的span中;

3. 电影资料位于class_="bd"的div中;

参见下图:

下面通过编写python代码,爬取最受欢迎250部电影的名字,评分和电影资料,并导出到movies.txt文件中, 下面简要说下编码实现过程:

1.导入2个第三方库:requests用于发送请求,bs4用于将复杂的网页代码结构解析成可读性强的书籍目录索引结构;

2.headers必不可少,很多网页都有反爬机制,使用headers能在一定程度绕开反爬机制,

3.按照上面分析出,提取出电影名,评分和电影资料,并存储到各自的集合中;

4.找出总面数,在for循环中逐页提取;

5.最后把所有页码中提取出来的信息输出到movies.txt文件中。

import bs4
import requestsheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}def get_response(url):response = requests.get(url, headers=headers)return responsedef find_movies(response):soup = bs4.BeautifulSoup(response.text, 'html.parser')#电影名movies = []targets = soup.find_all("div", class_="hd")for target in targets:movies.append(target.a.span.text)#电影评分ranks = []targets = soup.find_all("span", class_="rating_num")for target in targets:ranks.append('评分:%s'% target.text)#电影资料messages = []targets = soup.find_all("div", class_="bd")for target in targets:try:messages.append(target.p.text.split('\n')[1].strip()+target.p.text.split('\n')[2].strip())except:continueresult = []length = len(movies)for i in range(length):result.append((movies[i]+ranks[i]+messages[i]+'\n'))return result# 找出一共有多少页
def find_pages(response):soup = bs4.BeautifulSoup(response.text, 'html.parser')# 找到总页数total_pages = soup.find("span", class_="next").previous_sibling.previous_sibling.textreturn int(total_pages)# 爬取所有电影
def crawl_movies():url = 'https://movie.douban.com/top250'res = get_response(url)total_pages = find_pages(res)movies = []for i in range(total_pages):page_url = url + '?start=' + str(i*25)page_res = get_response(page_url)movies.extend(find_movies(page_res))with open('movies.txt', 'w', encoding='utf-8') as f:for movie in movies:f.write(movie)if __name__ == '__main__':crawl_movies()

温馨提示:爬虫一定要遵守网站的robot协议,友好爬取,别把对方的网站爬崩了。


文章转载自:

http://b0oPv7Yu.kpcxj.cn
http://0y1FDK3l.kpcxj.cn
http://TVFs5GhR.kpcxj.cn
http://g5GnYgzR.kpcxj.cn
http://GN63N7St.kpcxj.cn
http://VAHkwHix.kpcxj.cn
http://6kkf1LPj.kpcxj.cn
http://Li8cmoW9.kpcxj.cn
http://v860mWjK.kpcxj.cn
http://7BqiPVjR.kpcxj.cn
http://tSCXAAIy.kpcxj.cn
http://swaJuEya.kpcxj.cn
http://LtqcrDj7.kpcxj.cn
http://X6ADaNco.kpcxj.cn
http://dy18QwMo.kpcxj.cn
http://FWnj0Rd7.kpcxj.cn
http://jb7yok9l.kpcxj.cn
http://yEQBdtQL.kpcxj.cn
http://4fSDa8Pf.kpcxj.cn
http://22QB7iR0.kpcxj.cn
http://v2CbRFpz.kpcxj.cn
http://49V50iBV.kpcxj.cn
http://ONtieiax.kpcxj.cn
http://Aoy3Z2vN.kpcxj.cn
http://ICMqBMUW.kpcxj.cn
http://fco1rtMW.kpcxj.cn
http://G4E1nPYx.kpcxj.cn
http://P0TuVdlZ.kpcxj.cn
http://7eUbtjuP.kpcxj.cn
http://oohdR12n.kpcxj.cn
http://www.dtcms.com/wzjs/656646.html

相关文章:

  • 做卖东西的网站网页简单制作流程
  • 有哪些网站能够免费找到素材新手学做百度联盟网站
  • 小程序有做门户网站ps里怎么做微网站模板
  • 网站换源码如何保留以前的文章平面设计基础知识
  • 自动的小企业网站建设渠道游戏官网
  • 荆州市建设厅网站不懂代码怎么做网站
  • 网站开发名片怎么做广州游戏开发公司有哪些
  • 网站添加flashwordpress国外模板下载
  • 个人网站代码htmlipad wordpress 应用
  • 关于产品网站建设的问题北京校园网站建设
  • wordpress站点标题删除东莞哪家做网站比较好
  • 建立网站最好的模板医药网站制作
  • 邢台网站改版制作公司维修网站怎么做
  • 网站续费编辑器
  • 长沙做网站推广哪家好丰田车营销网站建设的纲要计划书
  • 服装公司网站定位西安网站设计哪家好
  • 网站推广计划渠道建筑人才网简历
  • 什么网站做任务的q币建站快车登陆
  • 三层架构做网站还是系统开车搜索关键词
  • 重庆科技网站设计模板移动端网站建设公司
  • 网站建设需要投资多少大连网站程序开发
  • 怎样添加网站图标深圳设计公司排名一百
  • 上海先进网站设计昆明网站排名优化报价
  • 成都网站设计合理柚v米科技王占山先进事迹
  • 网站建设找哪些平台建设工程教育网app下载
  • 南开网站建设优化seo网站有必要使用伪静态么
  • 购物网站的建设思维导图网站建设选哪个公司
  • 江门模板建站系统酒店网站开发
  • 郑州住房和城乡建设厅网站纵横天下网站建设
  • 策划书的网站网站的建设与维护步骤