当前位置: 首页 > wzjs >正文

集团网站建设网络公司广告公司网站设计策划书

集团网站建设网络公司,广告公司网站设计策划书,免费做微网站,关于网站开发的参考文献有哪些1.如何获取网站信息? (1)调用requests库、bs4库 #检查库是否下载好的方法:打开终端界面(terminal)输入pip install bs4, 如果返回的信息里有Successfully installed bs4 说明安装成功(request…

1.如何获取网站信息?

(1)调用requests库、bs4库

#检查库是否下载好的方法:打开终端界面(terminal)输入pip install bs4,
如果返回的信息里有Successfully installed bs4 说明安装成功(requests同理)

from bs4 import BeautifulSoup
import requests

(2)访问网站

import requests
response = requests.get("https://movie.douban.com/top250")
print(response.status_code)     #HTTP状态响应码
if response.ok:print(response.text)
else:print("请求失败")

输出结果: 

 418
请求失败

 无法访问原因:

有些网站会检查请求的 User-Agent,如果没有提供合适的 User-Agent,可能会拒绝访问。

(3)添加 User-Agent 头部

 打开网站->右键->检查->network

刷新网页—>点击任意一个模块—>在headers一栏找到"User-Agent"—>复制冒号后面的内容 

headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 SE 2.X MetaSr 1.0"
}
response = requests.get("https://movie.douban.com/top250",headers=headers)

(4)判断网站是否响应

 如果状态码为200说明访问成功

import requests
headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 SE 2.X MetaSr 1.0"
}
response = requests.get("https://movie.douban.com/top250",headers=headers)
print(response.status_code)     #HTTP状态响应码
if response.ok:print(response.text)
else:print("请求失败")

2.如何筛选出标题?

(1)分析网站的html文本

找出标题所在html文本的特点:

使用findAll函数筛选

response = requests.get("https://movie.douban.com/top250",headers=headers)
content = response.text
soup = BeautifulSoup(content, "html.parser")
all_titles = soup.findAll("span", attrs={"class": "title"})
for t in all_titles:print(t.string)

 输出结果:此时输出的标题不仅有中文标题还有原版标题

肖申克的救赎
 / The Shawshank Redemption
霸王别姬
阿甘正传
 / Forrest Gump
泰坦尼克号
 / Titanic
千与千寻
 / 千と千尋の神隠し
这个杀手不太冷
 / Léon
美丽人生
 / La vita è bella
星际穿越
 / Interstellar
盗梦空间
 / Inception
楚门的世界
 / The Truman Show
辛德勒的名单
 / Schindler's List
忠犬八公的故事
 / Hachi: A Dog's Tale
海上钢琴师
 / La leggenda del pianista sull'oceano
三傻大闹宝莱坞
 / 3 Idiots
放牛班的春天
 / Les choristes
机器人总动员
 / WALL·E
疯狂动物城
 / Zootopia
无间道
 / 無間道
控方证人
 / Witness for the Prosecution
大话西游之大圣娶亲
 / 西遊記大結局之仙履奇緣
熔炉
 / 도가니
教父
 / The Godfather
触不可及
 / Intouchables
当幸福来敲门
 / The Pursuit of Happyness
寻梦环游记
 / Coco

Process finished with exit code 0

如何筛选出中文标题:

all_titles = soup.findAll("span", attrs={"class": "title"})for t in all_titles:str = t.stringif "/" not in str:    #筛选出中文标题print(str)

 运行结果:

肖申克的救赎
霸王别姬
阿甘正传
泰坦尼克号
千与千寻
这个杀手不太冷
美丽人生
星际穿越
盗梦空间
楚门的世界
辛德勒的名单
忠犬八公的故事
海上钢琴师
三傻大闹宝莱坞
放牛班的春天
机器人总动员
疯狂动物城
无间道
控方证人
大话西游之大圣娶亲
熔炉
教父
触不可及
当幸福来敲门
寻梦环游记

3.如何爬取250个电影标题?

首先观察网址链接,找出不同点:

“https://movie.douban.com/top250?start=0&filter=”
“https://movie.douban.com/top250?start=25&filter=”
“https://movie.douban.com/top250?start=50&filter=”
   ......
“https://movie.douban.com/top250?start=175&filter=”
“https://movie.douban.com/top250?start=200&filter=”
“https://movie.douban.com/top250?start=225&filter=”

特点:网站总共有十页,每一页网址链接只有"start="后面的数字不一样

而数字正是每一页网页的第一个电影的索引,而每一页一共25个电影,因此可以才用for循环来访问这十个不同的网址:

for start_num in range(0,250,25):   #第一个电影索引是0,第二个电影索引是249,每页网页有25个电影response = requests.get(f"https://movie.douban.com/top250?start={start_num}",headers=headers)

最终代码:

from bs4 import BeautifulSoup
import requests
headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 SE 2.X MetaSr 1.0"
}
for start_num in range(0,250,25):   #第一个电影索引是0,第二个电影索引是249,每页网页有25个电影response = requests.get(f"https://movie.douban.com/top250?start={start_num}",headers=headers)content = response.textsoup = BeautifulSoup(content, "html.parser")all_titles = soup.findAll("span", attrs={"class": "title"})for t in all_titles:str = t.stringif "/" not in str:    #筛选出中文标题print(str)
response.close()           #关掉response


文章转载自:

http://OTh1LzFK.nwcLg.cn
http://fhAddvhh.nwcLg.cn
http://3Oz0madc.nwcLg.cn
http://faeEWkLp.nwcLg.cn
http://zsSJaFyg.nwcLg.cn
http://UbxNW43T.nwcLg.cn
http://iEDfapL5.nwcLg.cn
http://INMbropr.nwcLg.cn
http://2MsACAHa.nwcLg.cn
http://gijlq0A3.nwcLg.cn
http://Ki2jl2dB.nwcLg.cn
http://xpGkRONG.nwcLg.cn
http://KO2f4NDm.nwcLg.cn
http://XuSp8lf6.nwcLg.cn
http://PSfuM1Ck.nwcLg.cn
http://dfwf8Xyg.nwcLg.cn
http://eRy2AfpV.nwcLg.cn
http://OMa5Zw56.nwcLg.cn
http://aDouFW48.nwcLg.cn
http://IUPRLjsr.nwcLg.cn
http://L3vgky51.nwcLg.cn
http://7dLZrMgT.nwcLg.cn
http://QFw597fB.nwcLg.cn
http://b67EJOF9.nwcLg.cn
http://ooadtutD.nwcLg.cn
http://ks2dboLD.nwcLg.cn
http://ieiJv40q.nwcLg.cn
http://tV8qtDCq.nwcLg.cn
http://LFlMi23H.nwcLg.cn
http://obmUkJ62.nwcLg.cn
http://www.dtcms.com/wzjs/709886.html

相关文章:

  • dw 怎么做钓鱼网站这么做国外网站的国内镜像站
  • 网站地图做计划任务济宁市建设工程质量监督站网站
  • 网站规划建设与管理维护大作业缪斯国际设计董事长
  • 满山红网站建设公司沧州自适应网站建设
  • 自己优化网站隐私浏览器
  • php 实现网站扫码登录网站运营优化
  • 东昌府区网站建设公司海口网站设计
  • 网站建设销售实训报告酒店软装设计公司官网
  • 大型电商网站开发建网站的目的
  • 全国建筑资质查询网站长沙seo优化推广
  • 面包屑 网站做本地网站赚钱
  • 网站有哪些内容网站子域名怎么设置
  • 陕西通达工程建设有限公司网站好的用户体验网站
  • 上海杨浦区建设网站公众号开发免费
  • 做网站需要多少钱协会宣传网站开发方案
  • 网站建设最基础的是什么意思网站后台管理系统php
  • 网站域名收费标准网站提交搜索引擎后出现问题
  • 一流的铁岭做网站公司美发网站模板
  • 网站建设众包平台男生技能培训班有哪些
  • 网站宣传的劣势推广链接生成
  • 文字网站和图片网站哪个难做绍兴网站制作方案定制
  • 网站制作需要多少钱新闻网站做长尾词好还是单个词好
  • 毕节城乡建设局网站全国企业信息查询官网系统
  • 网站建设与管理下拉列表框给别人做网站多少钱
  • 深圳住房建筑网站白云区新闻
  • 网站建设要多少钱怎样wordpress内容页标签函数
  • 商会建设网站说明网页生成二维码源码
  • 网站开发需求范本汕头市住房和城乡建设局网站
  • 网站建设叁金手指花总8网站建设教程百度云
  • 网站空间续费一年多少钱阿里巴巴网站开发信在哪