当前位置: 首页 > wzjs >正文

色情网站是否需要备案怎么开一个网站平台

色情网站是否需要备案,怎么开一个网站平台,常见的办公网网站开发,简单的公司资料网站怎么做需求是将贴吧的【某个吧】里面【n页】的网页代码爬取下来,保存至本地 首先我们要思考这个贴吧爬虫的框架,要有方法可以构造url列表(就可以一次获取多个url),能请求获取相应,能把html保存到本地。 import …

需求是将贴吧的【某个吧】里面【n页】的网页代码爬取下来,保存至本地

首先我们要思考这个贴吧爬虫的框架,要有方法可以构造url列表(就可以一次获取多个url),能请求获取相应,能把html保存到本地。

import requestsclass TiebaSpider(object): # 初始化核心组件def __init__(self):  ....要有url要有headersdef 构造url列表(self):  passdef 获取响应(self):  passdef 保存(self):  passdef run(self):     '''主要业务逻辑'''#url列表#发送请求获取响应#保存if __name__ == '__main__':  TiebaSpider=TiebaSpider()TiebaSpider.run()

一、初始化核心组件
找到贴吧某个吧【lol吧】的url: https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=450
pn是确定页面的参数,450/50=9,0是第1页,9是第10页

self.start_url = 'https://tieba.baidu.com/f?kw='+tieba_name+'&ie=utf-8&pn={}'
self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

二、构造url列表
需要构建一个空列表,

format() 的基本功能作用:将变量值填充到字符串的 {} 占位符中。
def get_url_list(self):# 构造URL列表url_list = []for i in range(10): #循环10次,也就是10页url_list.append(self.start_url.format(i*50))                                                        # print(url_list)  #检测url写对没return url_list  #然后返回url_list

不想写了,明天再继续

n、整体代码

import requestsclass TiebaSpider(object): #集成object 面向对象def __init__(self,tieba_name):  #init# 初始化核心组件  #https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=450   pn是页面,一页50条self.tieba_name = tieba_name  #这样才可以在别的方法里使用到传过来的tieba_name,以 self.tieba_name 变量来使用self.start_url = 'https://tieba.baidu.com/f?kw='+tieba_name+'&ie=utf-8&pn={}'self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"}def get_url_list(self):# 构造URL列表'''url_list = []for i in range(10): #10次10页url_list.append(self.start_url.format(i*50))                                                               # print(url_list) #检测url写对没return url_list  #然后返回url_list'''# 列表推导式(List Comprehension)是 Python 中一种简洁高效的构建列表的方式,可以替代显式的 for 循环和 append 操作。想要看结果也可以把推导式保存至变量,然后print出来return [self.start_url.format(i*50) for i in range(10)]def parse_url(self,url):print(url)# 发送请求,得到响应response = requests.get(url,headers=self.headers)response.encoding = 'utf-8'return response.text  #返回的值是网页代码def save_html(self,html,page_num):# 保存 tieba_name-第i页.html# print(page_num)with open(self.tieba_name+'-第'+str(page_num)+'页.html','w',encoding='utf-8') as f:f.write(html)def run(self):     #run方法'''主要业务逻辑'''#构造URL列表url_list = self.get_url_list() #调用所以这个列表会保存到url_list里面#遍历 发送请求获取响应for url in url_list:  #循环列表里元素个数的次数,然后每次把列表里面的元素按顺序赋值给urlhtml = self.parse_url(url) #调用此方法传参url,所以方法里面要接受url,参数要加上url# print(html)page_num = url_list.index(url) + 1  #index()前面的对象要是列表,url只是列表里面的一个元素,是一个str类型#保存self.save_html(html,page_num) #调用此方法传参html,所以方法里面要接受html,参数要加上html。然后把page_num传给save_html()方法# exit()  #循环第一次就退出if __name__ == '__main__':  #mainTiebaSpider = TiebaSpider('lol')  #实例化这个类  lol贴吧名TiebaSpider.run()
http://www.dtcms.com/wzjs/516196.html

相关文章:

  • 北京官网建设多少钱一键优化是什么意思
  • 新网站的站点验证北京优化网站推广
  • 我想注册网站我怎么做如何规划企业网络推广方案
  • 太原推广型网站建设如何优化网站首页
  • 手机免费建站教程企业网站推广方案策划
  • 西语网站域名页面关键词优化
  • 上海品牌网站建设公司排名百度推广账户搭建
  • 南宁有做网站的公司吗那种网站怎么搜关键词
  • EDI许可证需要的网站怎么做合肥网站设计
  • 地方性网站商城怎么做郑州网站排名优化公司
  • 怎么用动态网站模板青岛app开发公司
  • 网站服务器容器兰州seo优化公司
  • 哪个网站可以免费做音乐相册网页设计作品
  • 乐山做网站新开网站
  • 西安 医疗网站建设建站之星网站
  • 做名片最好的网站百度竞价sem
  • 免费拓客100个方法seo 排名 优化
  • wordpress单页面主题重庆网站优化
  • 定制型网站建设合同范本免费seo技术教程
  • 浦东网站建设公司营销案例分析报告模板
  • 电子商务网站建设pdf百度指数的数值代表什么
  • 怎样在网站上做办公家具搜索引擎 磁力吧
  • 网站建设论文500字在线排名优化工具
  • 免费企业网站建设哪家seo自学网免费
  • 东莞网站制作培训多少钱合肥网络推广服务
  • 南充做网站略奥网络廊坊百度快照优化哪家服务好
  • 沙漠风网站建设电商培训机构哪家好
  • 好大夫网站开发单位seo网站运营
  • 宁波网站建设制作搜索引擎营销案例分析题
  • 武汉网络安全培训重庆小潘seo