当前位置: 首页 > wzjs >正文

企业产品网站源码wordpress最新文章id

企业产品网站源码,wordpress最新文章id,wordpress上注入,河南艾特 网站建设公司需求是将贴吧的【某个吧】里面【n页】的网页代码爬取下来,保存至本地 首先我们要思考这个贴吧爬虫的框架,要有方法可以构造url列表(就可以一次获取多个url),能请求获取相应,能把html保存到本地。 import …

需求是将贴吧的【某个吧】里面【n页】的网页代码爬取下来,保存至本地

首先我们要思考这个贴吧爬虫的框架,要有方法可以构造url列表(就可以一次获取多个url),能请求获取相应,能把html保存到本地。

import requestsclass TiebaSpider(object): # 初始化核心组件def __init__(self):  ....要有url要有headersdef 构造url列表(self):  passdef 获取响应(self):  passdef 保存(self):  passdef run(self):     '''主要业务逻辑'''#url列表#发送请求获取响应#保存if __name__ == '__main__':  TiebaSpider=TiebaSpider()TiebaSpider.run()

一、初始化核心组件
找到贴吧某个吧【lol吧】的url: https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=450
pn是确定页面的参数,450/50=9,0是第1页,9是第10页

self.start_url = 'https://tieba.baidu.com/f?kw='+tieba_name+'&ie=utf-8&pn={}'
self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

二、构造url列表
需要构建一个空列表,

format() 的基本功能作用:将变量值填充到字符串的 {} 占位符中。
def get_url_list(self):# 构造URL列表url_list = []for i in range(10): #循环10次,也就是10页url_list.append(self.start_url.format(i*50))                                                        # print(url_list)  #检测url写对没return url_list  #然后返回url_list

不想写了,明天再继续

n、整体代码

import requestsclass TiebaSpider(object): #集成object 面向对象def __init__(self,tieba_name):  #init# 初始化核心组件  #https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=450   pn是页面,一页50条self.tieba_name = tieba_name  #这样才可以在别的方法里使用到传过来的tieba_name,以 self.tieba_name 变量来使用self.start_url = 'https://tieba.baidu.com/f?kw='+tieba_name+'&ie=utf-8&pn={}'self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"}def get_url_list(self):# 构造URL列表'''url_list = []for i in range(10): #10次10页url_list.append(self.start_url.format(i*50))                                                               # print(url_list) #检测url写对没return url_list  #然后返回url_list'''# 列表推导式(List Comprehension)是 Python 中一种简洁高效的构建列表的方式,可以替代显式的 for 循环和 append 操作。想要看结果也可以把推导式保存至变量,然后print出来return [self.start_url.format(i*50) for i in range(10)]def parse_url(self,url):print(url)# 发送请求,得到响应response = requests.get(url,headers=self.headers)response.encoding = 'utf-8'return response.text  #返回的值是网页代码def save_html(self,html,page_num):# 保存 tieba_name-第i页.html# print(page_num)with open(self.tieba_name+'-第'+str(page_num)+'页.html','w',encoding='utf-8') as f:f.write(html)def run(self):     #run方法'''主要业务逻辑'''#构造URL列表url_list = self.get_url_list() #调用所以这个列表会保存到url_list里面#遍历 发送请求获取响应for url in url_list:  #循环列表里元素个数的次数,然后每次把列表里面的元素按顺序赋值给urlhtml = self.parse_url(url) #调用此方法传参url,所以方法里面要接受url,参数要加上url# print(html)page_num = url_list.index(url) + 1  #index()前面的对象要是列表,url只是列表里面的一个元素,是一个str类型#保存self.save_html(html,page_num) #调用此方法传参html,所以方法里面要接受html,参数要加上html。然后把page_num传给save_html()方法# exit()  #循环第一次就退出if __name__ == '__main__':  #mainTiebaSpider = TiebaSpider('lol')  #实例化这个类  lol贴吧名TiebaSpider.run()

文章转载自:

http://AahqJSKi.yfcyh.cn
http://mkU1G0Y2.yfcyh.cn
http://d54s0FrT.yfcyh.cn
http://U28YW0eK.yfcyh.cn
http://hsRyCnQg.yfcyh.cn
http://7hVcu1an.yfcyh.cn
http://tAliIagq.yfcyh.cn
http://DBAoIudp.yfcyh.cn
http://3FZkoCeg.yfcyh.cn
http://L3Iatdg8.yfcyh.cn
http://WVcC47IA.yfcyh.cn
http://IQHE5pZa.yfcyh.cn
http://5S6BndMN.yfcyh.cn
http://mEVwHplr.yfcyh.cn
http://91hlORjo.yfcyh.cn
http://WqGrprpQ.yfcyh.cn
http://2WR8fcHV.yfcyh.cn
http://a6HNTh1R.yfcyh.cn
http://k95Z1mA3.yfcyh.cn
http://USKElEAV.yfcyh.cn
http://BXmV2f5y.yfcyh.cn
http://UCp3xjtf.yfcyh.cn
http://lp7lykAy.yfcyh.cn
http://qC4fdQtc.yfcyh.cn
http://1N6o4s5u.yfcyh.cn
http://iSLx007V.yfcyh.cn
http://X6gMfWr7.yfcyh.cn
http://BytS2LUB.yfcyh.cn
http://lNDfy2CM.yfcyh.cn
http://eppY76ZM.yfcyh.cn
http://www.dtcms.com/wzjs/721870.html

相关文章:

  • 设计风格网站泰安网站建设报价
  • 无锡网站制作.30个无加盟费的项目
  • 温州人才网站开发深圳有哪些外贸公司
  • 关于建设旅游网站的书籍企业信用网查询系统
  • 做国外网站什么好中国建筑官网一测
  • 苏州做网站便宜的公司哪家好北京软件开发公司排
  • php的网站数据库如何上传wordpress记录点击数
  • 想做网站建设直接点击链接就能玩的小游戏
  • 山东人才招聘网seo模拟点击算法
  • 哪些招聘网站做海外招聘网站整站程序
  • 邢台做移动网站多少钱凡科建设的网站如何
  • 国外h5制作网站温州十大网络公司排名
  • 简单网站制作教程小工具文本wordpress
  • 制作网站需要什么知识王也夫
  • 河南省建设厅注册中心网站首页做茶叶网站的目的和规划
  • 网站开发公司怎么选择爱客是什么牌子档次
  • 博罗做网站公司网址你懂我意思正能量不用下载
  • 网上自学平台郑州哪里培训网站建设优化好一点
  • 手机网站快速建设wordpress怎么社交分享
  • 电子商务网站开发目的和意义ueditor如何上传wordpress
  • 湖北联兴建设有限公司网站手机网站预约表单
  • 南京城市规划建设展览馆网站数字化平台建设
  • 网站集约化建设什么意思做外贸网站要花多少钱
  • 从化做网站建设妇产医院网站源码
  • 如何做好一个网站的推广做一个公司网站价格
  • 一个网站建立团队大概要多少钱wordpress 改网站介绍
  • 网站建设加工做软件页面设计的软件
  • 临沂网站建设哪家更好重庆食品公司
  • 常州网络网站建设乌兰浩特市建设局网站
  • 如何做购物网站的后台增城网站建设价格