当前位置: 首页 > wzjs >正文

河北建设厅身份认证锁登录网站石灰土做击实检测网站怎么填

河北建设厅身份认证锁登录网站,石灰土做击实检测网站怎么填,手机上怎么创建自己的网站,微网站平台微网站建设方案提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、网址分析与代码 前言 提示:这里可以添加本文要记录的大概内容: 爬虫案例六用协程爬取趣笔阁 提示:以下是本篇文章正文内…

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、网址分析与代码


前言

提示:这里可以添加本文要记录的大概内容:
爬虫案例六用协程爬取趣笔阁


提示:以下是本篇文章正文内容,下面案例可供参考

一、网址分析与代码

爬取正本小说,首先在目录首页要提取到所有章节urls,然后再根据urls逐一访问并下载内容。
爬取的网址
分析发现要提取的url都在源代码上,这一步提取urls不需要协程直接访问用xpath提取就行,前12个urls去掉就行了。我们只提取正文的url

def get_all_urls():url = "https://www.biqugecd.net/20_20612/"session = requests.session()session.headers = {"":""#请求头自行添加}resp = session.get(url)resp.encoding = 'gbk'page = etree.HTML(resp.text)names = page.xpath(".//div[@class='listmain']/dl/dd/a/text()")[12:]urls = page.xpath(".//div[@class='listmain']/dl/dd/a/@href")[12:]result = []for name, url_ in zip(names, urls):result.append({"name": name,"url": urljoin(url, url_)})return result

在这里插入图片描述
接下来进入小说章节内容页,发现数据页是在源代码上,也可以通过xpath提取,不过数据有很多空白和一些无用的数据需要做下清理,我去掉了第一个和后4个的无用数据行,并用join连接列表,用re正则去除空白。并用协程下载内容。

detail_headers = {"":"" #请求头自行添加
}
async def download_one(chapter):url = chapter['url']name = chapter['name']async with aiohttp.ClientSession(headers=detail_headers) as session:async with session.get(url) as resp:html = await resp.text(encoding='gbk')print(html)# 解析htmltree = etree.HTML(html)content = re.sub("\s","","".join(tree.xpath(".//div[@id='content']//text()")[1:-4]))async with aiofiles.open(name + ".txt",mode="w",encoding="utf-8") as f:await f.write(content)print(name, "保存完毕")async def download_all_chapters(all_chapter_urls):tasks = []for dic in all_chapter_urls:t = asyncio.create_task(download_one(dic))tasks.append(t)await asyncio.wait(tasks)

在这里插入图片描述
启动代码如下:

def main():# 1.得到所有章节的url 这里我设置只爬取5个url 全开怕对面崩了!!!all_chapter_urls = get_all_urls()[:5]print(len(all_chapter_urls))# 2.异步协程下载所有章节loop = asyncio.get_event_loop()loop.run_until_complete(download_all_chapters(all_chapter_urls))if __name__ == '__main__':main()

我只爬取了前5个url,测试了自己写的代码是否有效,并没有直接全跑了,因为感觉对面服务器不咋的…我怂的很哈哈哈
在这里插入图片描述


http://www.dtcms.com/wzjs/813546.html

相关文章:

  • wordpress重定向次数过多株洲seo网站推广
  • 简易博客网站模板下载wp网站模板
  • 灰色网站怎么做seowordpress id 缩略图
  • 网站建设第一品牌鄂尔多斯网站开发
  • 手机版网站怎么做的大型网站开发php框架
  • 有没有专门招代理的网站网站备案的要求
  • 网站建设七个步骤wordpress 做wiki
  • 采购网站建设百度seo搜索排名
  • 关于网站建设征求意见一级a做爰网站中国
  • 昌邑网站建设公司无备案网站广告如何做
  • 路由器当服务器做网站网站模板名称
  • 搜索引擎排名网站wordpress 中文伪静态
  • 深圳有没有维护公司网站wordpress文章页图片模式
  • 自己想做个网站怎么做小程序做网站登录
  • 冀州网站建设公司扁平风格网站 模板免费下载
  • 科技工作室网站模板合肥专业做网站的公司有哪些
  • 做网站自己买域名搜索网站怎么做的
  • 陕西 网站建设网站建设玖金手指排名12
  • 移动端网站开发框架营销型网站首页模板
  • 网站开发英文参考文献企业网站建设的步骤
  • 小型网站开发用什么语言网站 服务 套餐
  • 企业网站建设都需要什么准备网站开发频道构架
  • 电子商务网站建设基本流程图建设网站市场分析
  • 公司做网站的费用记什么科目商城网站模板库
  • 一级a做爰片阿v祥仔网站怎么做服务器网站下载链接
  • 网站制作是怎么做的做家政服务网站
  • 松溪网站建设wzjseo长沙企业网站排名
  • 行政审批网站建设规范网站设计难点
  • 住房和城乡建设部是国家认定网站吗wordpress个人博客安装
  • 专业做财务公司网站一般使用的分辨率是多少dpi