当前位置: 首页 > wzjs >正文

2014苏州建设银行招聘网站网络舆情的网站

2014苏州建设银行招聘网站,网络舆情的网站,国家企业信用信息公示系统官网山东,敬请期待造句提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、网址分析与代码 前言 提示:这里可以添加本文要记录的大概内容: 爬虫案例六用协程爬取趣笔阁 提示:以下是本篇文章正文内…

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、网址分析与代码


前言

提示:这里可以添加本文要记录的大概内容:
爬虫案例六用协程爬取趣笔阁


提示:以下是本篇文章正文内容,下面案例可供参考

一、网址分析与代码

爬取正本小说,首先在目录首页要提取到所有章节urls,然后再根据urls逐一访问并下载内容。
爬取的网址
分析发现要提取的url都在源代码上,这一步提取urls不需要协程直接访问用xpath提取就行,前12个urls去掉就行了。我们只提取正文的url

def get_all_urls():url = "https://www.biqugecd.net/20_20612/"session = requests.session()session.headers = {"":""#请求头自行添加}resp = session.get(url)resp.encoding = 'gbk'page = etree.HTML(resp.text)names = page.xpath(".//div[@class='listmain']/dl/dd/a/text()")[12:]urls = page.xpath(".//div[@class='listmain']/dl/dd/a/@href")[12:]result = []for name, url_ in zip(names, urls):result.append({"name": name,"url": urljoin(url, url_)})return result

在这里插入图片描述
接下来进入小说章节内容页,发现数据页是在源代码上,也可以通过xpath提取,不过数据有很多空白和一些无用的数据需要做下清理,我去掉了第一个和后4个的无用数据行,并用join连接列表,用re正则去除空白。并用协程下载内容。

detail_headers = {"":"" #请求头自行添加
}
async def download_one(chapter):url = chapter['url']name = chapter['name']async with aiohttp.ClientSession(headers=detail_headers) as session:async with session.get(url) as resp:html = await resp.text(encoding='gbk')print(html)# 解析htmltree = etree.HTML(html)content = re.sub("\s","","".join(tree.xpath(".//div[@id='content']//text()")[1:-4]))async with aiofiles.open(name + ".txt",mode="w",encoding="utf-8") as f:await f.write(content)print(name, "保存完毕")async def download_all_chapters(all_chapter_urls):tasks = []for dic in all_chapter_urls:t = asyncio.create_task(download_one(dic))tasks.append(t)await asyncio.wait(tasks)

在这里插入图片描述
启动代码如下:

def main():# 1.得到所有章节的url 这里我设置只爬取5个url 全开怕对面崩了!!!all_chapter_urls = get_all_urls()[:5]print(len(all_chapter_urls))# 2.异步协程下载所有章节loop = asyncio.get_event_loop()loop.run_until_complete(download_all_chapters(all_chapter_urls))if __name__ == '__main__':main()

我只爬取了前5个url,测试了自己写的代码是否有效,并没有直接全跑了,因为感觉对面服务器不咋的…我怂的很哈哈哈
在这里插入图片描述


http://www.dtcms.com/wzjs/537729.html

相关文章:

  • 江苏网站建设网站排名优化wordpress网站前台打开慢
  • 网站 什么语言开发的网站推广--html关键词代码解说
  • 专门做丝印反查的收费网站网站建设攻略
  • 介绍一学一做视频网站酒店网站建站
  • 建站合同wordpress电商ar
  • 如何建设学校网站有教做鱼骨图的网站吗
  • 深圳网站制作网站建设怎么制作网站深圳博纳什么网站空间稳定
  • 企业网站的开发背景中小企业网站制作
  • 2016个人做淘宝客网站营业执照年审登录入口
  • 很长的网站域名怎么做短wordpress国内现状
  • 阿里云用什么系统做网站好wordpress建站环境
  • 如何查网站的icp备案四川建设网官网安全员证书查询
  • 网站左侧悬浮代码专业建设规划及实施方案
  • 四川网站建设找哪家湖南微信网站公司
  • 企业做自己的网站要注意什么手工制作书签
  • wordpress设置页面透明度郑州seo外包顾问
  • 河南网站建设设计价格wordpress mysql加速
  • 婚介做网站的好处嘉峪关建设路小学网站
  • 开封市建设局网站中国经济排名世界第几
  • 在线做3d交互的网站页面设计怎么写
  • 织梦网站更改主页链接能看外国网站的浏览器
  • 无代码网站开发平台有哪些wordpress管理后台没有登陆
  • 终端平台网站建设wordpress 的数据库路径
  • 抚顺市 网站建设加盟类网站怎么做
  • 山东网站建站系统平台集团制度建设网站
  • 秦皇岛是属于哪个省的城市外贸seo教程
  • 哪个网站开发小程序免费的关键词优化工具
  • 网站SEO优化实训做球服的网站有哪些
  • 信用泰安网站华为seo诊断及优化分析
  • 百度网站分析工具网站简历模板