当前位置: 首页 > wzjs >正文

音乐网站设计规划书网业小说畅读服务

音乐网站设计规划书,网业小说畅读服务,网络营销是什么的促销,中山微网站建设报价提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、网址分析与代码 前言 提示:这里可以添加本文要记录的大概内容: 爬虫案例六用协程爬取趣笔阁 提示:以下是本篇文章正文内…

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、网址分析与代码


前言

提示:这里可以添加本文要记录的大概内容:
爬虫案例六用协程爬取趣笔阁


提示:以下是本篇文章正文内容,下面案例可供参考

一、网址分析与代码

爬取正本小说,首先在目录首页要提取到所有章节urls,然后再根据urls逐一访问并下载内容。
爬取的网址
分析发现要提取的url都在源代码上,这一步提取urls不需要协程直接访问用xpath提取就行,前12个urls去掉就行了。我们只提取正文的url

def get_all_urls():url = "https://www.biqugecd.net/20_20612/"session = requests.session()session.headers = {"":""#请求头自行添加}resp = session.get(url)resp.encoding = 'gbk'page = etree.HTML(resp.text)names = page.xpath(".//div[@class='listmain']/dl/dd/a/text()")[12:]urls = page.xpath(".//div[@class='listmain']/dl/dd/a/@href")[12:]result = []for name, url_ in zip(names, urls):result.append({"name": name,"url": urljoin(url, url_)})return result

在这里插入图片描述
接下来进入小说章节内容页,发现数据页是在源代码上,也可以通过xpath提取,不过数据有很多空白和一些无用的数据需要做下清理,我去掉了第一个和后4个的无用数据行,并用join连接列表,用re正则去除空白。并用协程下载内容。

detail_headers = {"":"" #请求头自行添加
}
async def download_one(chapter):url = chapter['url']name = chapter['name']async with aiohttp.ClientSession(headers=detail_headers) as session:async with session.get(url) as resp:html = await resp.text(encoding='gbk')print(html)# 解析htmltree = etree.HTML(html)content = re.sub("\s","","".join(tree.xpath(".//div[@id='content']//text()")[1:-4]))async with aiofiles.open(name + ".txt",mode="w",encoding="utf-8") as f:await f.write(content)print(name, "保存完毕")async def download_all_chapters(all_chapter_urls):tasks = []for dic in all_chapter_urls:t = asyncio.create_task(download_one(dic))tasks.append(t)await asyncio.wait(tasks)

在这里插入图片描述
启动代码如下:

def main():# 1.得到所有章节的url 这里我设置只爬取5个url 全开怕对面崩了!!!all_chapter_urls = get_all_urls()[:5]print(len(all_chapter_urls))# 2.异步协程下载所有章节loop = asyncio.get_event_loop()loop.run_until_complete(download_all_chapters(all_chapter_urls))if __name__ == '__main__':main()

我只爬取了前5个url,测试了自己写的代码是否有效,并没有直接全跑了,因为感觉对面服务器不咋的…我怂的很哈哈哈
在这里插入图片描述



文章转载自:

http://yIQovGKt.skbkq.cn
http://npY94vzt.skbkq.cn
http://F2oDVDiz.skbkq.cn
http://bGUMdtOD.skbkq.cn
http://xjLO2Dzk.skbkq.cn
http://mPe37BYV.skbkq.cn
http://yRcLLo5X.skbkq.cn
http://jAnyu0rv.skbkq.cn
http://xrhiHw78.skbkq.cn
http://XBP3o7v8.skbkq.cn
http://EOHyUolw.skbkq.cn
http://Ay3SwwLz.skbkq.cn
http://DWIsWBbt.skbkq.cn
http://1TUPuvdS.skbkq.cn
http://v0j1VGU8.skbkq.cn
http://y2jcRo3S.skbkq.cn
http://abNmj3uu.skbkq.cn
http://6F6xkjIG.skbkq.cn
http://Hn2d9tN5.skbkq.cn
http://cyHDtPo1.skbkq.cn
http://fKcOQ41M.skbkq.cn
http://0PCnJw72.skbkq.cn
http://fvam0Lci.skbkq.cn
http://xEdqLpit.skbkq.cn
http://BvQUvrvo.skbkq.cn
http://OCE8bTs0.skbkq.cn
http://vOrzkbVG.skbkq.cn
http://SIBs5Kfr.skbkq.cn
http://qtdVhcgx.skbkq.cn
http://gd8xKGBk.skbkq.cn
http://www.dtcms.com/wzjs/754492.html

相关文章:

  • 手机网站建设策划方案做产品表情的网站
  • 昆明建设局网站号码免费网站建设朋友交流
  • 中国建设劳动学会是假网站吗wordpress媒体库图片太多
  • 平台如何制作网站创意交易平台网
  • 十大那种直播软件衡阳企业seo优化首选
  • 网站制作预付款会计分录简单企业网站用什么
  • 网上写作最好的网站神马收录提交入口
  • 响应式网站排版app小程序怎么开发
  • 长沙做网站的包吃包住4000微芒科技网站建设top
  • 网站百度收录查询湖北网站推广策略
  • gps建站步骤有没有代做毕业设计的网站
  • 甘肃省水利厅引洮工程建设管理局网站定制网站的价格低
  • 怎么做网页站点建设一个网站的设备
  • 网站建设国内现状网站源码爬取
  • 海尔网站建设信息艺术字体在线设计免费版
  • acfun网站设计改进wordpress 音乐自动播放
  • 哪些企业会考虑做网站网站开发维护合同样板
  • 青岛路桥建设集团有限公司网站小白建设论坛网站
  • 河北省建设工程招投标管理网站江西省宜春市建设局网站
  • 四川省建设厅网站官网个人登录百度免费下载安装百度
  • 如何在百度上做公司做网站托管公司哪家好
  • 网站想自己做怎么弄商丘做网站公司
  • 石家庄网站怎么建设房管局网站做房查
  • asp.net网站第一次运行慢运营商网站服务密码
  • 建设工程检测预约网站icp是什么意思啊
  • 茂名市制作网站的公司网站首页导航代码
  • 惠东网站设计长春微建站是哪个平台的
  • 大连免费网站制作自己怎么免费做百度推广
  • 网站建设费计入哪个科目江西建设厅特殊工种的网站
  • 外链提高网站权重社交软件