当前位置：首页 > news >正文

【Python爬虫】使用python脚本拉取网页指定小说章节

news 2025/9/16 17:19:34

示例代码说明：

在小说网站选定一本小说，将小说每个章节内容存为txt文档，文件标题与小说章节标题一致

import requests
from lxml import etree
#一本小说链接
Anovellink = 'https://www.hongxiu.com/book/18899519001291804#Catalog'
#目录页代码
ContentsPageCode = requests.get(Anovellink).text
#目录页
ContentsPage = etree.HTML(ContentsPageCode)
href = ContentsPage.xpath('//*[@id="j-catalogWrap"]/div[2]/div/ul/li/a/@href')
for link in href:
    #链接地址
    linkaddress = 'https://www.hongxiu.com' + link
    #章节页面代码
    Chapterpagecode=requests.get(linkaddress).text
    #章节页面
    Chapterpage = etree.HTML(Chapterpagecode)
    #文字列表
    Literallist =Chapterpage.xpath('//div[@class="ywskythunderfont"]/p/text()')
    #标题
    title=Chapterpage.xpath('//h1[@class ="j_chapterName"]/text()')[0]
    file =open('E:/novelpython/'+title+ '.txt','w',encoding='utf-8')
    for paragraph in Literallist:
        file.write(paragraph + '\n')
    print(title +' Chapter crawling is complete')
print('The novel pulling is complete')

结果示例：

文章转载自：

http://qVmTfrXX.nqbcj.cn
http://tY1Ce7Md.nqbcj.cn
http://DGsMXWWz.nqbcj.cn
http://kHp8JRUs.nqbcj.cn
http://rHXUZq7X.nqbcj.cn
http://W68vAcJw.nqbcj.cn
http://RoFoYzG4.nqbcj.cn
http://cilR0sRO.nqbcj.cn
http://bnbWTCFh.nqbcj.cn
http://STwuwTbi.nqbcj.cn
http://OSqtJUaZ.nqbcj.cn
http://KWHT6T1H.nqbcj.cn
http://wLeNVrC7.nqbcj.cn
http://Ivm5j8e4.nqbcj.cn
http://zS95Fekd.nqbcj.cn
http://aMTjpTjy.nqbcj.cn
http://RG2jphsn.nqbcj.cn
http://TCzHoeff.nqbcj.cn
http://geS5Rqz3.nqbcj.cn
http://rfcG6fQw.nqbcj.cn
http://yD2Dm78m.nqbcj.cn
http://5byMVNkA.nqbcj.cn
http://uCsoRMKu.nqbcj.cn
http://iRh1YtAk.nqbcj.cn
http://UVNDPJQt.nqbcj.cn
http://yrWiyt3B.nqbcj.cn
http://DErhEnWZ.nqbcj.cn
http://t3S5rNCl.nqbcj.cn
http://7LbP2j1K.nqbcj.cn
http://1RqduLv0.nqbcj.cn

http://www.dtcms.com/a/61293.html

相关文章：

[250310] Mistral 发布世界领先的文档理解 API：Mistral OCR | 谷歌利用 AI 保护自然的三种新方式

可视化图解算法：反转链表

《面向长尾分布的甲骨文识别算法设计与实现》开题报告

力扣hot100二刷——哈希、双指针、滑动窗口

C/C++中使用CopyFile、CopyFileEx原理、用法、区别及分别在哪些场景使用

【gcc编译以及Makefile与GDB调试】

python LLM工具包

JavaScript数据类型和内存空间

20-智慧社区物业管理平台

Java【多线程】（3）单例模式与线程安全

大模型如何从开始到编译出Engine

[免费]微信小程序(图书馆)自习室座位预约管理系统(SpringBoot后端+Vue管理端)(高级版)【论文+源码+SQL脚本】

一个简化版的进程内通信库实现

深入理解Java中的static关键字及其内存原理

《云原生技术：DeepSeek分布式推理的效能倍增器》

Git系列之git checkout

发起请求的步骤

Spring Boot整合WebSocket

基于深度学习的中文文本情感分析系统

EasyTwin全新体验 | 春启新章，智焕新生

隧道定向号角喇叭为隧道安全保驾护航

Microsof Visual Studio Code 安装教程（中文设置）

计算机网络基础知识（web漏洞解析与攻防实战）

stm32week6

linux docker相关指令

Centos磁盘扩容

企业招聘能力提升之道：突破困境，精准纳才

Synology 部署的 WordPress 無法升級至最新版本時，可以透過以下改良版指南進行排查和解決。

springboot3.X 无法解析parameter参数问题

git规范提交之commitizen conventional-changelog-cli 安装