当前位置: 首页 > news >正文

Python爬虫第一课:爬取HTML静态网页小说章节

Python-HTML-爬虫:爬取小说章节

  • 使用 requests 库爬取HTML网页内容
  • 使用 from lxml import etree 解析html 网页标签及内容

  • 需要一定的 html css JavaScript基础

使用 requests 库爬取HTML网页内容


import requests#使用requests库获取网页内容
# 爬取 地址为 https://xx/showchapter/906233.html 的网页内容
# 注意,1单独爬取静态网页,2动态网页需要使用selenium
# 请熟练使用 requests库,
# 普法:政府类网站不能爬,公民信息不能保存,大公司网站不要爬,容易被追踪,涉及版权知识产权的信息不要爬,容易惹纠纷。
# 爬取 小说章节
if __name__ == '__main__':url = "https://xx/showchapter/906233.html"req = requests.get(url)print(req.text)

使用 from lxml import etree 解析html 网页标签及内容

  • 使用浏览器自带的开发者工具 或者对着浏览器 按键F12 分析页面上html的元素 进行定位 要提取的代码块内容

  • 如图

  • 代码示列


import requestsfrom lxml import etree#使用requests库获取网页内容
# 爬取 地址为 https://xxx/showchapter/906233.html 的网页内容
# 注意,1单独爬取静态网页,2动态网页需要使用selenium
# 请熟练使用 requests库,
# 普法:政府类网站不能爬,公民信息不能保存,大公司网站不要爬,容易被追踪,涉及版权知识产权的信息不要爬,容易惹纠纷。
# 爬取 小说章节
if __name__ == '__main__':url = "https://xxx/showchapter/906233.html"req = requests.get(url)# 使用lxml解析HTML内容html = etree.HTML(req.text)# 提取<li class="col-4">下的<a>标签内容# 注意:class属性中有空格,需要使用contains函数来匹配li_elements = html.xpath('//li[contains(@class, "col-4")]')for li in li_elements:# 查找每个li元素中的a标签a_tags = li.xpath('.//a')for a in a_tags:# 输出a标签的文本内容print(a.text)
http://www.dtcms.com/a/338834.html

相关文章:

  • 国产!全志T113-i 双核Cortex-A7@1.2GHz 工业开发板—ARM + FPGA通信案例
  • PicoShare 文件共享教程:cpolar 内网穿透服务实现跨设备极速传输
  • Simulink库文件创建及使用方法
  • 4.Kotlin 集合 Map 所有方法
  • CVPR 2025 | 具身智能 | HOLODECK:一句话召唤3D世界,智能体的“元宇宙练功房”来了
  • 库卡机器人tag焊接保护气体流量控制系统
  • (第五篇)spring cloud之Ribbon负载均衡
  • 主流 3D 模型格式(FBX/OBJ/DAE/GLTF)材质支持与转换操作指南
  • 云存储的高效安全助手:阿里云国际站 OSS
  • ICCV 2025 | 首个3D动作游戏专用VLA模型,打黑神话只狼超越人类玩家
  • iOS 性能监控实践,如何构建从开发到运维的持续优化体系
  • 面试题储备-MQ篇 3-说说你对Kafka的理解
  • 如何用给各种IDE配置R语言环境
  • Halcon联合C# 添加工具类让winform自动根据窗体大小自适应缩放所有控件
  • 知行社黄剑杰:金融跨界,重塑震区救援新章
  • 《基于大数据的全球用水量数据可视化分析系统》用Python+Django开发,为什么导师却推荐用Java+Spring Boot?真相揭秘……
  • sqli-labs通关笔记-第55关 GET数值型注入(括号闭合 限制14次探测机会)
  • 今日行情明日机会——20250819
  • 20.2 QLoRA微调全局参数实战:高点击率配置模板+显存节省50%技巧
  • Linux下Nginx安装及负载均衡配置
  • Python 3.14深度解析:革命性特性与性能优化实践
  • Go高效复用对象:sync.Pool详解
  • Windows内核开发笔记
  • 免费导航规划API接口详解:调用指南与实战示例
  • 一个基于前端技术的小狗寿命阶段计算网站,帮助用户了解狗狗在不同年龄阶段的特点和需求。
  • 数据链路层-网络层-传输层
  • js 值转换boolean方式
  • AutoSAR实战:DCM配置之Response On Event (0x86)事件响应配置指导
  • 【深度学习计算性能】06:多GPU的简洁实现
  • 守护通行安全,“AI+虚拟仿真”领航交通设施人才培育