当前位置: 首页 > news >正文

python-59-基于python内置库解析html获取标签关键信息

文章目录

  • 1 html.parser
    • 1.1 初始化和基础使用
      • 1.1.1 handle_starttag(self, tag, attrs)
      • 1.1.2 handle_endtag(self, tag)
      • 1.1.3 handle_startendtag(self, tag, attrs)
      • 1.1.4 handle_data(self, data)
      • 1.1.5 handle_comment(self, data)
    • 1.2 解析HTML文档的流程
  • 2 百度搜索关键词链接
    • 2.1 检查页面元素
    • 2.2 获取html
    • 2.3 定义解析器
    • 2.4 抽取链接和标题
    • 2.5 应用测试
  • 3 提取新闻内容
    • 3.1 获取html
    • 3.2 解析html
    • 3.3 触发安全验证
  • 4 参考附录

1 html.parser

html.parser是Python标准库中的一个模块,用于解析和处理HTML。
它的核心类是HTMLParser,这个类提供了多种方法,允许你处理HTML文档的各个部分。
通过继承这个类并重写其提供的回调方法,可以自定义对HTML标签、属性和内容的处理方式。

1.1 初始化和基础使用

from html.parser import HTMLParser

# 创建自定义解析器类,继承HTMLParser
class MyHTMLParser(HTMLParser):
    def handle_starttag(self, tag, attrs):
        print(f"开始tag: {tag}")
        if attrs:
            for attr in attrs:
                print(f"  Attribute: {attr}")

    def handle_endtag(self, tag):
        print(f"结束tag: {tag}")

    def handle_data(self, data):
        print(f"数据: {data}")

# 创建解析器实例
parser = MyHTMLParser()

相关文章:

  • python项目整体文件和依赖打包
  • ​Flink/Kafka在python中的用处
  • 局域网共享失败?打印机/文件夹共享工具
  • 机器学习中的数学知识
  • 【 C 语言实现顺序表的基本操作】(数据结构)
  • 使用matlab进行分位数回归
  • 三数之和
  • B494:开关电源领域的PWM控制新星
  • [特殊字符] AI 编程工具推荐与场景指南 ——提升研发效率的智能助
  • 练习题:109
  • 【机密计算顶会解读】12:机密提示——保护云LLM推理服务中的用户提示词
  • vue将页面导出成word
  • LLM架构解析:NLP基础(第一部分)—— 模型、核心技术与发展历程全解析
  • NO.59十六届蓝桥杯备战|基础算法-前缀和|一维前缀和|最大子段和|二维前缀和|激光炸弹(C++)
  • Dubbo(21)如何配置Dubbo的注册中心?
  • DeepSeek 助力 Vue3 开发:打造丝滑的表格(Table)之添加行拖拽排序功能示例7,TableView16_07 列拖拽排序示例
  • Java 开发中的 AI 黑科技:如何用 AI 工具自动生成 Spring Boot 项目脚手架?
  • Python中的装饰器
  • 刘火良FreeRTOS内核实现与应用学习之6——多优先级
  • 蓝桥杯备考:模拟算法之排队接水
  • 远如《月球背面》,近似你我内心
  • 当代科技拟召开债券持有人会议 ,对“H20科技2”进行四展
  • 央行等印发《关于金融支持广州南沙深化面向世界的粤港澳全面合作的意见》
  • 2025年上海好护士揭晓,上海护士五年增近两成达12.31万人
  • 人民日报:浙江着力提升民营企业核心竞争力
  • 竞彩湃|热刺、曼联一周双赛不易,勒沃库森能否欢送阿隆索