python-59-基于python内置库解析html获取标签关键信息
文章目录
- 1 html.parser
-
- 1.1 初始化和基础使用
-
- 1.1.1 handle_starttag(self, tag, attrs)
- 1.1.2 handle_endtag(self, tag)
- 1.1.3 handle_startendtag(self, tag, attrs)
- 1.1.4 handle_data(self, data)
- 1.1.5 handle_comment(self, data)
- 1.2 解析HTML文档的流程
- 2 百度搜索关键词链接
-
- 2.1 检查页面元素
- 2.2 获取html
- 2.3 定义解析器
- 2.4 抽取链接和标题
- 2.5 应用测试
- 3 提取新闻内容
-
- 3.1 获取html
- 3.2 解析html
- 3.3 触发安全验证
- 4 参考附录
1 html.parser
html.parser是Python标准库中的一个模块,用于解析和处理HTML。
它的核心类是HTMLParser,这个类提供了多种方法,允许你处理HTML文档的各个部分。
通过继承这个类并重写其提供的回调方法,可以自定义对HTML标签、属性和内容的处理方式。
1.1 初始化和基础使用
from html.parser import HTMLParser
# 创建自定义解析器类,继承HTMLParser
class MyHTMLParser(HTMLParser):
def handle_starttag(self, tag, attrs):
print(f"开始tag: {tag}")
if attrs:
for attr in attrs:
print(f" Attribute: {attr}")
def handle_endtag(self, tag):
print(f"结束tag: {tag}")
def handle_data(self, data):
print(f"数据: {data}")
# 创建解析器实例
parser = MyHTMLParser()