当前位置: 首页 > news >正文

python 用正则在response.text中获取<title>标签的内容

使用正则表达式从HTTP响应文本中提取<title>标签内容的Python实现方法:

方法一:基础正则匹配

import re
import requestsresponse = requests.get('https://example.com')
html = response.text
title = re.findall(r'<title>(.*?)</title>', html)[0]  # 非贪婪匹配避免截断:ml-citation{ref="3" data="citationList"}

方法二:处理编码与异常

import re
import requeststry:response = requests.get('https://example.com')response.encoding = response.apparent_encoding  # 自动检测编码:ml-citation{ref="7" data="citationList"}title_match = re.search(r'<title>(.*?)</title>', response.text)if title_match:print(title_match.group(1))  # 使用group提取捕获组内容:ml-citation{ref="5" data="citationList"}
except Exception as e:print(f"Error: {e}")

注意事项

  1. 编码处理‌:建议设置response.encoding避免乱码,优先使用apparent_encoding自动检测
  2. 正则优化‌:非贪婪模式.*?可防止匹配到后续闭合标签
  3. 异常捕获‌:网络请求需包裹在try-except中处理超时等问题
  4. 替代方案‌:复杂HTML解析推荐使用BeautifulSoup,正则更适用于简单场景

如需处理动态加载页面,可结合Selenium获取完整DOM后再提取。

http://www.dtcms.com/a/251425.html

相关文章:

  • springboot3-笔记总结
  • SpringBoot入门 springboot模版注入问题
  • 2025最新Nvm安装教程
  • 已知路由表和分组的目的地址求对应的下一跳地址
  • 【Create my OS】6 线程调度
  • RabbitMQ全面学习指南
  • CUDA开发工具整理
  • 技术突破与落地应用:端到端 2.0 时代辅助驾驶TOP10 论文深度拆解系列【第四篇(排名不分先后)】
  • Golang 解大整数乘法
  • LeetCode 高频 SQL 50 题(基础版)【题解】合集
  • 【FreeRTOS-队列集】
  • Python 函数实战指南:提升编程效率的实用技巧
  • 数据结构 排序
  • 手机SIM卡通话中随时插入录音语音片段(Android方案)
  • 微信小程序 路由跳转
  • Velocity提取模板变量
  • ubuntu 22.04 安装部署elasticsearch 7.10.0详细教程
  • DBSCAN(Density-Based Spatial Clustering of Applications with Noise)基于密度的聚类方法介绍
  • LeetCode 2389.和有限的最长子序列
  • Ubuntu 安装并使用 Elasticsearch
  • Go语言同步原语与数据竞争:数据竞争的检测工具
  • 【分析学】 实数
  • AI 产品设计头脑风暴
  • MySQL 数据库自动备份批处理工具介绍
  • B3865 [GESP202309 二级] 小杨的 X 字矩阵
  • Tomcat配置学习
  • 电阻篇---下拉电阻的取值
  • ASR-PRO语音识别可能出现的问题
  • Flutter 本地存储全面指南:从基础到高级实践
  • cocos2 使用 Layout 组件后,子节点 Label 高度变化后,抖动问题