当前位置: 首页 > wzjs >正文

如何更改网站的关键词wordpress密码忘记了

如何更改网站的关键词,wordpress密码忘记了,济南建筑公司排名,wordpress 例子课程链接先给各位 ↓↓↓ (点击即可食用.QAQ Datawhale-学用 AI,从此开始 一、数据的解析与提取 数据提取的几种方式: re解析bs4解析xpath解析 1.1正则表达式(Reuglar Experssion) RE是一种用于字符串匹配的规则描述方式。它…

课程链接先给各位  ↓↓↓ (点击即可食用.QAQ

Datawhale-学用 AI,从此开始


一、数据的解析与提取

数据提取的几种方式:

  • re解析
  • bs4解析
  • xpath解析

1.1正则表达式(Reuglar Experssion)

RE是一种用于字符串匹配的规则描述方式。它通过特定的组合字符来定义字符串的模式,从而实现对字符串的搜索、匹配、替换等操作。Python也支持同样re的用法,需要引入模块import re。

使用场景

  • 用于简单的文本提取,尤其是当目标内容有明确的模式,我们平常搜个作文或者材料的文字内容;

  • 用于快速验证字符串格式,这个写过web的朋友都知道,需要登录验证,还可以进行高亮提示,用Ajax刷新;

  • 对于结构简单的HTML或文本内容,可以快速提取特定信息,用于快速抽取想要爬取的目标数据格式。

优点

  • 高效:正则表达式在处理简单模式匹配时速度快;

  • 灵活:可以通过复杂的正则表达式匹配几乎任何文本模式,当然加密的内容需要另说;

  • 简单:不需要额外的第三方库,使用原生Python自带re模块即可完成。

缺点

  • 复杂:对于杂复的HTML、XML文档,正则表达式很容易失,尤其是密加文档,密解需要

  • 出易错:HTML、XML嵌套场景结构,在使用时正则表达式无法准确匹配。

  • 性能不稳定:复杂的正则表达式在处理大型文本时可能会导致性能问题。

1.2BeautifulSoup解析(bs4

Bs4是一个用于解析HTML、XML文档的Python库。它提供了一种简单而直观的方式来查找、提取和操作HTML、XML中的标签和内容。BeautifulSoup通常与requests库结合使用,用于抓取网页内容并解析。

使用场景

  • 用于解析文档,尤其是需要提取标签内容、属性的时候,直接一整个提出来;

  • 处理结构复杂的网页内容,这里的复杂指的是嵌套复杂,加密还需要单独解答;

  • 用于数据爬取、网页内容提取等一般情况下;

优点

  • 简单上手使用:API非常之多,网上的案例也是很多,大家易于学习和使用;

  • 兼容性好:可以结合多种解析器如html.parserlxmlhtml5lib等配合使用;

  • 容错相比较高:能够处理不规范的HTML文档。

缺点

  • 性能不稳定:对于非常大的HTML文档,bs4反应慢;

  • 需要额外安装库:需要安装额外beautifulsoup4和解析器

1.3 XPath(XML Path Language)解析

XPath是一种在XML和HTML文档中查找信息的语言。它使用路径表达式来选定文档中的节点或节点集,XPath是W3C标准,广泛应用于文档的解析,在Python中添加lxml库可食用

使用场景

  • 用于需要精确查找HTML、XML文档中的节点或节点集;

  • 处理结构复杂的文档,尤其是需要根据多种条件(如标签名、属性、文本内容等)进行精确匹配时常用于

  • 本节课中的数据爬取、自动化测试等场景;

优点

  • 精确性高:可以通过复杂的路径表达式精确查找节点;

  • 性能好lxml库的XPath解析器通常比BeautifulSoup更快;

  • 兼容性高:支持节点选择、属性选择、文本选择等

缺点

  • 语法难:XPath语法相对复杂,需要一定的学习成本;

  • 需要额外安装库:需要安装lxml库

二、群内的问题

在BeautifulSoup模块中 find()和find_all()的区别?

共同点:都可以用于解析 HTML 、 XML 文档查找特定的标签或内容;
不同点:find找文档的第一个匹配内容,如果没找到就返回none,所以只找一个find快;find_all找所有的匹配内容,全部没有就返回空,适合匹配内容多的场景。
在使用方法上:

from bs4 import BeautifulSoup
<html><head><title>Test Page</title></head><body><p class="title">Hello, world!</p >nbnb</body>
</html>
soup = BeautifulSoup(html_doc, 'html.parser')# 使用 find()查找第一个匹配的标签
first_p = soup.find('p')
print("First <p> tag:", first_p)
## First <p> tag: <p class="title">Hello, world!</p >
# 使用 find_all()查找所有匹配的标签。,
all_a = soup.find_all('a')
print("All <a> tags:", all_a)
## All <a> tags: [ nb,nb]

三、总结

正则表达式(re:用于简单的文本提取和验证,但不适合复杂的HTML或XML解析,在网上搜作文写作材料等等之类的可以使用re,包括写web登录页面后端数据核验的时候,也可以加上re的判断,后期将为安全性能提供保障。

BeautifulSoup(bs4:用于解析HTML、XML文档,尤其是需要提取标签内容或属性时,就可以用bs4,但是同样是找标签属性没有人家xpath跑的快,所以结合实际情况选择进行

XPath:用于精确查找HTML、XML文档中的节点,性能较好,就是语法有些难,对刚入门的新手不太友好,学到半截有可能就劝退放弃了,理性选择

在实际使用场景中,可以根据业务的相关需求选择合适的解析方式

如果只是提取简单的文本信息搜搜作文、思想汇报这类型的,可以使用正则表达式,如果需要解析HTML、XML文档并提取标签内容,可以使用BeautifulSoup、xpath,一些精确查找节点并处理复杂文档,就选XPath。。。。

为了反机器爬取,我将本文中许多语序和词语行进调整了,正常人工查看是阅读毫无碍障的,机器爬取则会产生一些困难,同时html及一些练习就不提到单独了,请大家操作也在隔离安全的环境下操作,学习首先也要保护好自己,需要注意的点是,Python原生的镜像下载库比较慢,可以更换源后进行下载,这里马老师也写了清华的下载源,请大家参考。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple bs4

文章转载自:

http://QCteme4N.bzfwn.cn
http://cILctWjG.bzfwn.cn
http://LEHSeYxU.bzfwn.cn
http://DiTLbeF3.bzfwn.cn
http://5jwFuufD.bzfwn.cn
http://hBnFErsr.bzfwn.cn
http://geVrqkgT.bzfwn.cn
http://wS1Kjd6N.bzfwn.cn
http://tOGW8Ip7.bzfwn.cn
http://KrFcf7bD.bzfwn.cn
http://531AUqJn.bzfwn.cn
http://miWMh1bw.bzfwn.cn
http://5n27QbMe.bzfwn.cn
http://vF95mN2E.bzfwn.cn
http://aJTxOYdK.bzfwn.cn
http://ZYFNEi4r.bzfwn.cn
http://GRLH20LW.bzfwn.cn
http://km1dMHd2.bzfwn.cn
http://PY8unWsj.bzfwn.cn
http://w3llDJD9.bzfwn.cn
http://1IeLxR9N.bzfwn.cn
http://eDo9qUYF.bzfwn.cn
http://PRYzp6Ke.bzfwn.cn
http://ZxwtGeng.bzfwn.cn
http://fxNOyDah.bzfwn.cn
http://eW4rpCWv.bzfwn.cn
http://pNPGWQwV.bzfwn.cn
http://NGT7vBxd.bzfwn.cn
http://90maXFXO.bzfwn.cn
http://98C9CNdn.bzfwn.cn
http://www.dtcms.com/wzjs/735696.html

相关文章:

  • 网站的建设时间怎么查网站代理登录域名
  • 网站举报查询可不可以建网站做微商
  • 揭阳网站建站网站图书馆网站建设一览表
  • 电商公司网站建设财务核算用ip访问没有备案的网站
  • 网站开发预留接口厦门网站综合优化贵吗
  • 凡客建站官网登录入口网站建设关健词优化网络公司怎么样
  • 个人建站除了wordpress旅游网站建设的费用明细
  • 唐山有制作网站的没视频当背景图片 网站开发
  • 沈阳市营商环境建设监督局网站怎样做网站上更改文字
  • 衣服图案设计网站wordpress移动端设置方法
  • 网站建设推荐信息建立网站准备工作流程
  • 做现货需要关注的网站威海设计网站的
  • 美食网站建设背景中国客户网企业名录
  • 高端网站开发制作手机wap网站模板下载
  • 做网站选哪家公司南宁房地产最新消息
  • 包装材料东莞网站建设网站开发框架有哪些
  • 做网站江西大连企业做网站公司排名
  • 做剧情游戏的网站邢台市政建设集团网站
  • .net asp可以外链其它网站吗北京房产交易网官网
  • 微信运营工具如何做seo网站
  • 大连电子学校网站建设哪个网站做外链视频好
  • 清远做网站哪家好做安全防护信息的网站
  • 工程行业网站h5小游戏在线玩
  • 博客网站开发源代码优化方案英语答案
  • 千套模板快速自助建站消防工程师证怎么考
  • 苏州哪家做网站好wordpress相册效果
  • 如何做导购网站自己做的网站如何引流
  • 用html做网站源代码流量套餐汇总网站
  • 苏州建设工程质量监督站网站网站前置或专项审批
  • 趴比库的网站是谁建设的泰安高品质网站建设