当前位置: 首页 > news >正文

【MedusaSTears】正则表达式搜索心得

文章目录

  • 心得体会
  • 1.懒惰匹配最少字符 `.+?`
  • 2.前瞻: 字符串后边 包括/不包括 某个单词/字母
    • 2-1.包含某单词: start(?=.+?hello)
    • 2-2.不包含某单词: start(?!.+?hello)

心得体会

前情回顾:
【MedusaSTears】正则?不要太简单!—正则表达式个人学习心得总结:

  1. 正则说白了是对字符串的整理,所以对一个无间隙长串,第一步最主要的就是,【分割】字符串,类似于英语的自然拼读法那种,从业务需求方面,理解并分割字符串
    比如: 邮箱为什么要以@前后分界?谁告诉你的?因为你知道这是默认的,然而这恰恰是容易被忽略的重点
  2. 正确【分割】后,就不难找到关键字符或者关键位置,也就是可能需要replace的地方,这是启动的核心,下手的第一步
  3. 对于不确定的字符串长度,先找到可以确定的或者唯一的部分
  4. 贪婪匹配 vs 懒惰匹配:
    默认情况下,正则表达式使用最长匹配原则(也叫贪婪匹配原则)。
    懒惰匹配: 在量词*、+、?、{n}、{n,}、{n,m}后面加?就是懒惰模式,懒惰对应的就是匹配的尽可能少的情况。
  5. 注意 ? * + {1,32} 这些量词实际上包括本身
  6. 注意 . 不包括\n \r
  7. 注意 . 是任意单个字符, [] 是指定中括号内的字符
  8. ?:是忽略分组,也就是说括号内的内容不是一个group,包括在实际匹配,用处是 取值的时候忽略这个组合


需求: 查找指定字符串 之前/之后 的str, 且不包括条件里面的字符串
举例: 想要 <title>hello world</title> 标签里面的内容
答案: (?<=\<[tT][iI][tI][lL][eE]>).*?(?=</[tT][iI][tI][lL][eE]>)
解析: 如果跟位序有关,则务必用 前瞻(Lookahead) ?= 或者 后顾(Lookbehind) ?<=
后顾性能损耗比较大,js只支持前瞻(知乎上看到的,具体原因不详)
本题是 查找指定字符串<title>之后和</title>之前的内容

前瞻分两种:一种是正向前瞻 positive lookahead(?=xxx) 其后必须存在的内容,是一个条件,不是实际匹配中的内容
另一种是负向前瞻 negative lookahead(?!xxx)
?=</[tT][iI][tI][lL][eE]> 是前瞻, 也就是计算机从左到右读取第n位字符的时候,n右侧的都是?=

1.懒惰匹配最少字符 .+?

  1. 注意 . 不包括\n \r
  2. 注意 . 是任意单个字符, [] 是指定中括号内的字符


+是至少出现1次 .+的意思:至少1个字符
比如: hello.+friend返回的结果是: 字符串中 命中 hello开头,friend结尾的最长字符串,但是 hellofriend 中间,必须至少有一个字符,不存在 hellofriend这种情况

?则代表懒惰匹配,将.+匹配长度最小化
比如:字符串hellomyfriendweareallfriends,
如果用hello.+friend匹配就是不包括最后s的整个字符串hellomyfriendweareallfriend;
如果用hello.+?friend匹配,结果就是命中第一个friend就停止的 hellomyfriend

那么问题来了: .*?又表示什么意思呢?

2.前瞻: 字符串后边 包括/不包括 某个单词/字母

这里之所以 配合 .+? 进行查询条件,是因为括号中的条件,和前面的字符串并不是相邻的,中间隔着至少1个字符及以上

2-1.包含某单词: start(?=.+?hello)

查找start单词,并且后边要包括hello这个单词
实际应用:
定位日志中,Instagram的category是call的:
instagram(?=.+?category=call)

2-2.不包含某单词: start(?!.+?hello)

参考资料: 正则表达式:不包含某个单词

查找start单词,但是后边不包括hello这个单词
实际应用:
定位日志中,Instagram的category≠call的:
instagram(?!.+?category=call)

注意:输出结果只是括号前的东西,括号里的只是if条件

相关文章:

  • C# TabControl控件设置多行属性multiline为true后切换页签出现空白
  • 生产级 React 框架介绍
  • lambda表达式 - c++11
  • 机器学习-特征选择:如何使用互信息特征选择挑选出最佳特征?
  • ES6中的class类
  • NLP之多循环神经网络情感分析
  • 生物标志物发现中的无偏数据分析策略
  • MATLAB | 万圣节来画个简单的可爱鬼叭!
  • 又放学辣(进阶)(两次二分或两次后缀和)(小白80D)
  • Django实战项目-学习任务系统-用户管理
  • 软件开发全文档归档,开发、管理、实施、运维、服务巡检、信息安全、安全运维
  • Redis测试新手入门教程
  • 美国JASSM-ER(联合防区外空对地导弹-增程型)是
  • 论文阅读——DistilBERT
  • 2.1 ppq量化pytorch->onnx
  • 轻量级 IDE 文本编辑器 Geany 发布 2.0
  • 单元测试到底测什么,怎么测?我来告诉你
  • 计算机网络【CN】介质访问控制
  • c++ pcl 选取点云某一点反馈XYZ坐标的代码
  • [已解决]大数据集群CPU告警问题解决
  • 诗词门户网站/我想接app注册推广单
  • 网站开发预算表/免费广州seo
  • 电商网官方网站/济南网站建设哪家专业
  • 网站都需要续费吗/软文标题和内容
  • 自己怎么做视频网站/seo优化排名软件
  • 东营企业网站制作/台州网站制作维护