当前位置: 首页 > news >正文

【高并发服务器】三、正则表达式的使用

文章目录

      • 推荐阅读链接
  • Ⅰ. 什么是正则表达式
  • Ⅱ. c++中的正则表达式库
    • 尝试对简单的请求报头解析

在这里插入图片描述

推荐阅读链接

  • 正则表达式入门教程
  • 正则表达式手册
  • 在线正则表达式测试器
    • https://regex101.com/
    • https://deerchao.cn/tools/wegester/
    • https://www.debuggex.com/

Ⅰ. 什么是正则表达式

​ 正则表达式(regular expression)描述了一种 字符串匹配的模式pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

​ 简单地说,就是正则表达式的作用就是找到一个字符串中我们需要的部分!

​ 正则表达式的使用,可以 使得 HTTP 请求的解析更加简单(这里指的时程序员的工作变得的简单,这 并不代表处理效率会变高,实际上效率上是低于直接的字符串处理的),使我们实现的 HTTP 组件库使用起来更加灵活,我们就不需要像之前那样用朴素的字符串操作解析请求了!

Ⅱ. c++中的正则表达式库

推荐阅读:

  • https://cloud.tencent.com/developer/article/1886294
  • https://www.cnblogs.com/coolcpp/p/cpp-regex.html

​ 需要注意的是:C++ 中,反斜杠 \ 是一个特殊字符,需要进行转义,以表示正则表达式模式中的特殊字符。比如要匹配一个或多个数字字符,我们 需要使用 \\d+,而不是 \d+

​ 对字符串内容进行匹配的最常见手段就是使用正则表达式。 可惜在传统 C++ 中正则表达式一直没有得到语言层面的支持,没有纳入标准库, 而 C++ 作为一门高性能语言,在后台服务的开发中,对 URL 资源链接进行判断时, 使用正则表达式也是工业界最为成熟的普遍做法。

​ 一般的解决方案就是使用 boost 的正则表达式库。 而 C++11 正式将正则表达式的的处理方法纳入标准库的行列,从语言级上提供了标准的支持, 不再依赖第三方。

C++11 提供的正则表达式库操作 std::string 对象, 模式 std::regex (本质是 std::basic_regex)进行初始化, 通过 std::regex_match 进行匹配, 从而产生 std::smatch(本质是 std::match_results 对象)。

我们通过一个简单的例子来简单介绍这个库的使用。考虑下面的正则表达式:

  • [a-z]+\.txt: 在这个正则表达式中, [a-z] 表示匹配一个小写字母, + 可以使前面的表达式匹配多次, 因此 [a-z]+ 能够匹配一个小写字母组成的字符串。 在正则表达式中一个 . 表示匹配任意字符,而 \. 则表示匹配字符 ., 最后的 txt 表示严格匹配 txt 则三个字母。因此这个正则表达式的所要匹配的内容就是由纯小写字母组成的文本文件。

​ 其中 std::regex_match 用于匹配字符串和正则表达式,有很多不同的重载形式。 最简单的一个形式就是传入 std::string 以及一个 std::regex 进行匹配, 当匹配成功时,会返回 true,否则返回 false。例如:

#include <iostream>
#include <string>
#include <regex>
using namespace std;int main()
{string fnames[] = {"foo.txt", "bar.txt", "test", "a0.txt", "AAA.txt"};// 在 C++ 中 \ 会被作为字符串内的转义符// 为使 \. 作为正则表达式传递进去生效,需要对 \ 进行二次转义,从而有 \\.regex txt_regex("[a-z]+\\.txt");for(const auto& fname : fnames){cout << fname << " : " << regex_match(fname, txt_regex) << endl;}return 0;
}// 执行结果:
[liren@VM-8-7-centos test]$ ./regex 
foo.txt : 1
bar.txt : 1
test : 0
a0.txt : 0
AAA.txt : 0

​ 另一种常用的形式就是依次传入 std::stringstd::smatchstd::regex 三个参数, 其中 std::smatch 的本质其实是 std::match_results 也就是匹配结果集。 故而在标准库的实现中, std::smatch 被定义为了 std::match_results<std::string::const_iterator>, 也就是一个子串迭代器类型的 match_results。 使用 std::smatch 可以方便的对匹配的结果进行获取,例如:

#include <iostream>
#include <string>
#include <regex>int main()
{std::string fnames[] = {"foo.txt", "bar.txt", "test", "a0.txt", "AAA.txt"};std::regex base_regex("([a-z]+)\\.txt"); // 将其中的[a-z]+部分单独获取到结果集中std::smatch base_match;for(const auto &fname: fnames) {if (std::regex_match(fname, base_match, base_regex)) {// std::smatch 的第一个元素匹配整个字符串// std::smatch 的第二个元素匹配了第一个括号表达式if (base_match.size() == 2) {std::cout << "sub-match[0]: " << base_match[0].str() << std::endl;std::cout << fname << " sub-match[1]: " << base_match[1].str() << std::endl;}}}return 0;
}// 执行结果:
[liren@VM-8-7-centos test]$ ./regex 
sub-match[0]: foo.txt
foo.txt sub-match[1]: foo
sub-match[0]: bar.txt
bar.txt sub-match[1]: bar

尝试对简单的请求报头解析

​ 这里我们对简单的请求报头解析一下,所以只是一个 demo 演示!

​ 一个简单的 http 请求行大概是这样子:请求类型 + URI + 版本,最后别忘了接上一个 \r\n 表示边界!

std::string str = "GET /liren/login?user=xiaoming&pass=123123 HTTP/1.1\r\n";

​ 根据请求报头的格式,可以这样子解析:

#include <iostream>
#include <string>
#include <regex>int main()
{std::string req = "GET /liren/login?user=xiaoming&pass=123123 HTTP/1.1\r\n";std::smatch base_match; // 结果集// (GET|POST|HEAD|PUT|DELETE)   表示匹配并提取其中任意一个字符串// [^?]*                        [^?] 匹配非问号字符,后边的*表示 0次或多次// \\?(.*)                      \\? 表示原始的 ? 字符,(.*)表示提取 ? 之后的任意字符 0 次或多次,直到遇到空格// (?:\\?(.*))?                 表示匹配了上一条内容 0 次或 1 次,并且不获取该内容// HTTP/1\\.[01]                表示匹配以 HTTP/1. 开始,后边有个 0 或 1 的字符串// (?:\n|\r\n)?                 (?: ...) 表示匹配某个格式字符串,但是不提取,最后的 ? 表示的是匹配前边的表达式 0 次或 1 次std::regex base_regex("(GET|POST|HEAD|PUT|DELETE) ([^?]*)(?:\\?(.*))? (HTTP/1\\.[01])(?:\n|\r\n)?");// 进行匹配bool ret = std::regex_match(req, base_match, base_regex);if(ret == false)return -1;// 输出匹配内容for(int i = 0; i < base_match.size(); ++i){std::cout << i << " : ";std::cout << base_match[i] << std::endl;}return 0;
}// 执行结果:
[liren@VM-8-7-centos test]$ ./regex 
0 : GET /liren/login?user=xiaoming&pass=123123 HTTP/1.11 : GET
2 : /liren/login
3 : user=xiaoming&pass=123123
4 : HTTP/1.1

在这里插入图片描述

http://www.dtcms.com/a/452966.html

相关文章:

  • 网站建设好公司好深圳好的品牌策划公司
  • Java的`volatile`关键字 笔记251007
  • 【文件读写】图片木马
  • 如何避免消息丢失
  • 设备管理平台项目部署
  • 最小二乘法(Least Squares Method):原理、应用与扩展
  • 13. Pandas 透视表与交叉表分析
  • Edu161 D、E 模拟+位运算构造
  • 临床研究三千问——如何选择合适的研究类型(12)
  • 电销做网站的话术响应式网站是
  • Channel 的核心特点 (Channel vs SharedFlow 选择对比)
  • 什么网站权重高wordpress置顶代码
  • 厦门app网站设计青岛队建网站
  • 【Linux】Linux进程信号(下)
  • C++基础:(九)string类的使用与模拟实现
  • C++网络编程(二)字节序与IP地址转换
  • 从零开始XR开发:Three.js实现交互式3D积木搭建器
  • 如何解决网站只收录首页的一些办法wordpress多站点内容聚合
  • 个人备忘录的设计与实现
  • 删除cad无关线条 的ppo 随手记
  • Python AI编程在微创手术通过数据分析改善恢复的路径分析(下)
  • 深度学习之神经网络1(Neural Network)
  • pycharm下创建flask项目,配置端口问题
  • 计算机科学中的核心思想与理论
  • SpringCloud,vue3应用使用AlibabaCloudToolkit自动化部署到远程服务器上的docker
  • 如何从RSSI和SNR 判断现场的LoRaWAN的信号质量?
  • 【万字解读】品牌SEO实战指南:7步打造AI时代的搜索权威
  • 网站短期就业培训班开发公司总经理管理方案
  • GitHub 热榜项目 - 日榜(2025-10-07)
  • TDengine 比较函数 NULLIF 用户手册