当前位置: 首页 > news >正文

Java 正则表达式综合实战:URL 匹配与源码解析

在 Web 应用开发中,我们经常需要对 URL 进行格式验证。今天我们结合 Java 的 PatternMatcher 类,深入理解正则表达式在实际应用中的强大功能,并剖析一段实际的 Java 示例源码。

 

package com.RegExpInfo;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Exercise02 {
    public static void main(String[] args) {
//        String content="https://";
//        String content="http://";
//        String content="https://" +
//                "www.bilibili.com/";
//        String content="https://" +
//                "www.bilibili.com/" +
//                "video/" +
//                "BV1fh411y7R8?spm_id_from=333.788.player.switch&vd_" +
//                "source=6fe96db28441a84c79edc35a022cf1c5&p=895" ;
//        String content="https://" +
//                "www.bilibili.com" ;
        String content="https://blog.csdn.net/keshi12354?spm=1000.2115.3001.5343";
//        String regExp="^((https|http)://)";
//        (2)
//        String regExp="^((https|http)://)([\\w-]+\\.)+[\\w-]+\\/";
//        (3)
        String regExp="^((https|http)://)([\\w-]+\\.)+[\\w-]+(\\/([\\w-_?=&./]*))?$";
//        String regExp="^((https|http)://)([\\w-]+\\.)+[\\w-]+(\\/([\\w-_?=&./]*))?$";
        Pattern pattern = Pattern.compile(regExp);
        Matcher matcher = pattern.matcher(content);
        while (matcher.find()) {
            System.out.println(matcher.group(0));
        }


    }
}

1.正则表达式分解:

分布实现:
1. 基础协议匹配 (1)

 String regExp="^((https|http)://)";
  • 功能:只匹配URL开头的协议部分

  • 匹配内容http:// 或 https://

  • 结构

    • ^ 表示字符串开始

    • (https|http) 匹配"https"或"http"

    • :// 匹配协议分隔符

  • 目的:先确保能正确识别URL的协议部分

2. 添加域名匹配 (2)

 String regExp="^((https|http)://)([\\w-]+\\.)+[\\w-]+\\/";
  • 新增功能:在协议后添加域名和路径的基本匹配

  • 匹配内容:如 http://example.com/

  • 新增结构

    • ([\\w-]+\\.)+ 匹配一个或多个域名部分(如"www."或"sub.")

      • \\w 匹配单词字符(字母、数字、下划线)

      • - 匹配连字符

      • + 表示一次或多次

      • \\. 匹配点号

    • [\\w-]+ 匹配顶级域名(如"com")

    • \\/ 匹配结尾的斜杠

  • 目的:扩展匹配完整的域名结构

 

3. 添加路径和查询参数匹配 (3)

 String regExp="^((https|http)://)([\\w-]+\\.)+[\\w-]+(\\/([\\w-_?=&./]*))?$";
  • 新增功能:支持可选的路径和查询参数

  • 匹配内容:如 http://example.com/path?param=value

  • 新增结构

    • (\\/([\\w-_?=&./]*))?

      • \\/ 匹配路径开始的斜杠

      • [\\w-_?=&./]* 匹配路径和查询参数

        • 包含字母、数字、下划线、连字符、问号、等号、&、点和斜杠

      • ? 表示整个路径部分是可选的

    • $ 表示字符串结束

  • 目的:使正则表达式能够匹配带路径和参数的完整URL

 4. 最终优化版本

String regExp="^((https|http)://)?([\\w-]+\\.)+[\\w-]+(\\/([\\w-_?=&./]*))?$";
  • 关键改进:使协议部分变为可选

  • 匹配内容:现在可以匹配:

    • 带协议的URL:http://example.com/path

    • 不带协议的URL:example.com/path

  • 修改点

    • 在协议部分 ((https|http)://) 后添加了 ? 使其变为可选

  • 目的:提高正则表达式的灵活性,适应更多使用场景

5.设计思想总结

  1. 渐进式开发:从简单到复杂逐步构建正则表达式

  2. 模块化设计:每个部分都有明确的功能划分(协议、域名、路径)

  3. 灵活性增强:通过添加可选标记(?)使表达式更通用

  4. 边界明确:始终使用^$确保匹配整个字符串

  5. 字符集合理定义:使用[\w-]等字符集准确描述允许的字符

这种分步构建的方法不仅使正则表达式更易于理解和维护,也方便在开发过程中逐步测试每个部分的匹配效果。

相关文章:

  • 详细解读TypeScript中 declare 关键字
  • 2k1000LA , 调试串口改成通信串口, uart.
  • 从三次方程到复平面:复数概念的奇妙演进(四)
  • 跨境贸易之常见的贸易术语
  • 思科模拟器的单臂路由,交换机,路由器,路由器只要两个端口的话,连接三台电脑该怎么办,划分VLAN,dotlq协议
  • ASP.NET Core 性能优化:客户端响应缓存
  • Java从入门到“放弃”(精通)之旅——方法的使用⑤
  • Linux :环境变量
  • 接口自动化测试怎么做?
  • PCDN通过个人路由器,用更靠近用户的节点来分发内容,从而达到更快地网络反应速度
  • 【Qt】sqlite数据库中将数据全部删除后,db文件没有变小
  • 【算法】刷题记录
  • 基于Geotools的PostGIS原始操作之CQL过滤及按属性名称生成面属性时间-以湖北省地级市行政区划为例
  • OpenCV直方图均衡化全面解析:从灰度到彩色图像的增强技术
  • python: range和arange区别
  • 智能合约安全审计平台——形式化验证模型构建
  • QPS是什么??
  • 组件安全工程化革命:从防御体系构建到安全基因重塑
  • 各地物价和生活成本 东欧篇
  • 【Code】《代码整洁之道》笔记-Chapter15-JUnit内幕
  • 小耳朵等来了春天:公益义诊筛查专家走进安徽安庆
  • 中国至越南河内国际道路运输线路正式开通
  • 巴方:印度上周导弹袭击造成至少40名平民死亡
  • 加拿大总理宣布新内阁名单
  • 广东省中医院脾胃病科大科主任张北平病逝,年仅52岁
  • 历史地理学者成一农重回母校北京大学,担任历史系教授