当前位置: 首页 > news >正文

正则\u与\U符号

 这是移除图片相关的正则

def remove_graphic_symbols(text):
    """
    移除文本中的图形相关字符。
    """
    # 图形相关字符的正则表达式,包括补充的符号范围
    # graphic_symbols_pattern = r'[\u25A0-\u25FF\u2580-\u259F\u2600-\u26FF\u2700-\u27BF\u2B00-\u2BFF\u2300-\u23FF\u2190-\u21FF\u1F000-\u1F02F\u1F030-\u1F09F\u1F300-\u1F5FF\u1F680-\u1F6FF\u1F700-\u1F77F\u1F780-\u1F7FF\u1F800-\u1F8FF\u1F900-\u1F9FF\u1FA70-\u1FAFF\u2580-\u259F\u2B50-\u2B55\u2229\u2299]'
    graphic_symbols_pattern = r'[\u25A0-\u25FF\u2580-\u259F\u2600-\u26FF\u2700-\u27BF\u2B00-\u2BFF\u2300-\u23FF\u2190-\u21FF\U0001F000-\U0001F02F\U0001F030-\U0001F09F\U0001F300-\U0001F5FF\U0001F680-\U0001F6FF\U0001F700-\U0001F77F\U0001F780-\U0001F7FF\U0001F800-\U0001F8FF\U0001F900-\U0001F9FF\U0001FA70-\U0001FAFF\u2580-\u259F\u2B50-\u2B55\u2229\u2299]'
    cleaned_text = re.sub(graphic_symbols_pattern, '', text)

    return cleaned_text

问题:注释的这个正则,会把英文也给消除了!

解决方案\u 无法解析 5 位码点,将\u 整体换为 \U000 8位表示匹配范围!

http://www.dtcms.com/a/96510.html

相关文章:

  • HTML简单介绍
  • 视图、MySQL、触发器、存储过程、流程控制语句
  • 详细介绍ASSERT()
  • B4X编程语言:字节转换器ByteConverter用法详解
  • 爱普生晶体单元FC2012AN在5G RedCap中的应用
  • Python新手练习——五子棋
  • 霸王茶姬小程序(2025年1月版)任务脚本
  • 指定 Python 3.12.6-slim 作为基础镜像
  • AwesomeQt分享3(含源码)
  • persist 应用自启流程
  • 硬件测试工装设计不合理的补救措施
  • Linux内核2-TFTP与NFS环境搭建
  • 通过Map类和List类的List<Map<>>组合类体会JSON
  • 信号与系统(郑君里)第一章-绪论 1-19 课后习题解答
  • 从DeepSeek到Qwen,AI大模型的移植与交互实战指南
  • Python贝叶斯分层模型专题|对环境健康、医学心梗患者、体育赛事数据空间异质性实证分析合集|附数据代码
  • elementUI el-image图片加载失败解决
  • 3.28学习总结
  • Java实现定时任务
  • 深入剖析ReentrantLock底层原理:从AQS到公平锁的源码级解析
  • 游戏引擎学习第189天
  • Selenium测试框架快速搭建
  • AILabel标注工具指南(二):禁止图片外标注
  • 技术速递|为 .NET 的 AI 评估解锁新的可能性
  • 跟着尚硅谷学vue-day1
  • Debian ubuntu源
  • 在Electron+Vue应用中实现文件自动监视与更新功能
  • QT路径获取
  • Spark2 之 qualification-tool
  • 解释时间复杂度 O() 表示法,如何评估算法效率?