正则\u与\U符号
这是移除图片相关的正则
def remove_graphic_symbols(text):
"""
移除文本中的图形相关字符。
"""
# 图形相关字符的正则表达式,包括补充的符号范围
# graphic_symbols_pattern = r'[\u25A0-\u25FF\u2580-\u259F\u2600-\u26FF\u2700-\u27BF\u2B00-\u2BFF\u2300-\u23FF\u2190-\u21FF\u1F000-\u1F02F\u1F030-\u1F09F\u1F300-\u1F5FF\u1F680-\u1F6FF\u1F700-\u1F77F\u1F780-\u1F7FF\u1F800-\u1F8FF\u1F900-\u1F9FF\u1FA70-\u1FAFF\u2580-\u259F\u2B50-\u2B55\u2229\u2299]'
graphic_symbols_pattern = r'[\u25A0-\u25FF\u2580-\u259F\u2600-\u26FF\u2700-\u27BF\u2B00-\u2BFF\u2300-\u23FF\u2190-\u21FF\U0001F000-\U0001F02F\U0001F030-\U0001F09F\U0001F300-\U0001F5FF\U0001F680-\U0001F6FF\U0001F700-\U0001F77F\U0001F780-\U0001F7FF\U0001F800-\U0001F8FF\U0001F900-\U0001F9FF\U0001FA70-\U0001FAFF\u2580-\u259F\u2B50-\u2B55\u2229\u2299]'
cleaned_text = re.sub(graphic_symbols_pattern, '', text)
return cleaned_text
问题:注释的这个正则,会把英文也给消除了!
解决方案:\u
无法解析 5 位码点,将\u
整体换为 \U000 8位表示匹配范围!