当前位置：首页 > news >正文

中文编码、乱码问题解析处理

news 2025/11/2 8:18:49

中文编码、乱码问题解析处理

基础知识

计算机底层只能存储和处理 0 和 1（二进制）。它不认识任何字符，无论是英文字母 A 还是汉字中。

字符编码是一套规则：将人类语言中的字符（如汉字 “中”、字母 “A”）映射为二进制数字（字节序列），以便存储和传输。不同编码规则对同一字符的二进制映射不同，若编码和解码使用的规则不一致，就会出现乱码。

下面先了解几个相关概念：

字符（Character）：人类可读的符号，如“中”、“A”、“1”、“@”等。
字节（Byte）：计算机存储和传输的基本单位，每个字节由8位二进制组成（0~255）。
计算机不能直接存储“字符”，必须将字符映射为字节序列，这个映射规则就是字符编码（Character Encoding）
编码（Encode）：将字符 → 字节序列。
解码（Decode）：将字节序列 → 字符。
乱码：用错误的编码规则去解码字节序列，显示类似 “紝鍙□？” 等无意义符号。

常见编码

1. ASCII - 英文字符的基石

ASCII（美国信息交换标准代码）

• 仅支持英文字符（0–127），1字节。

• 每个字符占 1 字节（8 位，最高位为 0）

• 不支持中文。

2. GB2312 / GBK / GB18030 - 中文标准

这一系列编码常被统称为 “ANSI” 在中文Windows系统中。在简体中文Windows的默认区域设置下，“ANSI” 就代表 GBK。

GB2312（1980年）

• 中国国家标准，支持简体中文。

• 包含6763个汉字 + 682个符号。

• 使用双字节编码，高位字节范围：0xA1–0xF7，低位：0xA1–0xFE。

• 属于ANSI编码的一种（在简体中文Windows中，ANSI = GB2312）。

GBK（1995年）

• GB2312的扩展，向下兼容。

• 支持21003个汉字（包括繁体）。

• 编码范围更广，高位：0x81–0xFE，低位：0x40–0xFE（排除0x7F）。

• Windows中文版系统中常用。

GB18030（2000年）

• 中国强制标准，兼容GB2312/GBK。

• 支持所有Unicode字符（包括少数民族文字、emoji等）。

• 使用1/2/4字节变长编码。

3. Unicode - 统一天下的“世界语”

Unicode

Unicode本身不是编码，只是一个字符集，它只规定了字符和码点的对应关系，并没有规定这个码点应该如何存储到计算机中。核心思想：为地球上的每个字符分配一个唯一的数字（码点），无论平台、程序、语言。例如：中的 Unicode 码点是 U+4E2D（U+ 表示Unicode，4E2D 是十六进制数）。不同的“编码方案”实现如下：

UTF-8（重点！）

• Unicode 的一种实现编码方式。

• 变长编码：英文1字节，中文通常3字节（部分生僻字4字节）。

• 无BOM（Byte Order Mark）时与ASCII兼容。

• 互联网标准，现代系统（如Linux、Web、macOS）、现代编程语言（如Python 3, Go）默认使用。

UTF-16 / UTF-32

• UTF-16：常用2字节（中文），部分字符用4字节；有大小端（Big/Little Endian）问题，常带BOM。

• UTF-32：固定4字节，效率低，少用。

计算机字符编码基础知识，可参见 https://blog.csdn.net/cnds123/article/details/116208704