中文编码,GB系列,UTF
图片来源:https://zhuanlan.zhihu.com/p/701690894
文章目录
- ASCII
- GB系列编码
- UTF编码
ASCII
American Standard Code for Information Interchange
一个字节,但其实只用了一半: 128个字符
GB系列编码
“国标”
和ASCII是兼容的。
- GB2312:早期标准,包含简体中文常用汉字约6700个。它是为简体中文用户设计的。每个字符 2 byte (2^16 = FFFF = 65536)
- GBK:扩展了GB2312,包含了繁体字、更多的汉字和符号,基本上覆盖了所有常用汉字。 2 byte
- GB18030:国家强制标准,是对GBK的进一步扩展,能完整表示Unicode中的所有字符,支持中日韩等东亚文字,是目前中文Windows系统默认编码之一。
兼容性:
UTF编码
Unicode Transformation Format
-
UTF-8:全球使用最广泛的编码方式,支持所有语言字符,兼容ASCII。中文在UTF-8中通常用3个字节表示一个汉字。
最高位起始连续1决定该字是几字节编码:
-
UTF-16:每个字符使用2个字节(或者4个字节)表示,空间效率高但不兼容ASCII。
-
UTF-32:每个字符固定使用4个字节,使用简单但空间占用大。