当前位置：首页 > news >正文

Python 字符串、字节串与编解码：数据转换的奥秘

news 2025/9/23 1:20:23

Python 字符串、字节串与编解码：数据转换的奥秘

对话实录

小白：（皱着眉头，满脸困惑）我在Python里处理文本数据时，经常遇到乱码问题，而且有时候还分不清字符串和字节串，这到底是怎么回事呀？

专家：（微笑着，胸有成竹）这是因为你还没搞清楚 Python中字符串、字节串以及编解码的原理！它们可是数据处理的关键，掌握了这些知识，乱码等问题就能迎刃而解，我这就给你仔细讲讲！

核心概念：字符串 vs 字节串

1. 字符串（str）

在Python中，字符串是用Unicode字符表示的文本，可以包含中文、英文、数字、符号等各种字符。我们通常使用单引号'、双引号"或者三引号'''来定义字符串。例如：

text = "你好，Python！"# 这就是一个字符串
print(type(text)) # 输出：<class'str'>

字符串是人类能够直接理解和阅读的形式，但计算机在存储和传输数据时，不能直接处理字符串，需要将其转换为字节串。

2. 字节串（bytes）

字节串是由一系列字节（0 到 255的整数）组成的序列，在Python中表示为b'...'的形式。字节串是计算机实际存储和传输数据的方式，它以二进制的形式存在，我们人类无法直接读懂。比如：

#直接使用b'.....'这种样式定义字节串
byte_data = b'\x48\x65\x6c\x6c\x6f'# 这是对应 "Hello" 的字节串
print(type(byte_data)) # 输出：<class 'bytes'>#使用bytes函数定义字节串
byte_data = bytes('hello python 我是小爱',encoding='utf8')
print(byte_data)	 
#输出为b'hello python \xe6\x88\x91\xe6\x98\xaf\xe5\xb0\x8f\xe7\x88\xb1'

这里的\x48、\x65等，每个\x开头的两位十六进制数代表一个字节。

相信大家应该发现了一个规律：英文字符在字符串和字节串中都没有什么变化，而中文字符会被转码。要问为什么，只能说计算机是外国人发明的，人家不支持中文，只能通过编解码来识别。

3.什么是字节？

大家都知道计算机是二进制的世界，计算机系统只能识别数字0和1组成的一串串的数字。1位数字代表1个比特（bit），每8个比特代表1个字节（byte），那么1个字节如果都为数字1，如11111111，代表的最大数字是255。

如果是2 个字节最大可以表示为 65535，4 个字节最大表示为4294967295。

每一种不同的数字0和1的组合，就可以代表一个字符。基于上述原理出现了各种编码格式：

1.ASCII 编码

最开始是美国人发明的编码 ASCII ，只能表示 256 个字符，仅支持英文字母，数字和少部分符号。

2.GBK 编码

中国文字博大精深，汉字特别多，其他编码格式并不能满足要求，所以才有了适合中文编解码的 GB2312。编码（后来升级到了 GBK 编码），可以容纳将近7000个汉字。

3.Unicode编码

世界上除了英文/中文等还有各个国家的文字语言，每个国家的编码不统一会带来很多编解码的困难，后来Unicode 字符集就出现了，它将所有的语言都容纳在一起，后续为了在存储和传输数据时节省空间，出现了目前常用的UTF8编码。

4. 两者区别

字符串：是逻辑上的文本表示，基于Unicode字符集，存储的是字符的抽象概念，不涉及具体的二进制存储形式。

字节串：是物理存储和传输的数据形式，由具体的字节组成，与编码方式紧密相关，不同的编码方式会将字符串转换为不同的字节串。

编解码：数据转换的桥梁

1. 编码（encode）

编码是将字符串转换为字节串的过程，在这个过程中，需要指定一种编码格式，常见的编码格式如上面提到的UTF-8、GBK、ASCII 等。例如，将字符串编码为UTF-8 格式的字节串：

text = "中文"
byte_data = text.encode('utf-8') # 使用UTF-8编码
print(byte_data) # 输出：b'\xe4\xb8\xad\xe6\x96\x87'

UTF-8 是一种可变长编码，它用 1 到 4 个字节来表示不同的字符，英文字符通常用 1 个字节表示，而中文等复杂字符一般用3个字节表示。

2. 解码（decode）

解码是编码的逆过程，即把字节串转换回字符串。解码时使用的编码格式必须与编码时的格式一致，否则就会出现乱码或者报错。比如，将刚才编码得到的字节串解码：

byte_data = b'\xe4\xb8\xad\xe6\x96\x87'
text = byte_data.decode('utf-8') # 使用UTF-8解码
print(text) # 输出：中文

如果使用错误的编码格式进行解码，就会得到乱码。例如：

byte_data = b'\xe4\xb8\xad\xe6\x96\x87'
# 错误示范：使用GBK解码UTF-8编码的字节串
wrong_text = byte_data.decode('gbk')
print(wrong_text) # 输出乱码：涓枃

常用功能及案例

案例 1：文件读写中的编解码

在读写文件时，正确的编解码设置非常重要，否则会出现乱码。例如，将一段中文写入文件，并读取出来：

# 写入文件
text = "这是一段中文内容"
with open('test.txt', 'w', encoding='utf-8') as f:f.write(text)# 读取文件
with open('test.txt', 'r', encoding='utf-8') as f:content = f.read()print(content) # 输出：这是一段中文内容

如果在写入或读取文件时，没有指定正确的编码格式，就可能出现乱码。比如，写入时用 UTF-8，读取时用 GBK：

# 写入文件（UTF-8）
text = "乱码测试"
with open('test.txt', 'w', encoding='utf-8') as f:f.write(text)# 错误读取（GBK）
with open('test.txt', 'r', encoding='gbk') as f:content = f.read()print(content) # 输出乱码

案例 2：网络传输中的字节串处理

在网络编程中，数据通常以字节串的形式进行传输。例如，使用socket模块发送和接收数据：

import socket
# 创建socket对象（客户端连接）
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
s.connect(('127.0.0.1', 8888))
# 发送数据（需要编码为字节串）
message = "你好，服务器！".encode('utf-8')
s.send(message)# 接收数据（接收到的是字节串，需要解码）
data = s.recv(1024)
print(data.decode('utf-8'))
s.close()

在这个例子中，发送数据前需要将字符串编码为字节串，接收数据后需要将字节串解码为字符串，才能正确地进行通信。

案例 3：处理不同编码的字节串

有时候我们会遇到不同编码格式的字节串，需要将它们转换为统一的编码。比如，将 GBK 编码的字节串转换为 UTF-8 编码：

gbk_data = b'\xd6\xd0\xce\xc4'# GBK编码的 "中文"
gbk_text = gbk_data.decode('gbk') # 先解码为字符串
utf8_data = gbk_text.encode('utf-8') # 再编码为UTF-8
print(utf8_data) # 输出：b'\xe4\xb8\xad\xe6\x96\x87'

案例 4：文件批量编码转换

假设我们有一个文件夹，里面包含多个以GBK编码的文本文件，现在需要将它们批量转换为UTF-8 编码。

import osdef convert_encoding():    folder_path = "gbk_files"  # 存放GBK编码文件的文件夹路径    for root, dirs, files in os.walk(folder_path):        for file in files:            file_path = os.path.join(root, file)            try:                with open(file_path, 'r', encoding='gbk') as f:                    content = f.read()                new_content = content.encode('utf-8')								#使用rsplit从右边分割文件名，并保存新为文件名                new_file_path = file_path.rsplit('.', 1)[0] + '_utf8.'                   + file_path.rsplit('.', 1)[1]                with open(new_file_path, 'wb') as new_f:                    new_f.write(new_content)                print(f"{file_path} 已成功转换为UTF-8编码，保存为 {new_file_path}")            except UnicodeDecodeError:                print(f"{file_path} 解码失败，可能不是GBK编码文件")#运行函数convert_encoding()

在这个案例中，通过遍历文件夹中的文件，先以 GBK 编码读取文件内容，再将内容编码为 UTF - 8，并保存为新文件，实现了文件的批量编码转换。

案例 5：API 交互中的编解码

当我们使用 Python 调用外部 API 时，也经常涉及字符串和字节串的编解码。以调用一个获取天气信息的 API 为例，假设 API 要求请求参数以 JSON 格式的字节串发送，返回的数据也是字节串形式：

import requests
import jsonurl = "https://api.example.com/weather"
params = {
"city": "北京",
"date": "2024-01-01"
}
# 将参数字典转换为JSON字符串，再编码为字节串
data = json.dumps(params).encode('utf-8')
headers = {
"Content-Type": "application/json"
}
response = requests.post(url, data=data, headers=headers)
# 接收的响应是字节串，解码为字符串
if response.status_code == 200:result = response.content.decode('utf-8')print(result)
else:print(f"请求失败，状态码：{response.status_code}")

在此案例里，我们先将请求参数从Python字典转换为JSON格式的字符串，再编码为字节串发送给 API；接收到 API 返回的字节串数据后，通过解码得到字符串形式的结果，从而实现了与 API 的正确交互。

案例 6：日志处理中的编解码

在 Python 的日志记录中，也会涉及到编解码操作。当我们将日志信息写入文件时，如果不注意编码设置，可能会出现问题。

import logging# 设置日志记录的基本配置，指定编码为UTF-8
logging.basicConfig(filename='app.log', level=logging.INFO, encoding='utf-8')
try:
#记录包含中文的日志信息logging.info("这是一条中文日志信息")
except UnicodeEncodeError:print("日志写入时编码错误")

在这个案例中，通过在logging.basicConfig中显式指定encoding='utf-8'，确保了包含中文等字符的日志信息能够以正确的编码写入文件，避免了因编码问题导致日志记录失败的情况。

闭坑指南

1.编码格式不匹配

错误原因

：在解码字节串时，使用了与编码时不同的编码格式，这是导致乱码的最常见原因。

解决方法

：确保编码和解码使用相同的格式。如果不确定字节串的编码格式，可以尝试使用一些工具或库进行检测，比如chardet库。

专家工具箱

1.使用chardet检测编码格式

在使用chardet库之前，需要先进行安装。可以使用 pip 命令来安装：pip install chardet

chardet 库的核心是 detect 函数，它接受一个字节串作为输入，并返回一个字典，其中包含检测到的编码、置信度等信息。以下是一个简单的示例：

import chardet# 示例字节串
byte_data = b'\xd6\xd0\xce\xc4'# 这是GBK编码的"中文"
# 使用chardet检测编码
result = chardet.detect(byte_data)
# 输出检测结果
print(f"检测到的编码: {result['encoding']}")
print(f"置信度: {result['confidence']}")byte_data = b'\xe4\xb8\xad\xe6\x96\x87'# 这是utf-8编码的"中文"
# 使用chardet检测编码
result = chardet.detect(byte_data)
# 输出检测结果
print(f"检测到的编码: {result['encoding']}")
print(f"置信度: {result['confidence']}")#执行结果 
检测到的编码: KOI8-R
置信度: 0.682639754276994
检测到的编码: utf-8
置信度: 0.7525

在上述代码中，chardet.detect(byte_data) 对 byte_data 进行编码检测，并返回一个包含编码和置信度的字典。其中，result['encoding'] 是检测到的编码名称，result['confidence'] 是检测结果的置信度，取值范围是 0 到 1，越接近 1 表示置信度越高。

2.什么是10进制/2进制/8进制/16进制？

10进制	通常我们说的数字，比如数字10 100 200等，没有前缀表示
2进制	由数字0和1组成，以0b或者0B前缀开头，比如0b1010，换算为十进制表示数字10
8进制	由数字0到7组成，每3位2进制数字组成一个8进制数，比如3位111表示数字7，所以最大数字为7，而000就表示为0。以0O或者0o前缀开头，比如0o12，换算为十进制表示数字10
16进制	由数字0到9，字母a,b,c,d,e,f共16位组成，字母a到f代表的是数字10到15；相当于每4位2进制数字组成一个16进制数，比如4位1111表示数字15，用f表示，而0000就表示为0。以0x或者0X开头，比如0xa，换算为十进制表示数字10

python中可通过bin(),oct(),hex()函数依次将十进制数转换为2进制,8进制,16进制。

#定义数字10
dig1 = 10#转为2进制
bin_dig1 = bin(dig1)
print(f'十进制 数字10 转为2进制为：{bin_dig1}')#转为8进制
oct_dig1 = oct(dig1)
print(f'十进制 数字10 转为8进制为：{oct_dig1}')#转为16进制
hex_dig1 = hex(dig1)
print(f'十进制 数字10 转为16进制为：{hex_dig1}')结果：
十进制 数字10 转为2进制为：0b1010
十进制 数字10 转为8进制为：0o12
十进制 数字10 转为16进制为：0xa

同理2进制，8进制和16进制可通过int()函数转为10进制。

print(f'2进制 数字10 转为10进制为：{int(bin_dig1,base=2)}')
print(f'8进制 数字10 转为10进制为：{int(oct_dig1,base=8)}')
print(f'16进制 数字10 转为10进制为：{int(hex_dig1,base=16)}')
结果：
2进制 数字10 转为10进制为：10
8进制 数字10 转为10进制为：10
16进制 数字10 转为10进制为：10

3.python字符串和unicode编码转换

char = "章三"
char.encode(encoding='unicode_escape')

通过unicode_escape编码为unicode类型，结果如下：

b'\\u7ae0\\u4e09'

unicode字节码以\\u的前缀表示，unicode编码中每个中文占2个字节（utf8编码占用3个字节），7ae0和4e09表示的是16进制，16进制转为10进制数分别是31456，19977

print(f'16进制 7ae0 转为10进制为：{int("7ae0",base=16)}')
print(f'16进制 4e09 转为10进制为：{int("4e09",base=16)}')
结果：
16进制 7ae0 转为10进制为：31456
16进制 4e09 转为10进制为：19977

通过chr函数可以解析出某数字对应的unicode字符

print(f'16进制 7ae0 转为10进制 通过chr函数获取对应数字的字符：{chr(int("7ae0",base=16))}')
print(f'16进制 4e09 转为10进制 通过chr函数获取对应数字的字符：{chr(int("4e09",base=16))}')

结果：可以反推出我们字符串定义的“章三”两个汉字。

16进制7ae0转为10进制通过chr函数获取对应数字的字符：章
16进制4e09转为10进制通过chr函数获取对应数字的字符：三

通过ord()函数可以直接得出unicode字符对应的编码中的数字

print(f'汉字 章 对应的unicode编码中的数字是 {ord("章")}')
print(f'汉字 三 对应的unicode编码中的数字是 {ord("三")}')
结果：
汉字 章 对应的unicode编码中的数字是 31456
汉字 三 对应的unicode编码中的数字是 19977

4.16进制字符串解码为普通字符串

中文“章三”编码输出的16进制字节串为b'\xe7\xab\xa0\xe4\xb8\x89'可通过str.encode().hex()函数转为16进制字符串：“e7aba0e4b889”

str_ch= '章三'
print(str_ch.encode().hex())

然后使用codecs.decode()或者bytes.fromhex()或者binascii.unhexlify()方法将16进制的字符串解码为普通字符串。

codecs.decode()

import codecs
hex_str = "e7aba0e4b889"
str_result = codecs.decode(hex_str, "hex").decode("utf-8")
print(str_result)

binascii.unhexlify()

import binascii
byte_str = binascii.unhexlify(hex_str)
str_result = byte_str.decode("utf-8")
print(str_result)

bytes.fromhex()

byte_str = bytes.fromhex(hex_str)
str_result = byte_str.decode("utf-8")
print(str_result)

总结回顾

Python 中的字符串和字节串是数据处理的两种重要形式，而编解码则是它们之间相互转换的关键。理解并掌握这些知识，能够帮助我们在处理文本数据、文件操作、网络通信等场景中，避免乱码问题，确保数据的正确传输和处理。

查看全文

http://www.dtcms.com/a/242938.html

【Python】 -- 趣味代码 - 扫雷游戏

Jaeger开源分布式追踪平台深度剖析（三）Jaeger默认存储Badger原理剖析

Docker安装openGauss

pont拉取代码

git管理github上的repository(二)

2025 Java 面试大全

A 找倍数（线段树）

嵌入式学习笔记DAY35（数据库）

龙虎榜——20250610

算法题（166）：占卜DIY

Zustand 状态管理库：极简而强大的解决方案

城市照明深夜全亮太浪费？智能分时调光方案落地贵州某市

精读 2025 《可信数据空间标准体系建设指南》【附全文阅读】

扩散模型调度器（Scheduler）

MySQL事务——博主总结

pycharm最近遇到的一些问题

理解 MCP 工作流：使用 Ollama 和 LangChain 构建本地 MCP 客户端

rapidocr v3.1.0发布

HDFS 3.4.1 集成Kerberos 实现账户认证

6月10日星期二今日早报简报微语报早读

用纯.NET开发并制作一个智能桌面机器人（五）：使用.NET为树莓派开发Wifi配网功能

Unit 2 训练你的第一个深度强化学习智能体 LunarLander-v3

慢接口优化万能公式-适合所有系统

1.2 git使用

SIP协议之NACK(Negative Acknowledgement)

LLMs 系列实操科普（3）

智慧工地云平台源码，基于微服务架构+Java+Spring Cloud +UniApp +MySql

业财融合怎么做？如何把握业务与财务的边界？

crackme008

Unity | AmplifyShaderEditor插件基础（第八集：噪声波动shader）