Python 编码与加密全解析:从字符编码到 RSA 签名验证
在 Python 开发中,字符编码(如 UTF-8、GBK)和 数据加密(如 Base64、MD5、RSA)是处理数据传输、存储安全的核心技术。本文结合实战代码,从基础的字符编解码入手,逐步深入到加密算法的应用,覆盖 “迅雷链接破解”“RSA 加解密”“数字签名” 等实际场景,帮你系统掌握数据安全相关技能。
一、基础:字符编解码(encode/decode)
计算机只能识别二进制(0/1),而人类使用的是字符(如 a
、中
),字符编码就是 “字符→二进制” 的映射规则,解码则是反向过程。Python 中字符串(str
)与字节流(bytes
)的转换,全靠 encode()
和 decode()
实现。
1. 核心原理
- 编码(encode):
str
→bytes
,将字符串按指定规则转为二进制字节流。 - 解码(decode):
bytes
→str
,将二进制字节流按对应规则还原为字符串。 - 常见编码格式:
UTF-8
(通用,一个汉字占 3 字节)、GBK
(中文专用,一个汉字占 2 字节)。
2. 实战代码
# 1. 英文编码(UTF-8 下英文占 1 字节)
s = "hello"
# 编码:str → bytes(指定 UTF-8 规则)
se = s.encode(encoding="utf-8")
print("UTF-8 编码结果(字节流):", se) # 输出:b'hello'(b 表示 bytes 类型)
# 解码:bytes → str
print("UTF-8 解码结果(字符串):", se.decode(encoding="utf-8")) # 输出:hello# 2. 中文编码(UTF-8 占 3 字节,GBK 占 2 字节)
s = "中"
# UTF-8 编码
se_utf8 = s.encode(encoding="utf-8")
print("中文 UTF-8 编码:", se_utf8) # 输出:b'\xe4\xb8\xad'(3 字节)
# GBK 编码
se_gbk = s.encode(encoding="gbk")
print("中文 GBK 编码:", se_gbk) # 输出:b'\xd6\xd0'(2 字节)# 解码必须与编码格式一致,否则乱码
print("UTF-8 解码:", se_utf8.decode("utf-8")) # 输出:中
print("GBK 解码:", se_gbk.decode("gbk")) # 输出:中
3. 关键注意点
- 编码和解码的 格式必须一致(如 UTF-8 编码需用 UTF-8 解码),否则会出现
UnicodeDecodeError
或乱码。 - 中文场景优先用
UTF-8
,避免GBK
跨平台兼容性问题。
二、Base64 编码:解决不可见字符传输问题
Base64 是一种 “二进制到字符串” 的编码方式,将任意二进制数据转为 A-Z
、a-z
、0-9
、+
、/
组成的可见字符串,核心作用是 避免不可见字符(如 ASCII 128+)在传输中出错。
1. 应用场景
- 邮件附件传输、下载链接加密(如迅雷、QQ 旋风);
- 图片转字符串(如 HTML 中嵌入 Base64 图片,减少 HTTP 请求);
- 跨平台数据传输(避免二进制解析差异)。
2. 实战代码(含迅雷 / 旋风链接破解)
Python 内置 base64
模块,直接调用 b64encode()
(编码)和 b64decode()
(解码)即可。
(1)基础编解码
import base64# 1. 编码:先将字符串转为 bytes,再 Base64 编码
s = "hello"
# 步骤:str → bytes(UTF-8)→ Base64 字符串(bytes 类型)
s64_encode = base64.b64encode(s.encode(encoding="utf-8"))
print("Base64 编码结果:", s64_encode) # 输出:b'aGVsbG8='# 2. 解码:Base64 字符串 → bytes → str
s64_decode = base64.b64decode(s64_encode)
print("Base64 解码结果:", s64_decode.decode("utf-8")) # 输出:hello
(2)破解迅雷 / QQ 旋风链接
迅雷、旋风链接本质是 “自定义前缀 + Base64 编码”,破解只需去掉前缀再解码:
import base64
from urllib.parse import quote, unquote# 1. 破解迅雷链接(前缀:thunder://,中间需去掉 AA/ZZ 包裹)
thunder_url = "thunder://QUFodHRwczovL3d3dy5sdW9jaGVuemhpbXUuY29tL3VybC9aWg=="
# 步骤:去掉前缀 → Base64 解码 → 去掉 AA/ZZ 包裹
pure_url = thunder_url.removeprefix("thunder://") # 去掉 thunder://
decoded_url = base64.b64decode(pure_url).decode("utf-8") # Base64 解码
real_url = decoded_url.removeprefix("AA").removesuffix("ZZ") # 去掉 AA/ZZ
print("破解后的迅雷链接:", real_url) # 输出:https://www.luochenzhimu.com/url/Z# 2. 破解 QQ 旋风链接(前缀:qqdl://)
qqdl_url = "qqdl://aHR0cHM6Ly93d3cubHVvY2hlbnpoaW11LmNvbS91cmwv"
pure_url = qqdl_url.removeprefix("qqdl://") # 去掉 qqdl://
real_url = base64.b64decode(pure_url).decode("utf-8")
print("破解后的旋风链接:", real_url) # 输出:https://www.luochenzhimu.com/url/# 3. 生成迅雷链接(反向操作)
original_url = "https://www.luochenzhimu.com/url/"
# 步骤:AA + 原始链接 + ZZ → Base64 编码 → 加 thunder:// 前缀
wrapped_url = "AA" + original_url + "ZZ"
base64_url = base64.b64encode(wrapped_url.encode()).decode()
thunder_new = "thunder://" + base64_url
print("生成的迅雷链接:", thunder_new) # 输出:thunder://QUFodHRwczovL3d3dy5sdW9jaGVuemhpbXUuY29tL3VybC8vWlo=
三、不可逆加密:MD5 与 SHA256(密码存储首选)
不可逆加密(哈希算法)的核心特点是 只能加密,不能解密,相同输入永远得到相同输出,不同输入大概率得到不同输出(抗碰撞)。常用于密码存储、数据完整性校验。
1. 应用场景
- 密码存储:不存储明文密码,只存储哈希值(如用户登录时,将输入密码哈希后与数据库中的哈希值对比);
- 文件校验:下载文件时,对比 “官方哈希值” 与 “本地文件哈希值”,判断文件是否被篡改。
2. 实战代码(Python 内置 hashlib
模块)
from hashlib import md5, sha256# 待加密的字符串(如密码)
pwd = "123456"
# 注意:哈希算法需传入 bytes 类型,因此先 encode()# 1. MD5 加密(16 字节输出,通常显示为 32 位十六进制字符串)
md5_hash = md5(pwd.encode(encoding="utf-8")).hexdigest()
print("MD5 加密结果:", md5_hash) # 输出:e10adc3949ba59abbe56e057f20f883e# 2. SHA256 加密(256 位输出,安全性高于 MD5)
sha256_hash = sha256(pwd.encode(encoding="utf-8")).hexdigest()
print("SHA256 加密结果:", sha256_hash) # 输出:8d969eef6ecad3c29a3a629280e686cf0c3f5d5a86aff3ca12020c923adc6c92
3. 关键注意点
- MD5 安全性较低(已被破解,存在碰撞案例),推荐用 SHA256 或更安全的 SHA512;
- 实际项目中,密码哈希需加盐(
salt
),即添加随机字符串后再哈希,避免 “彩虹表” 破解(如md5((pwd + salt).encode())
)。
四、非对称加密:RSA(公钥加密,私钥解密)
非对称加密有 两把钥匙:公钥(公开,用于加密)和私钥(保密,用于解密),核心优势是 “无需传递密钥,即可安全传输数据”,是 HTTPS、数字签名的核心技术。
1. 应用场景
- 安全通信(如 HTTPS 中服务器用公钥加密,客户端用私钥解密);
- 数字签名(用私钥签名,公钥验证,确保数据未被篡改);
- 敏感数据加密(如支付信息、个人隐私)。
2. 实战代码(需先安装 rsa
库)
Python 没有内置 RSA 模块,需先安装第三方库:
# 安装 rsa 库(国内镜像加速)
pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
pip install rsa
(1)生成公钥与私钥(保存到文件)
import rsa# 1. 生成 RSA 密钥对(nbit 为密钥长度,2048 或 4096,长度越长越安全)
pub_key, pri_key = rsa.newkeys(nbit=2048)# 2. 将密钥转为 bytes 格式(PKCS#1 标准,便于存储)
pub_key_bytes = pub_key.save_pkcs1() # 公钥 bytes
pri_key_bytes = pri_key.save_pkcs1() # 私钥 bytes# 3. 保存到文件(公钥可公开,私钥需保密)
with open("./a/public.pem", "wb") as f: # 公钥文件f.write(pub_key_bytes)
with open("./a/private.pem", "wb") as f: # 私钥文件f.write(pri_key_bytes)
print("RSA 密钥对已保存到 ./a 目录")
(2)RSA 加解密(公钥加密,私钥解密)
import rsa
import base64# 1. 从文件加载密钥(实际项目中,公钥可能从服务器获取,私钥本地存储)
pub_key_bytes = open("./a/public.pem", "rb").read()
pri_key_bytes = open("./a/private.pem", "rb").read()# 2. 解析密钥为 RSA 格式
pub_key = rsa.PublicKey.load_pkcs1(pub_key_bytes) # 加载公钥
pri_key = rsa.PrivateKey.load_pkcs1(pri_key_bytes) # 加载私钥# 3. 加密(公钥加密,只能加密短数据,长数据需分段)
plain_text = "hello, RSA!" # 待加密的明文
# 步骤:明文 → bytes → RSA 加密(bytes)→ Base64 编码(便于传输)
encrypted = rsa.encrypt(plain_text.encode("utf-8"), pub_key)
encrypted_base64 = base64.b64encode(encrypted).decode("utf-8")
print("RSA 加密后(Base64):", encrypted_base64)# 4. 解密(私钥解密)
# 步骤:Base64 解码 → RSA 解密(bytes)→ 明文(str)
decrypted_base64 = base64.b64decode(encrypted_base64.encode("utf-8"))
decrypted = rsa.decrypt(decrypted_base64, pri_key).decode("utf-8")
print("RSA 解密后:", decrypted) # 输出:hello, RSA!
五、数字签名:RSA 签名与验证(确保数据完整性)
数字签名是 “非对称加密的反向应用”:用 私钥签名(生成签名),用 公钥验证(判断数据是否被篡改)。核心作用是 “确认数据来源合法 + 数据未被修改”。
1. 应用场景
- 接口请求签名(如 API 调用时,客户端用私钥签名,服务器用公钥验证,防止请求被篡改);
- 软件安装包签名(如 Windows exe 签名,确保软件未被植入恶意代码);
- 电子合同、电子证书。
2. 实战代码(模拟 JD 链接签名验证)
import rsa
import base64
from urllib.parse import quote, unquote# 待签名的数据(如 JD 商品链接)
original_url = "https://www.jd.com/?itemId=2"# 1. 加载 RSA 密钥对
pub_key_bytes = open("./a/public.pem", "rb").read()
pri_key_bytes = open("./a/private.pem", "rb").read()
pub_key = rsa.PublicKey.load_pkcs1(pub_key_bytes)
pri_key = rsa.PrivateKey.load_pkcs1(pri_key_bytes)# 2. 私钥签名(生成签名)
# 步骤:数据 → bytes → 私钥签名(MD5 哈希算法)→ Base64 编码 → URL 编码(处理特殊字符)
sign = rsa.sign(original_url.encode("utf-8"), pri_key, "MD5") # MD5 为哈希算法
sign_base64 = base64.b64encode(sign).decode("utf-8")
sign_urlencoded = quote(sign_base64) # URL 编码,避免特殊字符(如 +、/)出错
print("生成的签名(URL 编码后):", sign_urlencoded)# 3. 公钥验证(判断数据是否被篡改)
# 模拟场景:服务器收到数据(可能被篡改)和签名,验证合法性
received_url = "https://www.jd.com/?itemId=3" # 被篡改的链接
received_sign = sign_urlencoded # 收到的签名# 验证步骤:URL 解码 → Base64 解码 → 公钥验证
sign_decoded = unquote(received_sign) # URL 解码
sign_bytes = base64.b64decode(sign_decoded.encode("utf-8")) # Base64 解码try:# 公钥验证:若验证通过,返回签名时用的哈希算法(如 'MD5');若失败,抛出异常verify_result = rsa.verify(received_url.encode("utf-8"), sign_bytes, pub_key)print("验证通过,哈希算法:", verify_result)
except rsa.VerificationError:print("验证失败!数据已被篡改或签名无效") # 此处会触发,因为 received_url 被篡改
六、总结与工具清单
- 字符编码:
UTF-8
优先,处理中文避免乱码; - Base64:用于不可见字符传输、链接加密,
base64
模块直接调用; - 不可逆加密:MD5(简单)、SHA256(安全),
hashlib
模块,适合密码存储; - 非对称加密:RSA(公钥加密、私钥解密),
rsa
库,适合安全通信; - 数字签名:RSA 私钥签名、公钥验证,确保数据完整性和合法性。
通过本文的代码实战,你可以轻松应对 “数据传输加密”“密码存储”“接口签名” 等常见场景,为 Python 项目的安全性保驾护航。