MySql插入中文生僻字/Emoji报错django.db.utils.DataError: (1366, “Incorrect string value
在 Django + MySQL 写入生僻字(4 字节 Unicode)时报错,根本原因是 MySQL 默认的 utf8
(实际是 utf8mb3
)只支持最多 3 字节的字符,插入 4 字节字符时会触发。
django.db.utils.DataError: (1366, "Incorrect string value: '…' for column 'xxxx' at row 1")
执行
SHOW VARIABLES WHERE Variable_name LIKE 'character_set_%' OR Variable_name LIKE 'collation%';
关键变量解读
变量 | 值 | 含义 |
---|---|---|
character_set_client | utf8mb4 | 客户端发送数据时用的编码 |
character_set_connection | utf8mb4 | 服务器接收并处理客户端数据用的编码 |
character_set_results | utf8mb4 | 服务器返回结果给客户端时用的编码 |
character_set_database | utf8 | 新建数据库时默认采用的编码 |
character_set_server | utf8 | 服务器端级别的默认编码 |
collation_connection | utf8mb4_0900_ai_ci | 连接层面的排序/比较规则 |
collation_database | utf8_unicode_ci | 数据库层面的排序/比较规则 |
collation_server | utf8_unicode_ci | 服务器层面的排序/比较规则 |
解决步骤:
1/在 Django 中指定 utf8mb4
连接
DATABASES = {'default': {'ENGINE': 'django.db.backends.mysql','NAME': 'your_db','USER': 'your_user','PASSWORD': 'your_pass','HOST': 'localhost','OPTIONS': {'charset': 'utf8mb4','init_command': "SET NAMES utf8mb4 COLLATE utf8mb4_unicode_ci",},}
}
2/转换数据库 / 表 / 字段字符集
以下三种,根据情况选中其中一种进行操作-- 整库转换
ALTER DATABASE your_dbCHARACTER SET = utf8mb4COLLATE = utf8mb4_unicode_ci;-- 整表转换
ALTER TABLE your_tableCONVERT TO CHARACTER SET utf8mb4COLLATE utf8mb4_unicode_ci;-- 或单列转换
ALTER TABLE your_tableMODIFY COLUMN Address VARCHAR(255)CHARACTER SET utf8mb4COLLATE utf8mb4_unicode_ci;
操作 | 作用范围 | 对已存在数据的影响 | 什么时候必须执行 |
---|---|---|---|
ALTER DATABASE | 整个数据库(默认值) | 不会自动转换已存在表或列,只改变以后新建的表/列默认字符集和校对规则。 | 你想让后来所有新表、新列都自动用 utf8mb4 时执行;否则可跳过。 |
ALTER TABLE … CONVERT TO | 整张表(所有列) | 会遍历该表所有字符列,将列定义和存储的数据都转换为 utf8mb4 ,并重建表。 | 想一次性把整张表的所有字符列都切到 utf8mb4 时执行;要转换多列时最便捷。 |
ALTER TABLE … MODIFY COLUMN | 单个字段 | 只修改指定列的字符集和校对规则,并在必要时转换该列数据;对其他列无影响。 | 只需某一个字段支持 4 字节字符时执行;影响最小、锁表时间最短。 |
一般来说可以第一+ 第二