当前位置: 首页 > news >正文

qt5的中文乱码问题,QString、QStringLiteral 为 UTF-16 编码

qt5的中文乱码问题一直没有很明确的处理方案。

今天处理进程间通信时,也遇到了qt5乱码问题,一边是设置的GBK,一边设置的是UTF8,单向通信约定采用UTF8。
发送端保证发的是UTF8字符串,因为UTF8在网络数据包中没有字节序问题。
问题出在发送端,字符串的原始编码不明确,转换方案一直靠猜,咨询多个AI助手,也都是胡乱猜测,没有一个能解决,没有一个能给出确定解释。类似于,在一个陌生环境,自己不知道自己在哪。

转机出现在,某个AI突然说了两句话:
QString内部是UTF-16 编码。
QStringLiteral可以确保字符串是UTF-16 编码。

这个关键信息,类似地图中的关键参考点,从确定的参考点出发,每一步都确定转换出来的数据是什么编码,不就可以解决乱码问题了吗?

于是,解决方案就明确了:
发送端:

NetSendFunction(QString message=QStringLiteral("中文法文..."));
QByteArray data = message.toUtf8();

data确定是UTF8编码,作为网络数据包的一部分发送出去。

接收端:

QString message = QString::fromUtf8(data);

QString QStringLiteral 源码

为了预防AI胡说误导,稍微调查一下qt源码:

typedef QTypedArrayData<ushort> QStringData; //数组中存的是ushort是关键点
class Q_CORE_EXPORT QString {
public:
    typedef QStringData Data;
    ...    
    Data *d;//实际存储str的地方
#define QT_UNICODE_LITERAL(str) u"" str // 关键点在u这个C++前缀
#define QStringLiteral(str) \
    ([]() noexcept -> QString { \
        enum { Size = sizeof(QT_UNICODE_LITERAL(str))/2 - 1 }; \
        static const QStaticStringData<Size> qstring_literal = { \
            Q_STATIC_STRING_DATA_HEADER_INITIALIZER(Size), \
            QT_UNICODE_LITERAL(str) }; \
        QStringDataPtr holder = { qstring_literal.data_ptr() }; \
        const QString qstring_literal_temp(holder); \
        return qstring_literal_temp; \
    }()) \
    /**/

C++标准规定u前缀生成UTF-16,确保跨编译器的一致性。 所以核心是c++规范起了作用,各种编译器实现必须满足这一结果。
这种前缀类似运算符号。 用户也可以自定义这种前缀,它会触发函数调用。

其它细节:
QStringLiteral,这个宏用于在编译时创建一个QString对象,以提高运行时效率。
使用立即调用的lambda表达式,在编译时生成静态的QStaticStringData实例qstring_literal 。
qstring_literal_temp通过持有QStringDataPtr的临时QString对象,直接引用静态数据,无需动态内存分配或拷贝,提升效率。

补充deepseek给出的参考

在 Qt5 中,QString 的内部编码始终是 UTF-16。这是 Qt 框架设计的核心特性之一,目的是统一处理 Unicode 字符。以下是详细解释和验证方法:


1. QString 的内部编码是 UTF-16

  • UTF-16 的特性
    • 每个基本字符由 16 位(即一个 QChar)表示。
    • 对于 Unicode 中超出 基本多语言平面(BMP, U+0000 到 U+FFFF) 的字符(如 Emoji 或某些汉字),Qt 会使用 代理对(Surrogate Pairs),即两个 QChar 表示一个字符。
  • Qt 官方文档的明确说明

    “QString stores a string of 16-bit QChars, where each QChar corresponds to one Unicode 4.0 character.”
    (摘自 Qt 5.15 文档)


2. 为什么选择 UTF-16?

  • 跨平台一致性:UTF-16 能够覆盖绝大多数现代语言的字符,同时平衡内存占用和性能。
  • 与操作系统 API 兼容:Windows 原生 API 使用 UTF-16,Qt 选择此编码可以高效与之交互,避免转换开销。

3. 如何验证 QString 的编码?

方法 1:观察字符存储方式

通过检查 QString 中字符的存储长度和代理对的存在,可以间接验证 UTF-16 编码。例如:

QString str = u"𠮷"; // 这是一个超出 BMP 的字符(U+20BB7)
qDebug() << str.length(); // 输出 2,因为使用了代理对
方法 2:查看内存布局

通过调试器查看 QString 的内存,可以看到每个字符占 16 位:

QString str = "Hello";
const QChar *data = str.data();
// 在调试器中查看 data 数组,每个元素为 16 位
方法 3:转换到其他编码

通过 toUtf8()toLatin1() 等方法的转换行为,可以间接确认内部编码:

QString str = u"Ä"; // Unicode 字符 U+00C4
qDebug() << str.toUtf8();   // 输出 UTF-8 编码的字节序列:0xC3 0x84
qDebug() << str.toLatin1(); // 输出 Latin-1 编码的字节:0xC4

4. 注意事项

  • 与源码编码无关QString 的内部编码是固定的 UTF-16,与源代码文件编码(如 UTF-8、GBK)无关。例如:
    // 无论源码是 UTF-8 还是 GBK,以下字符串都会被正确转换为 UTF-16
    QString str = "你好";
    
  • 转换函数的用途toUtf8()fromLocal8Bit() 等方法用于与外部数据(如文件、网络)交互时进行编码转换,不影响 QString 内部存储。

5. 总结

  • QString 内部编码固定为 UTF-16,开发者无需动态判断。
  • 若需要处理其他编码的数据(如 UTF-8、GBK),需通过转换方法(如 QString::fromUtf8())与 QString 交互。
  • 对于超出 BMP 的字符,Qt 会自动使用代理对,确保兼容性。

参考文档:QString Class | Unicode in Qt

相关文章:

  • 状态模式
  • RK3588部署YOLOv8(1):YOLOv8和YOLOv8-pose转ONNX及Python后处理代码实现
  • 人工智能定义
  • AI学习第五天-python的基础使用-趣味图形
  • DeepSeek:面向效率与垂直领域的下一代大语言模型技术解析
  • 2025年电气工程与智能系统国际学术会议(IC2EIS 2025)
  • order by布尔盲注、时间盲注
  • 【算法通关村 Day11】位运算
  • 计算机三级网络技术备考(2)
  • vue测试:单元测试、组件测试、端到端测试
  • Cuckoo Hashing的变体:多哈希表多槽位版本
  • SOME/IP-SD -- 协议英文原文讲解4
  • 为AI聊天工具添加一个知识系统 之123 详细设计之64 人类文化和习俗,即文化上的差异-根本差异
  • 如何搭建起成熟的团队知识文档管理系统
  • 仿真环境下实现场景切换、定位物体和导航行走
  • RK3588--MIPI屏幕选型以及底板设计要点
  • JUC (java. util.concurrent) 的常见类及创建新线程的方法等 [Java EE 初阶]
  • Springboot快速接入豆包大模型
  • 【二分查找 图论】P8794 [蓝桥杯 2022 国 A] 环境治理|普及
  • C++中的多重继承
  • 解放日报:中国大模型企业的发展机遇已经到来
  • 上汽集团一季度净利润30.2亿元,同比增长11.4%
  • 人社部:一季度全国城镇新增就业308万人,同比增加5万人
  • “五一”假期,又有多地将向社会开放政府机关食堂
  • “不意外”和“不遗余力”,直击上海商超对接外贸企业
  • 苏州一季度GDP为6095.68亿元,同比增长6%