共用体union和大小端模式
1、什么是共用体
(1)共用体union和结构体struct在类型定义、变量定义、使用方法上很相似。
(2)共用体和结构体的不同:
- 结构体类似于一个包裹,结构体中的成员彼此是独立存在的,分布在内存的不同单元中,他们只是被打包成一个整体叫做结构体而已;
- 共用体中的各个成员其实是一体的,彼此不独立,他们使用同一个内存单元。可以理解为:有时候是这个元素,有时候是那个元素。更准确的说法是同一个内存空间有多种解释方式。
(3)共用体union就是对同一块内存中存储的二进制的不同的理解方式。
(4)在有些书中把union翻译成联合(联合体),这个名字不好。现在翻译成共用体比较合适。
(5)union的sizeof测到的大小实际是union中各个元素里面占用内存最大的那个元素的大小。因为可以存的下这个就一定能够存的下其他的元素。
(6)union中的元素不存在内存对齐的问题,因为union中实际只有1个内存空间,都是从同一个地址开始的(开始地址就是整个union占有的内存空间的首地址),所以不涉及内存对齐。
2、共用体的主要用途
(1)共用体就用在那种对同一个内存单元进行多种不同规则解析的这种情况下。
(2)C语言中其实是可以没有共用体的,用指针和强制类型转换可以替代共用体完成同样的功能,但是共用体的方式更简单、更便捷、更好理解。
3、什么是大小端
(1)大端模式(big endian)和小端模式(little endian)。最早是小说中出现的词,和计算机本来没关系的。
(2)后来计算机通信发展起来后,遇到一个问题就是:在串口等串行通信中,一次只能发送1个字节。这时候我要发送一个int类型的数就遇到一个问题。int类型有4个字节,我是按照:byte0 byte1 byte2 byte3这样的顺序发送,还是按照byte3 byte2 byte1 byte0这样的顺序发送。规则就是发送方和接收方必须按照同样的字节顺序来通信,否则就会出现错误。这就叫通信系统中的大小端模式。这是大小端这个词和计算机挂钩的最早问题。
(3)现在我们讲的这个大小端模式,更多是指计算机存储系统的大小端。在计算机内存/硬盘/Nnad中。因为存储系统是32位的,但是数据仍然是按照字节为单位的。于是乎一个32位的二进制在内存中存储时有2种分布方式:高字节对应高地址,低字节对应低地址(小端模式)、高字节对应低地址,低字节对应高地址(大端模式)。
(4)大端模式和小端模式本身没有对错,没有优劣,理论上按照大端或小端都可以,但是要求必须存储时和读取时按照同样的大小端模式来进行,否则会出错。
(5)现实的情况就是:有些CPU公司用大端(譬如C51单片机);有些CPU用小端(譬如ARM)。(大部分是用小端模式,大端模式的不算多)。写代码时,当不知道当前环境是用大端模式还是小端模式时就需要用代码来检测当前系统的大小端。
4、用C语言写一个函数来测试当前机器的大小端模式
4.1、用union来测试机器的大小端模式
#include <stdio.h>
#include <stdint.h>/* 返回 1 表示小端(Little-Endian),返回 0 表示大端(Big-Endian) */
int is_little_endian(void)
{union{uint16_t u16; /* 16 位无符号整数 */uint8_t u8[2]; /* 占同样内存的两个字节 */} test = { 0x0102 }; /* 初始化时高位 0x01,低位 0x02 *//* 在小端机器上,低地址存放低字节 0x02 */return test.u8[0] == 0x02;
}/* 测试用例 */
int main(void)
{if (is_little_endian())printf("This machine is Little-Endian.\n");elseprintf("This machine is Big-Endian.\n");return 0;
}
4.2、指针方式来测试机器的大小端
#include <stdio.h>
int main()
{int a = 1; // 0x00 00 00 01printf("%s\n", *(char*)&a ? "Little" : "Big");return 0;
}
5、看似可行实则不行的测试大小端方式
(1)位与运算。
- 结论:位与的方式无法测试机器的大小端模式。(表现就是大端机器和小端机器的&运算后的值相同的)
- 理论分析:位与运算是编译器提供的运算,这个运算是高于内存层次的(或者说&运算在二进制层次具有可移植性,也就是说&的时候一定是高字节&高字节,低字节&低字节,和二进制存储无关)。
(2)移位
- 结论:移位的方式也不能测试机器大小端。
- 理论分析:原因和&运算符不能测试一样,因为C语言对运算符的级别是高于二进制层次的。右移运算永远是将低字节移除,而和二进制存储时这个低字节在高位还是低位无关的。
6、通信中的大小端
(1)譬如要通过串口发送一个0x12345678给接收方,但是因为串口本身限制,只能以字节为单位来发送,所以需要发4次;接收方分4次接收,内容分别是:0x12、0x34、0x56、0x78。接收方接收到这4个字节之后需要去重组得到0x12345678(而不是得到0x78563412)。
(2)所以在通信双方需要有一个默契,就是:先发/先接的是高字节还是低字节?这就是通信中的大小端问题。
(3)一般来说是:先发低字节叫小端;先发高字节就叫大端。实际操作中,在通信协议里面会去定义大小端,明确告诉你先发的是低字节还是高字节。
(4)在通信协议中,大小端是非常重要的,大家使用别人定义的通信协议还是自己要去定义通信协议,一定都要注意标明通信协议中大小端的问题。