为什么结构在 64 位机器上对齐到 4 字节32 位?

问题描述

我试图通过这段代码了解有关结构填充的一些内容

#include <stdio.h>
#include <stdint.h>

struct azaza { // of course suboptimal arrangement of elements
     uint32_t addr1;
     uint32_t addr2;
     uint8_t tmp;
     uint32_t addr3;
     uint8_t flags;
};

int main(void) {
     printf("%d\n",sizeof(struct azaza));

     return 0;
}

输出为:20,
但我期望 24,因为我的机器和操作系统是 64 位,我认为对齐应该在 4 字节边界上。 为什么 x86-64 OS 上的结构对齐在 4 字节边界上?

解决方法

术语“64 位机器”含糊不清。计算机处理器和系统有几个特性,它们在同一台机器上的大小可能不同,包括:

  • 大多数处理器寄存器的宽度。
  • 地址的宽度。
  • 数据总线的宽度。
  • 算术逻辑单元的宽度。

目前,让我们假设所有这些都是 64 位。即便如此,为什么我们要说 uint32_t 对齐到 64 位?

需要对齐的一个原因是避免在内存传输之间拆分访问。如果总线为 64 位宽,则系统通常设计为以 8 字节(64 位)的倍数访问内存。当处理器想要读取一些内存时,比如从 64 位地址,它只将前 61 位发送到内存设备。 (61 很多,但我们假设这台机器中的所有内容都是 64 位。)存储设备获取与这 61 位匹配的所有 8 个字节——我们没有发送的低三位的所有 8 种组合。它一次获取 8 个字节,因为它适合总线,而且我们希望提高效率。

因此,每当进程从内存中读取时,它总是会得到 8 个字节,并且这些字节将是 64 位对齐的。

现在我们可以看到,如果一个 uint32_t 从某个地址开始,比如 xxx0101,其中 x 代表我们不关心的位,它的四个字节将位于地址 xxx0101、xxx0110、xxx0111 和 xxx1000。但是第四个字节在不同的八组中。前三个都在同一组中,由初始位 xxx0 寻址的那个。最后一个字节在一个新组 xxx1 中。要读取这个 uint32_t,我们必须从内存中读取两次。这是低效的。

但是,如果 uint32_t 位于地址 xxx0000 或 xxx1000 中,则其字节都在一个组内。它们可能是该组中的前四个或最后四个字节,因此我们需要处理器能够从它从内存中获得的八个字节中选择前四个或最后四个字节,但它只需要从内存中读取一次获取字节。

因此,uint32_t 的四字节对齐足以确保它足够对齐,我们只需要读取一次即可从内存中获取它。

几乎没有理由要求八字节对齐。一个原因可能是,如果它是八字节对齐的,我们就不需要处理器中的额外电线和开关来选择八个字节中的前四个或最后四个字节。我们只需要取前四个。但是,这意味着我们每 8 个字节只能存储一个 uint32_t 的事实大大压倒了这一微小的优势。填充会浪费一半的内存。使用四字节对齐,我们可以很好地读取 uint32_t 对象,并且我们可以一次读取两个。

使用 uint8_t 时,八字节对齐会更糟,我们每八字节只能有一个 uint8_t,浪费了 87.5% 的内存。

在大多数情况下,长度为 n 字节的对象只需要具有 n 字节对齐才能在硬件上表现良好(假设 n 是 2 的幂)。这种对齐将使它们能够整齐地适应总线和内存操作,无论它们的宽度如何。

此外,如果总线宽度为 b 并且对象大小为 n,则对齐要求可能只是 bn。一旦一个对象大于总线宽度,我们将需要多次传输才能得到它,而且通常需要比总线宽度更多的对齐没有任何好处。

,

uint32_t 是 4 字节,2 * uint32_t = 8 字节,uint8_t 是 1 字节但是因为最大的变量大小是 4 字节,所以编译器将 uint8_t 填充到 4 字节,现在我们有 12 字节 + uint32_t + uint8_t我们得到 20 字节。假设我们有

struct azaza {
 uint32_t addr1;
 uint8_t tmp;
 uint8_t tmp1;
 uint8_t tmp2;
 uint32_t addr3;
 uint8_t flags;
};

大小变成了 4 + 3 byte in chunk of 4 byte + 4 +1 byte in chunk of 4 = 4 +4 +4 +4 = 16

struct azaza { 
 uint32_t tmp;
 uint8_t tmp1;
 uint8_t tmp2;
 uint8_t tmp3;
 uint64_t tmp4;
 uint8_t tmp5;
};

最大的元素是8字节 tmptmptmptmptmp1tmp2tmp3-|tmp4tmp4tmp4tmp4tmp4tmp4tmp4tmp4|tmp5------- =24 字节

,

另一个例子

  struct azaza {

 uint8_t t1;
 uint16_t t2;
 uint32_t t3;
 
};

最大的元素是 4 byte 。考虑 - 作为空块。 t1-t2t2|t3t3t3t3 = 8 字节