如何使用按位移位运算符将字节组合成更大的整数

问题描述

以下代码将两个字节合并为一个 16 位整数。

unsigned char byteOne = 0b00000010; // 2
unsigned char byteTwo = 0b00000011; // 3

uint16_t i = 0b0000000000000000;
i = (byteOne << 8) | byteTwo; //515

我正在尝试理解为什么这段代码有效。

如果我们把它分解并只关注一个字节，byteOne;这是一个等于 00000010 的 8 位值。因此，将其左移 8 位应该总是产生 00000000（因为移出末尾的位会丢失），对吗？以下代码似乎就是这种情况：

uint8_t i = (byteOne << 8); // equal to 0,always,no matter what 8 bit value is assigned to byteOne

但如果这种思维方式是正确的，那么

uint16_t i = (byteOne << 8) | byteTwo;

应该等价于

uint16_t i = 0 | byteTwo; // Because 0b00000010 << 8 == 0b00000000

或者只是

uint16_t i = byteTwo; // Because 0b00000000 | 0b00000011 == 0b00000011

但它们并不等价，这让我很失望。 byteOne 是否在移位操作之前被转换/转换为 16 位 int？那将解释这里发生了什么

0b0000000000000010 << 8 == 0b0000001000000000 // 512

如果在移位操作之前 byteOne 没有被转换为 16 位整数，那么请解释为什么 (byteOne << 8) 在分配给一个 16 位整数时没有计算为 0。

解决方法

是的--当您对任何小于 int 的值执行几乎任何类型的操作时，发生的第一件事就是将该值提升为 int（或者，在某些情况下，{ {1}}）。

如果您真的关心此处适用的详细信息 (§[conv.prom]/1)：

除 unsigned int、bool、char16_t 或 char32_t 之外的整数类型的纯右值，其整数转换等级 (6.8.4) 小于wchar_t 可以转换为 int 类型的纯右值，如果 int 可以表示源类型的所有值；否则，源纯右值可以转换为 int 类型的纯右值。

然后操作发生在提升的值（§[expr.shift]/1）上：

移位运算符 > 从左到右分组。 [...] 操作数应为整数或无作用域枚举类型，并执行整数提升。结果的类型是提升后的左操作数的类型。

由于移位没有发生在“就地”（byteOne = byteOne << 8），编译器需要使用一个寄存器来存储中间结果。在行 i = (byteOne << 8) | byteTwo; 中，未指定中间寄存器的大小（例如使用强制转换）。只有最终结果必须是 uint16_t。所以中间结果取决于编译器。

当你截断的代码被提供给编译器时，你可以获得以下汇编代码：

;// copy the two bytes and the word in the stack
movb    $2,-1(%rbp) ;// uint8_t byteOne = 2
movb    $3,-2(%rbp) ;// uint8_t byteTwo = 3
movw    $0,-4(%rbp) ;// uint16_t i = 0
;// move the byteOne into the acumulate register(32bit)
movzbl  -1(%rbp),%eax ;// uint32_t temp = byteOne
;// shift left by 8
sall    $8,%eax ;// temp = temp << 8
;// move temp to different register
movl    %eax,%edx ;// uint32_t temp2 = temp
;// move the byteTwo into the acumulate register(32bit)
movzbl  -2(%rbp),%eax ;// temp = byteTwo
;// logical or of temp2 and temp
orl     %edx,%eax ;// temp2 = temp2 | temp
;// copy back to stack location of i
movw    %ax,-4(%rbp) ;// i = (uint16_t)temp2

%eax 是一个 32 位寄存器，因此没有溢出。 uint16_t 的转换由 MOVWord movw %ax,-4(%rbp) 主动完成。

我不确定编译器如何决定用于这些中间结果的寄存器大小，但我怀疑这取决于您的系统和编译器。

我系统上的编译器 g++.exe (x86_64-posix-seh-rev1,Built by MinGW-W64 project) 7.2.0 接缝使用 32 位寄存器作为标准。以下代码也使用了 32 位寄存器，因此没有返回预期的结果：

unsigned char byteOne = 0b00000010; // 2
unsigned char byteTwo = 0b00000011; // 3
uint16_t i = 0b0000000000000000;
i = ((byteOne << 32) | byteTwo << 24) >> 24; // 3

使用相同的 32 位 %eax 寄存器，因此发生溢出。因此，如果中间结果不超过 32 位，则结果如预期：

unsigned char byteOne = 0b00000010; // 2
unsigned char byteTwo = 0b00000011; // 3 
uint16_t i = 0b0000000000000000;
i = ((byteOne << 16) | byteTwo << 8) >> 8; // 515

8 位微控制器的编译器肯定会给出不同的结果。

bit-manipulation bit-shift bitwise-operators c++