为什么即使有“ if”语句,我的程序也为什么不检查位域成员的值?

问题描述

我编写了该程序,作为C ++中位字段成员比较行为的测试用例(我想同样的行为也将在C中表现出来):

#include <cstdint>
#include <cstdio>

union Foo
{
    int8_t bar;
    struct
    {
#if __BYTE_ORDER == __LITTLE_ENDIAN
        int8_t baz : 1;
        int8_t quux : 7;
#elif __BYTE_ORDER == __BIG_ENDIAN
        int8_t quux : 7;
        int8_t baz : 1;
#endif
    };
};

int main()
{
    Foo foo;
    scanf("%d",&foo.bar);
    if (foo.baz == 1)
        printf("foo.baz == 1\n");
    else
        printf("foo.baz != 1\n");
}

编译并以1作为输入运行它之后,得到以下输出

foo.baz != 1
*** stack smashing detected ***: terminated
fish: “./a.out” terminated by signal SIGABRT (Abort)

由于foo.baz == 1始终是匿名位字段中的最低有效位,因此人们期望baz检查将被评估为true。但是,从程序输出中可以看到相反的情况(在每一次程序调用中,这始终是一致的)。

让我更奇怪的是,为程序生成的AMD64汇编代码(使用GCC 10.2编译器)甚至不包含单个比较或跳转指令!

.LC0:
        .string "%d"
.LC1:
        .string "foo.baz != 1"
main:
        push    rbp
        mov     rbp,rsp
        sub     rsp,16
        lea     rax,[rbp-1]
        mov     rsi,rax
        mov     edi,OFFSET FLAT:.LC0
        mov     eax,0
        call    scanf
        mov     edi,OFFSET FLAT:.LC1
        call    puts
        mov     eax,0
        leave
        ret

即使我使用认设置编译了程序,if语句 的C ++代码似乎也得到了优化(或类似的东西)。启用任何级别的优化或类似的功能

足够有趣的是,Clang 10.0.1(在不进行优化的情况下运行)似乎使用cmp指令(以及jne和{{1 }}一个):

jmp

main: # @main push rbp mov rbp,16 mov dword ptr [rbp - 4],0 lea rax,[rbp - 8] movabs rdi,offset .L.str mov rsi,rax mov al,0 call scanf mov cl,byte ptr [rbp - 8] shl cl,7 sar cl,7 movsx edx,cl cmp edx,1 jne .LBB0_2 movabs rdi,offset .L.str.1 mov al,0 call printf jmp .LBB0_3 .LBB0_2: movabs rdi,offset .L.str.2 mov al,0 call printf .LBB0_3: mov eax,dword ptr [rbp - 4] add rsp,16 pop rbp ret .L.str: .asciz "%d" .L.str.1: .asciz "foo.baz == 1\n" .L.str.2: .asciz "foo.baz != 1\n" 字符串中的两个似乎也都出现在数据段中(与GCC情况不同,只有第二个字符串存在)。我不确定(因为我不太精通汇编程序),但这似乎是正确生成代码(与GCC生成代码不同)。

但是,一旦我尝试使用Clang进行任何类型的优化(甚至printf)编译,比较/跳转(以及-O1字符串)就消失了,生成代码似乎与GCC生成内容非常相似:

(带有foo.baz == 1

-O1

You may want to check the generated assembly code by different compiler versions yourself using Compiler Explorer.

我完全被这种非直觉的行为所困扰。作为解释,唯一想到的是包含有符号整数类型和联合的位域的一些奇怪的未定义行为的相互作用。使我想到的是,在用有符号的整数类型替换无符号的整数类型之后,程序的输出变得与预期的一样(使用main: # @main push rax mov rsi,rsp mov edi,offset .L.str xor eax,eax call scanf mov edi,offset .Lstr call puts xor eax,eax pop rcx ret .L.str: .asciz "%d" .Lstr: .asciz "foo.baz != 1" 作为输入):

1

自然地,由于堆栈粉碎(就像以前一样)而导致程序崩溃是应该 发生的,这导致了我的第二个问题:为什么会发生这种情况吗?

这是修改后的程序:

foo.baz == 1
*** stack smashing detected ***: terminated
fish: “./a.out” terminated by signal SIGABRT (Abort)

... and the generated assembly code by GCC

#include <cstdint>
#include <cstdio>

union Foo
{
    uint8_t bar;
    struct
    {
#if __BYTE_ORDER == __LITTLE_ENDIAN
        uint8_t baz : 1;
        uint8_t quux : 7;
#elif __BYTE_ORDER == __BIG_ENDIAN
        uint8_t quux : 7;
        uint8_t baz : 1;
#endif
    };
};

int main()
{
    Foo foo;
    scanf("%d",&foo.bar);
    if (foo.baz == 1)
        printf("foo.baz == 1\n");
    else
        printf("foo.baz != 1\n");
}

解决方法

堆栈粉碎与成员访问无关。

scanf("%d",&foo.bar);

%d格式转换说明符用于 int 。通常为4个字节。但是您的bar是:

int8_t bar;

一个 字节。

因此,scanf最终将一个4字节的int值写入一个字节bar,并在紧邻的地方浪费了另外三个字节。

有你的堆栈粉碎。

,

答案很简单。

您的baz结构成员的长度为1位,并且为 signed 。因此,它将从不1。唯一可能的值是0-1

编译器知道,因此条件foo.baz == 1永远不会是事实。无需生成条件代码。

所以我担心这不是编译器错误,只有程序员错误:)

因此,如果我们将代码更改为:

int main()
{
    union Foo foo;
    int x;
    scanf("%d",&x);
    foo.bar = x;
    if (foo.baz == -1)
        printf("foo.baz == -1\n");
    else
        printf("foo.baz != -1\n");
}

编译器开始生成条件指令。

https://godbolt.org/z/fzKMo5

顺便说一下,这里的字节序检查没有任何意义,因为字节序定义了 byte 顺序而不是 bit 顺序

与代码生成问题无关的是使用了错误的scanf转换说明符。