调用从程序集 像 std::string 这样的 C++ 容器在 asm 中很难使用

问题描述

我目前正在运行外部 C++ 函数来执行简单的字符串输入。我的总体目标是连接两个用户输入字符串,但由于某种原因,我在第二次返回 inputString 函数时遇到了读取访问冲突。

我在调查之后怀疑我的函数在同一地址返回这两个返回字符串。我还认为我可能不正确地管理堆栈。

extern inputString : proto C
extern outputStringLen : proto C

.data 

.CODE
asm_main PROC
    sub rsp,20h                ; creating shadow space
    call inputString            
    mov rcx,rax                
    call outputStringLen
    mov r12,rax

    call inputString            
    mov rcx,rax                
    call outputStringLen
    mov r13,rax

    add rsp,20h                ; deleting created space
    ret                         ; ret to stack
asm_main ENDP
END

C++ 代码

extern "C" string inputString() {
    string strInput;
    cout << "Enter string input: ";
    cin >> strInput;
    return strInput;
}

extern "C" int outputStringLen(string strInput) {
    int strLength = 0;

    for (int i = 0; i < strInput.length(); i++) {
        strLength++;
    }

    return strLength;
}

解决方法

您没有将指向 std::string 返回值对象的指针传递给 inputString 以存储其结果。它通常是一个 32 字节的对象,不适合 RAX。像大多数调用约定一样,Windows x64 通过让调用者传递一个指针作为第一个参数来处理大型结构/类返回(和非平凡可复制的对象)。 https://docs.microsoft.com/en-us/cpp/build/x64-calling-convention?view=msvc-160

使用调试器查看哪些指令出错。 (可能是 inputString 中的一个,使用的是较早踩过的 RCX。)

可能在第一次调用您的 asm_main 时,RCX 仍然碰巧持有 char **argv 或其他一些指向可写内存的有效指针。当您第一次调用 inputString 时,您将 this 作为指向返回值对象的指针传递。但是 outputStringLen 可能已经踩到了 RCX 本身,所以第二次调用传递了一个无效的指针。

即第一次调用只碰巧起作用,并且会因 asm_main 的不同调用者而失败。


这似乎是让您接触汇编语言的一种非常复杂的方法!

std::string 不是可简单复制的类型;它有复制构造函数和析构函数,实际上是一个容器,可以直接保存数据,也可以指向动态分配的存储。

MSVC 甚至警告在返回 std::string 的函数上使用 extern "C"

<source>(4): warning C4190: 'inputString' has C-linkage specified,but returns UDT 'std::basic_string<char,std::char_traits<char>,std::allocator<char>>' which is incompatible with C
C:/data/msvc/14.28.29914/include\xstring(4648): note: see declaration of 'std::basic_string<char,std::allocator<char>>'

使用 sub rsp,88 之类的缓冲区在堆栈上保留 88 个字节,并使用采用 char * arg 的 C++ 函数,在 asm 中会更简单。

说到这里,要在进入 asm_main 时将 RSP 重新调整为 16,您应该将 RSP 调整为 16*n + 8。所以至少sub rsp,28h,因为你没有push做任何事情。


std::string 这样的 C++ 容器在 asm 中很难使用

您的总体目标相当复杂,尤其是考虑到 C++ 实现使用短字符串优化(将数据保存在 std::string 对象本身内),但对于较长的字符串,使用相同的空间来存储 3 个指针,如 { {1}}。

或者您想调用一个使用 std::vector 的 C++ 函数?这会更容易,但如果您只返回连接的字符串对象,您仍然会为两个 std::string::operator+ 返回值对象泄漏内存。 (如果你用 C++ 编写调用者,它会有两个 std::string 本地变量,并且会在退出时运行它们的析构函数。)我猜 std::string 意味着你只需要处理一个其中,因为如果您通过引用传递它,它将附加到现有的 operator+= 对象。

请注意,在 asm 中,std::string 看起来与 int outputStringLen(string strInput) 基本相同。两者都采用一个指针(因为 int outputStringLen(const string &strInput) 太大而无法传入一个寄存器,因此 Windows x64 调用约定要求调用方创建一个临时对象并将指针传递给它,以实现按值调用)。所以这只是调用者是否创建了一个 tmp 对象,或者你是否传递了一个指向现有对象的指针的问题。

您应该查看调用其他 C++ 函数的 C++ 函数的编译器输出*,看看编译器会做什么。 How to remove "noise" from GCC/clang assembly output? 的大部分内容都适用 - 包括建议将代码放在 Godbolt Compiler Explorer -

std::string

使用 MSVC #include <string> #include <cstdlib> extern "C" std::string inputString(); extern "C" size_t outputStringLen(const std::string &strInput); //extern "C" size_t outputStringLen(std::string strInput); // *much* more code to pass a copy by value int sink; // to show the output definitely going somewhere,not just staying in RAX void asm_main(void) { std::string a = inputString(); size_t len = outputStringLen(a); sink = len; } 编译:https://godbolt.org/z/4YdG1bf4o。 (优化消除了大量的存储/重新加载,并将其归结为必须发生的工作。-O2 -GS- 消除了缓冲区溢出检查。)

-GS-

我不知道为什么它需要检查任何东西并有条件地调用a$ = 32 void asm_main(void) PROC ; asm_main,COMDAT $LN36: sub rsp,72 ; 00000048H lea rcx,QWORD PTR a$[rsp] ;;; output pointer call inputString lea rcx,QWORD PTR a$[rsp] ;;; same pointer arg call outputStringLen mov rdx,QWORD PTR a$[rsp+24] mov DWORD PTR int sink,eax ; sink cmp rdx,16 ;;; check for short-string => no delete jb SHORT $LN16@asm_main mov rcx,QWORD PTR a$[rsp] inc rdx mov rax,rcx cmp rdx,4096 ; 00001000H jb SHORT $LN26@asm_main mov rcx,QWORD PTR [rcx-8] add rdx,39 ; 00000027H sub rax,rcx add rax,-8 cmp rax,31 ;; some kind of invalid / corrupt std::string check? ja SHORT $LN34@asm_main $LN26@asm_main: call void operator delete(void *,unsigned __int64) ; operator delete $LN16@asm_main: add rsp,72 ; 00000048H ret 0 $LN34@asm_main: call _invalid_parameter_noinfo_noreturn int 3 $LN32@asm_main: void asm_main(void) ENDP ; asm_main ;该部分可能在正常执行期间从未达到过,因此基本上可以被视为噪音。

传递给 _invalid_parameter_noinfo_noreturn 的指针显示了您应该做的事情:

inputString

(我认为在 Windows x64 中,通过隐藏输出指针返回大对象的函数也必须在 RAX 中返回该指针,因此您的 a$ = 32 ... sub rsp,72 ; shadow space + sizeof(std::string) + alignment padding lea rcx,QWORD PTR a$[rsp] ;;; Pointer to return-value object call inputString lea rcx,QWORD PTR a$[rsp] call outputStringLen ... mov DWORD PTR int sink,eax ; sink 也是安全的。)

还要注意对 mov rcx,rax 的条件调用,这取决于 std::string 的大小(检测短字符串优化以查看是否有任何动态分配的存储空间可供释放)。

记住,这是简单的版本;通过 const 引用传递,而不是通过必须复制构造另一个 operator delete 对象的值。


std::string 的 ABI 由 C++ 标头中的实现细节决定。它不是特别容易与 asm 进行互操作的东西。我部分地向您展示了详细信息,以警告您不要尝试这样做,同时也为您提供指示以找到您需要手写正确的与 C++ std::string 交互的 asm 的信息。通常你想把它留给编译器。

一个好的经验法则是,您想要从 asm 调用的函数实际上应该可以从 C 调用,除非您想编写知道 C++ 编译器的 C++ ABI(例如布局和std::string 的其他内部细节)。获取或返回 std::string 不符合条件:您无法教 C 编译器正确处理 std::string,因为它具有构造函数和析构函数以及重载运算符。这就是 MSVC 抱怨在 std::string 函数中按值返回的原因。

尝试用实际的 C 而不是 C++ 编写 extern "C",看看你会遇到什么问题。


您的 asm_main 过于复杂outputStringLen 是一个显式长度的字符串,即它知道自己的长度,所以你可以直接要求它。 std::string。循环 return str.length() 是编写 for (i=0,j=0 ; i<n ; i++){ j++; } 的一种非常低效的方式。

也许您正在考虑带有 i = j = n; 终止符的 char* C 字符串,您必须在其中循环(或调用 strlen)才能找到长度。