为什么 8 位 MUL 合并到 AX 中，而 16 位和 32 位 MUL 将结果拆分为 [E]DX:[E]AX？

问题描述

MUL CL CL 是 BYTE 大小，等于 AX = AL * CL
MUL BX BX 是 WORD 大小，等于 DX:AX = AX * BX
MUL EBX EBX 是 DWORD 大小，它等于 EDX:EAX = EAX * EBX

我想知道为什么 8 位大小的 MUL 指令在 AX 中而不是在 DL:AL 中给出结果？

是不是因为对于 16 位 MUL，结果可以是 EAX，对于 32 位 MUL 结果可以是 RAX，但是对于 64 位 mul rcx 则不会有是否有足够宽的单个寄存器来保存结果？

解决方法

8086 有 16 位寄存器（AX、BX、...）。因此，8*8=16 加宽乘法（即，具有 8 位输入和 16 位结果）可以将其结果放入单个寄存器中。将它拆分到两个寄存器会很不方便，也不会带来任何好处。

但是 16*16=32 加宽乘法无法将其结果放入单个寄存器中，因为没有 32 位寄存器。必须将它拆分到两个寄存器中，因此选择了 DX 和 AX。

同样，386 有 32 位寄存器（EAX、EBX、...），所以它的 32*32=64 加宽乘法必须将其结果拆分。选择 EDX:EAX 是因为与 8086 相似。

英特尔此时可以添加一个新版本的 16*16=32 MUL，将结果保留在一个 32 位寄存器中，例如 EAX，但他们选择不这样做，可能是为了兼容性或避免不必要的额外复杂性，或来自简单的惯性。因此，即使在 32 位模式下，386 的 16*16=32 MUL 仍会将其结果拆分为 DX:AX。

（然而，他们确实添加了一个非加宽 32*32=32 形式的有符号乘法 IMUL 指令，将其结果留在一个 32 位寄存器中。可以将其用于有符号 16 *16=32 乘法通过对输入进行符号扩展，为此还添加了方便的 MOVSX。并且它可以用于 16*16=32 无符号乘法，通过对输入进行零扩展，如果有人知道乘积将小于 2^31。）

同样，x86-64 也有 64 位寄存器。对于现有的乘法指令，他们保持相同的行为（因此 32*32=64 仍然将其结果拆分到 EDX:EAX 而不是使用单个 64 位寄存器），并且他们添加了一个 64*64=128 加宽乘法，同样，必须拆分其结果，并将其留在 RDX:RAX 中。还有一个非扩展的 64*64=64 有符号 IMUL 将其结果留在单个 64 位寄存器中。