问题描述
我正在实现一个加密库,该库针对ARM Cortex M-0架构进行了优化的组装,其中包括使用乘累加宏的多个单元,该宏使用32x32-> 32位乘法。
我正在使用支持32x32-> 64乘法的M-33。因此,我首先通过用正确的64位变体(UMULL)替换了32位乘法(和某些加法运算)来优化算法。但是,Cortex M33还支持用于64位MAC(UMLAL)的单个指令。当我使用此指令时,结果是正确的,除了2位:0xe5c528f b ,0xc5abc3f c (第11和第12个值)。
使用UMLAL错误的结果:
umlal_result =
{0xb45deb28,0xeb23a781,0xec09b357,0xe561f5f5,0x1e3fa5d2,0x828ad2db,0x60c67a8a,0xd2850733,0xad1de690,0x6e1ceba1,0xe5c528fb,0xc5abc3fc,0x2f648d3b,0xe13039aa,0x58cc1ff4,0x1d7521f1}
右边的那个(UMULL):
umull_result =
{0xb45deb28,0xe5c528fc,0xc5abc3fb,0x1d7521f1}
我尝试调试该问题,但找不到原因。所以我的问题是,可能是什么问题?在我看来,以上两个示例是等效的,影响相同的标志。显然,情况并非如此。我的猜测是所有修改都需要定位在mulacc宏中,因为它仅需要2 * 32位输入并作为MAC结果输出64位,并且当然会更新所需的标志。我正在使用的所有数字均未签名。
任何建议将不胜感激。
EDIT2:包含所有必需的.S文件(用于umlal,umull版本)和用于调用它们的主要功能的测试代码。
.macro mulacc
@fixed: 64-bit multiply for Cortex M-33
umull r6,r0,r1,r2
mov r7,#0
add r5,r5,r6
adc r4,r4,r0
adc r3,r3,r7
.endm
.macro loadAndAdd reg,idx
.if \reg == sp || \reg == r0
ldr r6,[\reg,#\idx*4]
.else
mov r0,\reg
ldr r6,[r0,#\idx*4]
.endif
add r5,r6
adc r4,r7
.endm
.macro loadAndSub reg,#\idx*4]
.endif
sub r5,r6
sbc r4,r7
.endm
.macro loadAndAddIfCarry carryReg,opReg,idx
ldr r0,[\opReg,#\idx*4]
mov r1,\carryReg
and r0,r1
add r5,r0 @ tässä pitäisi olla 1? umuls mid kohta 7
adc r4,r7
.endm
.macro loadMultiply regA,regB,idxA,idxB
.if \regA == sp
ldr r1,[sp,#\idxA*4]
.else
mov r1,\regA
ldr r1,[r1,#\idxA*4]
.endif
.if \regB == sp
ldr r2,#\idxB*4]
.else
mov r2,\regB
ldr r2,[r2,#\idxB*4]
.endif
mulacc
.endm
.macro storeAndShiftAcc regDst,idx
.if \regDst == sp || \regDst == r0
str r5,[\regDst,#\idx*4]
.else
mov r6,\regDst
str r5,[r6,#\idx*4]
.endif
mov r5,r4
mov r4,r3
asr r3,#32
.endm
.macro storeRemAcc regDst,idx1,idx2
.if \regDst == sp
str r5,#\idx1*4]
str r4,#\idx2*4]
.else
mov r6,#\idx2*4]
.endif
.endm
.macro resetAccumulator
ldr r3,=0
mov r4,r3
mov r5,r3
.endm
.macro multiplyLow
loadMultiply r8,r9,0
storeAndShiftAcc r10,0
loadMultiply r9,r8,1,0
loadMultiply r9,1
storeAndShiftAcc r10,1
loadMultiply r8,2,0
loadMultiply r8,1
loadMultiply r8,2
storeAndShiftAcc r10,2
loadMultiply r9,3,2
loadMultiply r8,3
loadMultiply r9,3
loadMultiply r9,2
loadMultiply r9,1
storeAndShiftAcc sp,8
loadMultiply r8,3
loadMultiply r8,2
storeAndShiftAcc sp,9
loadMultiply r9,3
storeRemAcc sp,10,11
.endm
.macro multiplyHigh
loadMultiply r8,4,4
storeAndShiftAcc r10,8
loadMultiply r9,5,4
loadMultiply r9,5
storeAndShiftAcc r10,9
loadMultiply r8,6,4
loadMultiply r8,5
loadMultiply r8,6
storeAndShiftAcc r10,10
loadMultiply r9,7,6
loadMultiply r8,11
loadMultiply r9,7
loadMultiply r9,6
loadMultiply r9,12
loadMultiply r8,7
loadMultiply r8,13
loadMultiply r9,7
storeRemAcc r10,14,15
.endm
.macro multiplyMiddle
mov r7,#0
mov r0,r10
loadAndAdd sp,8
loadAndSub r0,0
asr r3,#32
loadMultiply sp,sp,4
mov r0,9
loadAndSub r0,1
asr r3,4
loadMultiply sp,5
mov r0,10
loadAndSub r0,2
asr r3,5
loadMultiply sp,6
mov r0,11
loadAndSub r0,3
asr r3,6
loadMultiply sp,7
storeAndShiftAcc r10,7
loadAndAddIfCarry r11,4
loadAndAddIfCarry r12,0
mov r0,r10
loadAndAdd r0,12
loadAndSub sp,8
asr r3,8
loadAndAddIfCarry r11,5
loadAndAddIfCarry r12,1
mov r0,13
loadAndSub sp,9
asr r3,9
loadAndAddIfCarry r11,6
loadAndAddIfCarry r12,2 @ r4 = 1 with umuls
mov r0,14
loadAndSub sp,10
asr r3,10
loadAndAddIfCarry r11,7
loadAndAddIfCarry r12,3
mov r0,15
loadAndSub sp,11
asr r3,#32
storeAndShiftAcc r0,11
addCarries
loadRegAndAdd r1,12
str r5,#12*4]
mov r5,r4
loadRegAndAddNoAcc r1,13
str r5,#13*4]
loadRegAndAddCarry r1,14
str r5,#14*4]
loadRegAndAddCarry r1,15
str r5,#15*4]
.endm
.macro loadRegAndAddCarry baseReg,idx
ldr r5,[\baseReg,#\idx*4]
adc r5,r7
.endm
.macro loadRegAndAddNoAcc baseReg,idx
ldr r6,#\idx*4]
add r5,r6
.endm
.macro loadRegAndAdd baseReg,r7
.endm
.macro addCarries
mov r6,r11
mov r0,r12
and r6,r6,r0
neg r6,r6
add r5,r7
mov r1,r10
.endm
.macro sumA
@ to use: r3,r7
ldm r1,{r0,r2,r7}
add r4,r0
adc r5,r1
adc r6,r2
adc r7,r7,r3
sbc r3,r3
mvn r3,r3
mov r11,r3
mov r1,sp
stm r1,{r4,r7}
.endm
.macro sumB
@ to use: r3,r9
ldm r1,r3
mov r12,r3
add r1,#16
stm r1,r7}
.endm
.global bi_multiply_cm0_umull
.type bi_multiply_cm0_umull,function
.text 1
.thumb
@ res: r0
@ operand a: r1
@ operand b: r2
bi_multiply_cm0_umull:
push {r4,lr}
mov r4,r8
mov r5,r9
mov r6,r10
mov r7,r11
push {r4,r7}
mov r4,r12
push {r4}
sub sp,#64
mov r8,r1
mov r9,r2
mov r10,r0
sumA
sumB
resetAccumulator
multiplyLow
resetAccumulator
multiplyHigh
resetAccumulator
multiplyMiddle
add sp,#64
pop {r4}
mov r12,r4
pop {r4,r7}
mov r8,r4
mov r9,r5
mov r10,r6
mov r11,r7
pop {r4,pc}
.macro mulacc
@ fixed: 64-bit multiply for Cortex M-33
umlal r5,#0
adc r3,r7
.endm
.macro loadAndAdd reg,r7}
.endm
.global bi_multiply_cm0_umlal
.type bi_multiply_cm0_umlal,function
.text 1
.thumb
@ res: r0
@ operand a: r1
@ operand b: r2
bi_multiply_cm0_umlal:
push {r4,pc}
#include <stdio.h>
#include <inttypes.h>
#define FP_WORDS 8
typedef uint32_t word_t;
typedef word_t bigint_t[FP_WORDS];
static const bigint_t var_a = { 0x52766F6A,0xACBDC62E,0x32D23576,0x600D522F,0x19049F3B,0xC4B0D05E,0xC0FE0998,0xB70E64D5 };
static const bigint_t var_b = { 0x8FE44968,0xDEF5AF3C,0x3D568ABD,0x09372473,0x9AF4FFC7,0x3A822C26,0x522D6E14,0x2DAAB214 };
void bi_multiply_cm0_umull(word_t res[2*FP_WORDS],bigint_t a,bigint_t b);
void bi_multiply_cm0_umlal(word_t res[2*FP_WORDS],bigint_t b);
int main()
{
word_t res_umull[2*FP_WORDS],res_umlal[2*FP_WORDS];
bi_multiply_cm0_umull(res_umull,var_a,var_b);
bi_multiply_cm0_umlal(res_umlal,var_b);
return 0;
}
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)