问题描述
我正在为 Lua 5.1 构建一个反编译器。 (仅供学习)
main <test.lua:0,0> (12 instructions,48 bytes at 008D0520)
0+ params,2 slots,0 upvalues,0 locals,6 constants,0 functions
1 [1] LOADK 0 -2 ; 2
2 [1] SETGLOBAL 0 -1 ; plz_help_me
3 [2] LOADK 0 -4 ; 24
4 [2] SETGLOBAL 0 -3 ; oh_no
5 [3] GETGLOBAL 0 -1 ; plz_help_me
6 [3] GETGLOBAL 1 -3 ; oh_no
7 [3] ADD 0 0 1
8 [3] SETGLOBAL 0 -5 ; plz_work
9 [4] GETGLOBAL 0 -6 ; print
10 [4] GETGLOBAL 1 -5 ; plz_work
11 [4] CALL 0 2 1
12 [4] RETURN 0 1
constants (6) for 008D0520:
1 "plz_help_me"
2 2
3 "oh_no"
4 24
5 "plz_work"
6 "print"
locals (0) for 008D0520:
upvalues (0) for 008D0520:
原始代码:
plz_help_me = 2
oh_no = 24
plz_work = plz_help_me + oh_no
print(plz_work)
如何高效地构建反编译器来生成这段代码?我应该使用 AST 树来映射代码的行为吗? (本例中的操作码)
解决方法
Lua VM 是一个寄存器机器,几乎可以无限地提供寄存器,这意味着您不必处理寄存器分配的后果。它使整个过程比反编译(例如 x86)更容易忍受。
一个非常方便的用于提升抽象级别的中间表示是 SSA。将寄存器视为局部变量指针并按原样保留内存负载的简单转换,然后是 SSA 转换 [1],将为您提供适合进一步分析的代码。下一步将是循环检测(纯粹在 CFG 级别完成),并在 SSA 的帮助下检测循环变量和循环不变量。完成后,您将看到只有少数常见模式存在,可以直接转换为更高级别的循环。进入 SSA 后,检测 if
和其他线性控制流序列会更加容易。
SSA 的一个很好的特性是您可以轻松地从中构建高级 AST 表达式。您对每个 SSA 变量都有一个使用计数,因此您可以简单地替换所有一次性变量(不是由副作用指令产生的)代替它们的使用(如果您保持它们的顺序,也可以使用副作用变量) .仅保留多用途变量。
当然,您永远不会从这个过程中得到有意义的局部变量名称。全局变量被保留。