如何为 Lua 5.1 构建反编译器?

问题描述

我正在为 Lua 5.1 构建一个反编译器。 (仅供学习)

这是生成代码

main <test.lua:0,0> (12 instructions,48 bytes at 008D0520)
0+ params,2 slots,0 upvalues,0 locals,6 constants,0 functions
        1       [1]     LOADK           0 -2    ; 2
        2       [1]     SETGLOBAL       0 -1    ; plz_help_me
        3       [2]     LOADK           0 -4    ; 24
        4       [2]     SETGLOBAL       0 -3    ; oh_no
        5       [3]     GETGLOBAL       0 -1    ; plz_help_me
        6       [3]     GETGLOBAL       1 -3    ; oh_no
        7       [3]     ADD             0 0 1
        8       [3]     SETGLOBAL       0 -5    ; plz_work
        9       [4]     GETGLOBAL       0 -6    ; print
        10      [4]     GETGLOBAL       1 -5    ; plz_work
        11      [4]     CALL            0 2 1
        12      [4]     RETURN          0 1
constants (6) for 008D0520:
        1       "plz_help_me"
        2       2
        3       "oh_no"
        4       24
        5       "plz_work"
        6       "print"
locals (0) for 008D0520:
upvalues (0) for 008D0520:

原始代码

plz_help_me = 2
oh_no = 24
plz_work = plz_help_me + oh_no
print(plz_work)

如何高效地构建反编译器来生成这段代码?我应该使用 AST 树来映射代码的行为吗? (本例中的操作码)

解决方法

Lua VM 是一个寄存器机器,几乎可以无限地提供寄存器,这意味着您不必处理寄存器分配的后果。它使整个过程比反编译(例如 x86)更容易忍受。

一个非常方便的用于提升抽象级别的中间表示是 SSA。将寄存器视为局部变量指针并按原样保留内存负载的简单转换,然后是 SSA 转换 [1],将为您提供适合进一步分析的代码。下一步将是循环检测(纯粹在 CFG 级别完成),并在 SSA 的帮助下检测循环变量和循环不变量。完成后,您将看到只有少数常见模式存在,可以直接转换为更高级别的循环。进入 SSA 后,检测 if 和其他线性控制流序列会更加容易。

SSA 的一个很好的特性是您可以轻松地从中构建高级 AST 表达式。您对每个 SSA 变量都有一个使用计数,因此您可以简单地替换所有一次性变量(不是由副作用指令产生的)代替它们的使用(如果您保持它们的顺序,也可以使用副作用变量) .仅保留多用途变量。

当然,您永远不会从这个过程中得到有意义的局部变量名称。全局变量被保留。

[1] http://ssabook.gforge.inria.fr/latest/book.pdf