问题描述
我经常使用没有Ctags解析器的文件格式。我想为此编写一个解析器,但不确定如何。文件格式没有像计算机语言一样具有关键字,但是文件中的位置取决于文件中每行最后10列的内容。 (对不起,ENDF format于1960年代创建。)
这里是文件的缩写示例,但它仍然包含足够的信息,可以让我了解要执行的操作:
MMMMFFTTT
33 856 176 17434 1451
34 2 155 17434 1451
34 51 115 17434 1451
0.000000+0 0.000000+0 0 0 0 07434 1 0
0.000000+0 0.000000+0 0 0 0 07434 0 0
7.418300+4 1.813790+2 0 0 1 07434 2151
7.418300+4 1.000000+0 0 0 2 07434 2151
1.000000-5 5.000000+3 1 7 0 17434 2151
0.000000+0 0.000000+0 0 3 5 07434 2151
0.000000+0 0.000000+0 2 0 24 47434 2151
7.418300+4 1.813790+2 0 0 0 07434 3 28
-7.222000+6-7.222000+6 0 0 1 397434 3 28
39 2 7434 3 28
7.261820+6 0.000000+0 9.300000+6 0.000000+0 9.600000+6 2.18585-137434 3 28
1.000000+7 5.01372-13 1.050000+7 1.32071-11 1.100000+7 8.70475-107434 3 28
0.000000+0 0.000000+0 0 0 0 07434 3 0
7.418300+4 1.813790+2 0 0 0 07434 3 37
-2.093600+7-2.093600+7 0 0 1 207434 3 37
2.105140+7 0.000000+0 2.200000+7 7.150990-5 2.400000+7 2.707920-27434 3 37
1.300000+8 5.411910-2 1.500000+8 3.895580-2 7434 3 37
0.000000+0 0.000000+0 0 0 0 07434 3 0
7.418300+4 1.813790+2 0 0 0 07434 3 41
-1.328500+7-1.328500+7 0 0 1 267434 3 41
26 2 7434 3 41
1.335820+7 0.000000+0 1.550000+7 0.000000+0 1.600000+7 2.56183-147434 3 41
1.700000+7 9.60380-12 1.800000+7 3.02742-10 1.900000+7 1.474340-77434 3 41
1.300000+8 1.582280-2 1.500000+8 1.154350-2 7434 3 41
我已将列MMMM
,FF
和TT
标记为。当这些更改发生时,我需要一个“标签”(宽松地使用术语)告诉我它已更改。请注意,这是(某种)嵌套,每个TT
中有许多FF
,每个FF
中有许多MMMM
。
我不确定标签输出应该是什么样。我什至从没看过标签的输出。我一直依靠别人为我解析他们。在我尝试学习时,请协助这位新手。
几年前,我为Vim编写了一个语法解析器,希望这可能是一个很好的补充。
解决方法
我的答案假设您使用通用标签(https://ctags.io)。
我希望您了解ctags的基本概念:种类和字段。如果您不认识https://docs.ctags.io/en/latest/man/ctags.1.html#tag-entries。
我希望您知道ctags的输出格式。如果您不知道,请参见https://docs.ctags.io/en/latest/man/tags.5.html。
有多种方法可以在ctags中实现解析器。在这种情况下,您可能希望以面向行的方式用C语言编写解析器。
33 856 176 17434 1451
34 2 155 17434 1451
...
您可能希望第一行的7434被标记为mmmm。 但是,您可能不会期望7434位于第二行。 解析器必须具有跟踪输入状态的能力;解析器不应对已经被标记的名称进行标记。 这意味着您无法使用正则表达式为.ctags中的语言定义解析器。您可能需要用C编写。
输注是面向行的。因此,您可以使用readLineFromInputFile函数。这是面向行的解析器的核心。
https://github.com/masatake/ctags/commit/e8e0015393ae7a3b447ee886bd0884f45d11ced2是一个可运行的示例,说明了如何使用readLineFromInputFile。
在示例中,ctags发出以下标签输出:
$ ctags --options=NONE --list-kinds=ENDF
m materials
f material files
t material subdivisions
$ ctags --options=NONE --sort=no -o - input.endf
434 input.endf /^ 33 856 176 17434 1451$/;" m
14 input.endf /^ 33 856 176 17434 1451$/;" f mat:434
51 input.endf /^ 33 856 176 17434 1451$/;" t mf:434 14
...