如何为自定义文件格式定义ctag解析器

问题描述

我经常使用没有Ctags解析器的文件格式。我想为此编写一个解析器,但不确定如何。文件格式没有像计算机语言一样具有关键字,但是文件中的位置取决于文件中每行最后10列的内容。 (对不起,ENDF format于1960年代创建。)

如何创建一个依赖于特定列内容的新解析器?

这里是文件的缩写示例,但它仍然包含足够的信息,可以让我了解要执行的操作:

                                                                  MMMMFFTTT
                               33        856        176          17434 1451
                               34          2        155          17434 1451
                               34         51        115          17434 1451
 0.000000+0 0.000000+0          0          0          0          07434 1  0
 0.000000+0 0.000000+0          0          0          0          07434 0  0
 7.418300+4 1.813790+2          0          0          1          07434 2151
 7.418300+4 1.000000+0          0          0          2          07434 2151
 1.000000-5 5.000000+3          1          7          0          17434 2151
 0.000000+0 0.000000+0          0          3          5          07434 2151
 0.000000+0 0.000000+0          2          0         24          47434 2151
 7.418300+4 1.813790+2          0          0          0          07434 3 28
-7.222000+6-7.222000+6          0          0          1         397434 3 28
         39          2                                            7434 3 28
 7.261820+6 0.000000+0 9.300000+6 0.000000+0 9.600000+6 2.18585-137434 3 28
 1.000000+7 5.01372-13 1.050000+7 1.32071-11 1.100000+7 8.70475-107434 3 28
 0.000000+0 0.000000+0          0          0          0          07434 3  0
 7.418300+4 1.813790+2          0          0          0          07434 3 37
-2.093600+7-2.093600+7          0          0          1         207434 3 37
 2.105140+7 0.000000+0 2.200000+7 7.150990-5 2.400000+7 2.707920-27434 3 37
 1.300000+8 5.411910-2 1.500000+8 3.895580-2                      7434 3 37
 0.000000+0 0.000000+0          0          0          0          07434 3  0
 7.418300+4 1.813790+2          0          0          0          07434 3 41
-1.328500+7-1.328500+7          0          0          1         267434 3 41
         26          2                                            7434 3 41
 1.335820+7 0.000000+0 1.550000+7 0.000000+0 1.600000+7 2.56183-147434 3 41
 1.700000+7 9.60380-12 1.800000+7 3.02742-10 1.900000+7 1.474340-77434 3 41
 1.300000+8 1.582280-2 1.500000+8 1.154350-2                      7434 3 41

我已将列MMMMFFTT标记为。当这些更改发生时,我需要一个标签”(宽松地使用术语)告诉我它已更改。请注意,这是(某种)嵌套,每个TT中有许多FF,每个FF中有许多MMMM

我不确定标签输出应该是什么样。我什至从没看过标签输出。我一直依靠别人为我解析他们。在我尝试学习时,请协助这位新手。

几年前,我为Vim编写了一个语法解析器,希望这可能是一个很好的补充。

解决方法

我的答案假设您使用通用标签(https://ctags.io)。

我希望您了解ctags的基本概念:种类和字段。如果您不认识https://docs.ctags.io/en/latest/man/ctags.1.html#tag-entries

我希望您知道ctags的输出格式。如果您不知道,请参见https://docs.ctags.io/en/latest/man/tags.5.html

有多种方法可以在ctags中实现解析器。在这种情况下,您可能希望以面向行的方式用C语言编写解析器。

                    33        856        176          17434 1451
                    34          2        155          17434 1451
...

您可能希望第一行的7434被标记为mmmm。 但是,您可能不会期望7434位于第二行。 解析器必须具有跟踪输入状态的能力;解析器不应对已经被标记的名称进行标记。 这意味着您无法使用正则表达式为.ctags中的语言定义解析器。您可能需要用C编写。

输注是面向行的。因此,您可以使用readLineFromInputFile函数。这是面向行的解析器的核心。

https://github.com/masatake/ctags/commit/e8e0015393ae7a3b447ee886bd0884f45d11ced2是一个可运行的示例,说明了如何使用readLineFromInputFile。

在示例中,ctags发出以下标签输出:

$ ctags --options=NONE --list-kinds=ENDF
m  materials
f  material files
t  material subdivisions

$ ctags --options=NONE  --sort=no -o - input.endf 
434     input.endf  /^                               33        856        176          17434 1451$/;"   m
14  input.endf  /^                               33        856        176          17434 1451$/;"   f   mat:434 
51  input.endf  /^                               33        856        176          17434 1451$/;"   t   mf:434 14
...