在确定令牌之前让lexer考虑解析器吗？

问题描述

我正在用ocamllex和ocamlyacc编写词法分析器和解析器，如下所示。 function_name和table_name是相同的正则表达式，即仅包含英文字母的字符串。确定字符串是function_name还是table_name的唯一方法是检查其周围。例如，如果这样的字符串被[和]包围，那么我们知道它是table_name。这是当前代码：

在lexer.mll中，

... ...

let function_name = ['a'-'z' 'A'-'Z']+
let table_name = ['a'-'z' 'A'-'Z']+

rule token = parse
  | function_name as s { FUNCTIONNAME s }
  | table_name as s { TABLENAME s }

... ...

在parser.mly中：

... ...

main: 
| LBRACKET TABLENAME RBRACKET { Table $2 }

... ...

当我在| function_name as s { FUNCTIONNAME s }之前写| table_name as s { TABLENAME s }时，以上代码无法解析[haha]；它首先在词法分析器中将haha视为function_name，然后在解析器中找不到与其对应的任何规则。如果它可以将haha视为词法分析器中的table_name，它将与[haha]作为解析器中的表进行匹配。

为此，一种解决方法是在词法分析器中更加精确。例如，我们在词法分析器中定义let table_name_with_brackets = '[' ['a'-'z' 'A'-'Z']+ ']'和| table_name_with_brackets as s { TABLENAMEWITHBRACKETS s }。但是，我想知道是否还有其他选择。不可能使词法分析器和解析器一起工作以确定令牌和约简吗？

解决方法

您应该避免尝试让词法分析器来完成解析器的工作。词法分析器应该只识别词素；它不应尝试找出一个词素适合语法的位置。因此，在您的（简化的）示例中，应该只有一种词法类型name。解析器将从那里弄清楚。

但是，从注释中看来，在未简化的原稿中，这两种模式是重叠的，而不是相同的。这虽然更复杂，但更令人讨厌。基本上，您需要将常见模式分离为一种词汇类型，然后将其他匹配项添加为一种或两种其他词汇类型（取决于一个模式是否为另一个模式的严格超集）。

根据两个模式之间的精确关系，这可能不太困难。您可能能够通过以正确的顺序编写模式来找到一个非常简单的解决方案，例如，由于最长的匹配规则：

如果多个正则表达式与输入的前缀匹配，则适用“最长匹配”规则：选择与输入的最长前缀匹配的正则表达式。如果是平局，则选择规则中较早出现的正则表达式。

大部分时间就是这样：首先将两种模式的交集定义为基础词素，然后添加每种上下文类型的完整词法模式以提供其他匹配项。然后，您的解析器将必须在一个上下文中匹配name | function_name，而在另一个上下文中匹配name | table_name。但这还不错。

当输入流不能明确地划分为词素时，它将失败。例如，假设在函数上下文中，名称可以包含?字符，但是在表上下文中，?是有效的后记运算符。在这种情况下，您必须积极防止foo?在表上下文中被作为单个标记进行分析，这意味着词法分析器确实必须知道解析器上下文。

lexer parsing