Flex 匹配字符串文字，转义换行符

问题描述

我正在使用 flex 来尝试匹配类似 C 的简化字符串文字。像这样的正则表达式：

\"([^"\\]|\\["?\\btnr]|\\x{HEXDIG}{HEXDIG})*\"

将匹配我感兴趣的所有单行字符串文字。

字符串文字不能包含非转义的反斜杠。字符串文字也不能包含文字换行符 (0x0a)，除非它被反斜杠转义，在这种情况下，换行符以及任何后面的空格和制表符都将被忽略。。

例如，假设 {LF} 是一个实际的换行符，而 {TAB} 是一个实际的制表（我找不到比这更好的格式）。

输入："This is an example \{LF}{TAB}{TAB}{TAB}of a confusing valid string"

令牌："This is an example of a confusing valid string"

我的第一个想法是使用起始状态、尾随上下文和 yymore() 来匹配我想要的内容并检查错误，并给出如下所示的内容：

...
%%
\" { BEGIN STRING; yymore(); }
<STRING>{
    \n { /* ERROR HERE! */ }
    <<EOF>> { /* ERROR HERE AS WELL */ }
    
    ([^"\\]|\\["?\\btnr]|\\x{HEXDIG}{HEXDIG})* { 
          /* String ok up to here*/ 
          yymore(); 
    }
    \\\n[ \t]* { 
         /*Vadid inside a tring but needs to be ignored! */ 
         yymore(); 
    }
    \" { /* Full string matched */ BEGIN INITIAL;}
    .|\n { \* Anything else is considered an error *\  }
}
%%
...

有没有办法按照我想要的方式做我想做的事？是否有其他“标准”可能由 flex 提供的方法，而我只是愚蠢地没有想到？在我看来，这不像是一个不常见的用例。我应该单独匹配字符串（从之前开始，在空格之后到结束）并将它们连接起来。这样做有点复杂，因为可以使用反斜杠将字符串分解为任意数量的行。

解决方法

如果您只想识别字符串文字，则不需要开始条件。您可以使用一些简单模式的变体，您可以在许多答案中找到这些变体：

    ["]({normal}|{escape})*["]

（我使用宏来使结构清晰，但实际上我几乎不会使用它们。）

这里的“普通”是指字符串中没有特殊意义的任何字符。换句话说，除 "（结束文字）、\（开始转义序列或换行符）以外的任何字符（尽管某些语言允许在字符串中换行，但通常是错误的）。换句话说，[^"\n\\]（或类似的东西）。

"escape" 将是任何有效的转义序列。如果您不想验证转义序列，您可以只匹配反斜杠后跟任何单个字符（包括换行符）：\\(.|\n)。但由于您似乎确实想要验证，因此您需要明确说明您准备使用的转义序列：

    \\([\n\\btnr"]|x[[:xdigit:]]{2})

但所有这些只识别有效的字符串文字。无效的字符串文字将与模式不匹配，因此将回退到您用作回退规则的任何内容（仅匹配初始 "）。由于这实际上从来都不是您想要的，因此您需要添加第二个检测错误的规则。编写第二条规则的最简单方法是 ["]({normal}|{escape})*，即没有最后双引号的有效规则。这只会匹配错误的字符串文字，因为 (f)lex 的最大咀嚼规则：有效的字符串文字与有效规则的匹配比与错误规则的匹配时间长（因为有效规则的匹配包括最后的双引号）。

在现实生活中的词法扫描器（与学校练习相反）中，更常见的是期望词法扫描器通过用相应的字符替换转义序列，将字符串文字实际解析为它所代表的实际字节。这通常是通过开始条件完成的，但单个模式更集中（并且有更多）。有关此类解析器的示例，您可以查看以下两个答案（以及许多其他答案）：

bison bison c flex-lexer regex regex regex string-literals