问题描述
我正在使用 flex 来尝试匹配类似 C 的简化字符串文字。 像这样的正则表达式:
\"([^"\\]|\\["?\\btnr]|\\x{HEXDIG}{HEXDIG})*\"
将匹配我感兴趣的所有单行字符串文字。
字符串文字不能包含非转义的反斜杠。字符串文字也不能包含文字换行符 (0x0a
),除非它被反斜杠转义,在这种情况下,换行符以及任何后面的空格和制表符都将被忽略。。
例如,假设 {LF} 是一个实际的换行符,而 {TAB} 是一个实际的制表(我找不到比这更好的格式)。
输入:"This is an example \{LF}{TAB}{TAB}{TAB}of a confusing valid string"
令牌:"This is an example of a confusing valid string"
我的第一个想法是使用起始状态、尾随上下文和 yymore()
来匹配我想要的内容并检查错误,并给出如下所示的内容:
...
%%
\" { BEGIN STRING; yymore(); }
<STRING>{
\n { /* ERROR HERE! */ }
<<EOF>> { /* ERROR HERE AS WELL */ }
([^"\\]|\\["?\\btnr]|\\x{HEXDIG}{HEXDIG})* {
/* String ok up to here*/
yymore();
}
\\\n[ \t]* {
/*Vadid inside a tring but needs to be ignored! */
yymore();
}
\" { /* Full string matched */ BEGIN INITIAL;}
.|\n { \* Anything else is considered an error *\ }
}
%%
...
有没有办法按照我想要的方式做我想做的事?是否有其他“标准”可能由 flex 提供的方法,而我只是愚蠢地没有想到?在我看来,这不像是一个不常见的用例。我应该单独匹配字符串(从之前开始,在空格之后到结束)并将它们连接起来。这样做有点复杂,因为可以使用反斜杠将字符串分解为任意数量的行。
解决方法
如果您只想识别字符串文字,则不需要开始条件。您可以使用一些简单模式的变体,您可以在许多答案中找到这些变体:
["]({normal}|{escape})*["]
(我使用宏来使结构清晰,但实际上我几乎不会使用它们。)
这里的“普通”是指字符串中没有特殊意义的任何字符。换句话说,除 "
(结束文字)、\
(开始转义序列或换行符)以外的任何字符(尽管某些语言允许在字符串中换行,但通常是错误的)。换句话说,[^"\n\\]
(或类似的东西)。
"escape" 将是任何有效的转义序列。如果您不想验证转义序列,您可以只匹配反斜杠后跟任何单个字符(包括换行符):\\(.|\n)
。但由于您似乎确实想要验证,因此您需要明确说明您准备使用的转义序列:
\\([\n\\btnr"]|x[[:xdigit:]]{2})
但所有这些只识别有效的字符串文字。无效的字符串文字将与模式不匹配,因此将回退到您用作回退规则的任何内容(仅匹配初始 "
)。由于这实际上从来都不是您想要的,因此您需要添加第二个检测错误的规则。编写第二条规则的最简单方法是 ["]({normal}|{escape})*
,即没有最后双引号的有效规则。这只会匹配错误的字符串文字,因为 (f)lex 的最大咀嚼规则:有效的字符串文字与有效规则的匹配比与错误规则的匹配时间长(因为有效规则的匹配包括最后的双引号)。
在现实生活中的词法扫描器(与学校练习相反)中,更常见的是期望词法扫描器通过用相应的字符替换转义序列,将字符串文字实际解析为它所代表的实际字节。这通常是通过开始条件完成的,但单个模式更集中(并且有更多)。有关此类解析器的示例,您可以查看以下两个答案(以及许多其他答案):