词法分析器Flex在空格后面加上标记以及更多后引发词法错误

问题描述

当我使用以下示例运行词法分析器时,似乎无法识别标记间的空白,并且使用正则表达式生成标记出现了。

词法分析器(Something.l):

%{
#include <stdio.h>
#include <stdlib.h>

int yylex();
//void yyerror(const char *s);
void yyerror (const char * msg)
{
  fprintf(stderr,"C-like : %s\n",msg);
  exit(1);
}
int line_num = 1;

#include "y.tab.h"
#define T_eof   0
%}


%option noyywrap 


letter  [A-Za-z]
digit   [0-9]
id  letter(letter|digit|'_')*
num [1-9]digit*('.'digit*)?
string  '(digit|letter)*'
Empty   [\t\r]|" "
line    [\n]

%%

{line}      { line_num++ ; }
"mainclass" { printf("MAINCLASS ") ; return  (MAINCLASS) ; }
"public"    { printf("PUBLIC ") ; return (PUBLIC); }
"static"    { printf("STATIC ") ; return (STATIC) ; }
"void"      { printf("VOID ") ; return (VOID) ; }
"main"      { printf("MAIN ") ; return (MAIN) ; }
"println"   { printf("PRINTLN ") ; return (PRINTLN) ; }   
"int"       { printf("INT ") ; return (INT) ; }
"float"     { printf("FLOAT ") ; return (FLOAT) ; }
"for"       { printf("FOR ") ; return (FOR) ; }
"while"     { printf("WHILE ") ; return (WHILE) ; }
"if"        { printf("IF ") ; return (IF) ; }
"else"      { printf("ELSE ") ; return (ELSE) ; }
";"     { printf("Q ") ; return (Q) ; }
"=="        { printf("EQUAL ") ; return (EQUAL) ; }
"<="        { printf("SMALLEReq ") ; return (SMALLER) ; }
">="        { printf("BIGGEReq ") ; return (BIGGER) ; }
"!="        { printf("NOTEQUAL ") ; return (NOTEQUAL) ; }
{id}        { printf("ID ") ; return (ID) ; }
{num}       { printf("NUM ") ; return (NUM) ; }
{string}    { printf("STRING ") ; return (STRING) ; }
<<EOF>>     { printf("EOF ") ; return (EOF); }
.       { printf(" lexical error in Line : %d \n ",line_num); exit(1); }
{Empty}+    { printf("EMPTY ") ; /* nothing */ }
[\(\)\{\}]  { return yytext[0] ; }
%%
int main(){
    yylex();
    return 0;
}

运行以下示例:

mainclass Fibonacci {
    public static void main ( )
    {
        int first,second,i,tmp;
        first=0;
        second=1;
        i=0;
        while (i<10)
        {
            i=i+1;
            tmp=first+second;
            println (tmp);
            first=second;
            second=tmp;
        }
    }
}

输出

MAINCLASS

在示例的开头添加一个空格:

lexical error in Line : 1

在示例开始时添加两个或更多空格,我们得到以下输出

EMPTY MAINCLASS

删除主类,并在开始的开头保留第一个空格和标识符:

EMPTY  lexical error in Line : 1

解决方法

flex文件中规则的顺序很重要,这是一个特殊的例子。

您有规则:

.       { printf(" lexical error in Line : %d \n ",line_num); exit(1); }

将与任何单个字符匹配,其中包括与空格字符匹配。

稍后在文件中(实际上紧随其后),您拥有

{Empty}+    { printf("EMPTY ") ; /* nothing */ }

,也可以匹配一个空格字符。但是,如果要匹配的令牌是单个空格,则第一个规则将获胜(正是因为同一令牌被多个规则匹配时,第一个规则将获胜)。

另一方面,如果有两个空格,则模式{Empty}+将匹配两个空格,而.将仅匹配一个空格。在这种情况下,{Empty}+将获胜,因为最长的比赛总是获胜。

您应该始终将后备规则放在扫描仪说明的最后(可能<<EOF>>规则除外)。这不仅可以确保它们能够按预期工作,而且可以将规则放在人们寻找它们的地方。

请注意,宏定义中还有许多其他错误,其中一些在注释中指出。这些也会导致扫描仪拒绝有效的输入,因此需要解决它们。

总的来说,我建议避免使用宏,除非您具有非常复杂的模式,其中相同的子模式会多次出现,这是它们的预期用例。 {Empty}根本不是描述性的,因此它会强制代码阅读器(在本例中为me)在源文件中搜索定义。您可能已经使用过Posix字符类[[:space:]],这对使用Flex的人来说是众所周知的。 (它包括换行符,但是换行规则仅用于增加行号计数;您可以通过仅包含%option yylineno来让Flex为您完成此操作。)