问题描述
当我使用以下示例运行词法分析器时,似乎无法识别标记之间的空白,并且使用正则表达式生成的标记出现了。
词法分析器(Something.l):
%{
#include <stdio.h>
#include <stdlib.h>
int yylex();
//void yyerror(const char *s);
void yyerror (const char * msg)
{
fprintf(stderr,"C-like : %s\n",msg);
exit(1);
}
int line_num = 1;
#include "y.tab.h"
#define T_eof 0
%}
%option noyywrap
letter [A-Za-z]
digit [0-9]
id letter(letter|digit|'_')*
num [1-9]digit*('.'digit*)?
string '(digit|letter)*'
Empty [\t\r]|" "
line [\n]
%%
{line} { line_num++ ; }
"mainclass" { printf("MAINCLASS ") ; return (MAINCLASS) ; }
"public" { printf("PUBLIC ") ; return (PUBLIC); }
"static" { printf("STATIC ") ; return (STATIC) ; }
"void" { printf("VOID ") ; return (VOID) ; }
"main" { printf("MAIN ") ; return (MAIN) ; }
"println" { printf("PRINTLN ") ; return (PRINTLN) ; }
"int" { printf("INT ") ; return (INT) ; }
"float" { printf("FLOAT ") ; return (FLOAT) ; }
"for" { printf("FOR ") ; return (FOR) ; }
"while" { printf("WHILE ") ; return (WHILE) ; }
"if" { printf("IF ") ; return (IF) ; }
"else" { printf("ELSE ") ; return (ELSE) ; }
";" { printf("Q ") ; return (Q) ; }
"==" { printf("EQUAL ") ; return (EQUAL) ; }
"<=" { printf("SMALLEReq ") ; return (SMALLER) ; }
">=" { printf("BIGGEReq ") ; return (BIGGER) ; }
"!=" { printf("NOTEQUAL ") ; return (NOTEQUAL) ; }
{id} { printf("ID ") ; return (ID) ; }
{num} { printf("NUM ") ; return (NUM) ; }
{string} { printf("STRING ") ; return (STRING) ; }
<<EOF>> { printf("EOF ") ; return (EOF); }
. { printf(" lexical error in Line : %d \n ",line_num); exit(1); }
{Empty}+ { printf("EMPTY ") ; /* nothing */ }
[\(\)\{\}] { return yytext[0] ; }
%%
int main(){
yylex();
return 0;
}
运行以下示例:
mainclass Fibonacci {
public static void main ( )
{
int first,second,i,tmp;
first=0;
second=1;
i=0;
while (i<10)
{
i=i+1;
tmp=first+second;
println (tmp);
first=second;
second=tmp;
}
}
}
输出:
MAINCLASS
lexical error in Line : 1
EMPTY MAINCLASS
EMPTY lexical error in Line : 1
解决方法
flex文件中规则的顺序很重要,这是一个特殊的例子。
您有规则:
. { printf(" lexical error in Line : %d \n ",line_num); exit(1); }
将与任何单个字符匹配,其中包括与空格字符匹配。
稍后在文件中(实际上紧随其后),您拥有
{Empty}+ { printf("EMPTY ") ; /* nothing */ }
,也可以匹配一个空格字符。但是,如果要匹配的令牌是单个空格,则第一个规则将获胜(正是因为同一令牌被多个规则匹配时,第一个规则将获胜)。
另一方面,如果有两个空格,则模式{Empty}+
将匹配两个空格,而.
将仅匹配一个空格。在这种情况下,{Empty}+
将获胜,因为最长的比赛总是获胜。
您应该始终将后备规则放在扫描仪说明的最后(可能<<EOF>>
规则除外)。这不仅可以确保它们能够按预期工作,而且可以将规则放在人们寻找它们的地方。
请注意,宏定义中还有许多其他错误,其中一些在注释中指出。这些也会导致扫描仪拒绝有效的输入,因此需要解决它们。
总的来说,我建议避免使用宏,除非您具有非常复杂的模式,其中相同的子模式会多次出现,这是它们的预期用例。 {Empty}
根本不是描述性的,因此它会强制代码阅读器(在本例中为me)在源文件中搜索定义。您可能已经使用过Posix字符类[[:space:]]
,这对使用Flex的人来说是众所周知的。 (它包括换行符,但是换行规则仅用于增加行号计数;您可以通过仅包含%option yylineno
来让Flex为您完成此操作。)