为什么我们在编译器设计的词法分析中将字符串视为单个标记？

问题描述

我正在学习编译器设计。编译器中词法分析器的任务是将代码转换为令牌流。但我很困惑为什么我们将字符串视为单个标记。例如 - printf("%d is integer",x); 在这个语句中 printf,(,"%d is integer",,,x,),{{1 }} 是标记，但为什么字符串中的 ; 不被视为单独的标记？

解决方法

因为像 %d（或任何其他字符串内容）这样的格式说明符在语法上没有意义 - 没有依赖于它们的语言语法元素。字符串内容（包括 %d 等格式说明符）是数据，不是代码，因此对编译器没有意义。字符序列 %d 仅在运行时有意义，并且仅对 *printf/*scanf 系列函数有意义，并且仅作为格式字符串的一部分。

要将 %d 识别为不同的标记，您必须标记整个字符串 - "、%d、is、{ {1}}、integer。这本身就打开了一整罐蠕虫，使解析字符串变得更加困难。

某些编译器确实会检查 " 和 printf 调用的格式字符串参数，以进行一些基本的完整性检查，但这在标记化已经发生之后已经很好了。在标记化阶段，您不知道这是对 scanf 库函数的调用。直到经过语法分析，编译器才知道这是一个特定的库调用，并且可以执行这种检查。

c compiler-construction compiler-development lexical-analysis

为什么我们在编译器设计的词法分析中将字符串视为单个标记？

问题描述

解决方法

相关问答