pyparsing - 如何向前看有歧义的语法带/不带时区解析的时间戳

问题描述

我正在尝试使用 pyparsing 来解析 sql 方言中的某些时间戳类型。

在这个特定的 sql 方言中,我们有两种时间戳类型 - 带时区和不带时区。

不带时区的示例:TIMESTAMP WITHOUT TIME ZONETIMESTAMP(3)TIMESTAMPTIMESTAMP(3) WITHOUT TIME ZONE

带时区的示例:TIMESTAMP WITH TIME ZONETIMESTAMP(9) WITH TIME ZONE。如您所见,唯一的区别是需要明确定义时区。

不幸的是,以下匹配不适用于 pyparsing:

(RPAR,LPAR,COMMA) = map(Suppress,"(),")
NUMS = Word(nums)

TIMESTAMP = CaselessKeyword("TIMESTAMP") + 
    Optional(RPAR + NUMS + LPAR) + 
    Optional(CaselessKeyword("WITHOUT TIME ZONE"))
TIMESTAMP_WITH_TIMEZONE = CaselessKeyword("TIMESTAMP") + 
    Optional(RPAR + NUMS + LPAR) + 
    CaselessKeyword("WITH TIME ZONE")

GRAMMAR = StringStart() + TIMESTAMP | TIMESTAMP_WITH_TIMEZONE + StringEnd()
GRAMMAR.parseString("TIMESTAMP WITHOUT TIMEZONE") # Works fine
GRAMMAR.parseString("TIMESTAMP WITH TIMEZONE") # fails

失败是:

  File "/.../lib/python3.8/site-packages/pyparsing.py",line 3814,in parseImpl
    raise ParseException(instring,loc,self.errmsg,self)
pyparsing.ParseException: Expected end of text,found 'W'  (at char 10),(line:1,col:11)

我认为错误可能是因为此语法需要 1 级前瞻来确定某事物是否为 TIMESTAMP WITH TIMESTAMPTIMESTAMP WITHOUT TIMESTAMP。当它无法匹配 WITH TIMESTAMP 时,它花费 TIMESTAMP 并结束(显然失败的原因不是字符串的结尾)。在这种情况下我该怎么办? pyparsing 是否具有让我解决此问题的超前能力?

解决方法

您还需要在内部“|”周围使用括号选择:

>>> expr = pp.Literal("a") + pp.Literal("b") | pp.Literal("c") + pp.Literal("d")
>>> expr
{{"a" "b"} | {"c" "d"}}

应该是:

GRAMMAR = StringStart() + (TIMESTAMP_WITH_TIMEZONE | TIMESTAMP) + StringEnd()
,

一个规则比另一个更具体,因为它不涉及 Optional 关键字。连词是有序的,因此我们必须将语法定义为:

GRAMMAR = ... + TIMESTAMP_WITH_TIMEZONE | TIMESTAMP + ...

相反。我尝试了 FollowedBy,但效果不佳。