Xerces-J xsd:base64binary 词法验证问题

问题描述

我最近将我的项目从 Xerces-J 2.7.0 升级到 Xerces-J 2.12.1,我发现架构验证行为发生了变化。我不完全清楚我的测试是否错误或 Xerces 是否错误

鉴于此架构:

<?xml version='1.0'?>
<xsd:schema xmlns:xsd='http://www.w3.org/2001/XMLSchema'>
  <!-- Schema to test facets for the xsd:base64Binary datatype. -->
  <xsd:element name="facetTest" type="FacetTestComplexType"/>
  <xsd:complexType name="FacetTestComplexType">
    <xsd:sequence>
      <xsd:element name='enumeration' type='EnumerationType' minOccurs="0"/>
    </xsd:sequence>
  </xsd:complexType>

  <!-- ***** Enumeration ***** -->
  <xsd:simpleType name='EnumerationType'>
    <xsd:restriction base='xsd:base64Binary'>
      <xsd:enumeration value='Ab1+'/>
      <xsd:enumeration value='7 d Ec'/>
    </xsd:restriction>
  </xsd:simpleType>
</xsd:schema>

还有这个实例文档:

<facetTest>
  <enumeration>7dEc</enumeration>
</facetTest>

在 Xerces-J 2.7.0 中,该实例文档是有效的,但是在使用 Xerces-J 2.12.1 时,它现在被标记为无效。

我查看了 schema base64binary specification 并且不清楚它是否应该有效(我的代码是正确的,而 Xerces-J 是错误的)还是反之亦然。这是让我失望的段落:

注意这个语法要求词法形式中非空白字符的数量是四的倍数,并且等号只出现在词法形式的末尾;不满足这些约束的字符串不是 base64Binary 的合法词法形式,因为它们无法被 base64 解码器成功解码。

注意:上述词法空间的定义比 [RFC 2045] 中给出的关于空格的定义更具限制性——这在实践中不是问题。任何与 RFC 兼容的字符串都可以出现在由该类型验证的元素或属性中,因为该类型的·whiteSpace·facet 固定为折叠,这意味着所有前导和尾随空格将被剥离,所有内部空格将折叠为单个空格字符,在执行上述语法之前。

根据枚举的定义,它限制的是值空间,而不是词法空间在这种情况下,值空间似乎覆盖了原始的二进制内容。如果是这种情况,那么空格应该毫无意义。

对我的代码或 Xerces 是否不正确的任何澄清将不胜感激。

解决方法

认为您的代码是正确的,而 Xerces 开始出现错误行为。

尽管枚举中的 base64 值看起来很奇怪,但它们确实符合此处指定的语法:https://www.w3.org/TR/xmlschema-2/#base64Binary

这是 XSD 规范关于枚举方面的说明:

验证规则:枚举有效: ·值空间·中的值对于·枚举·是面有效的,如果该值是{value}

中指定的值之一

所以我同意你的说法:

根据枚举的定义,它限制的是值空间,而不是词法空间。在这种情况下,值空间似乎覆盖了原始的二进制内容。