PolyBase创建外部表查询Hadoop,列数不匹配

问题描述

我们已经运行了一个 polybase 服务来查询我们的 hadoop 集群。 这是我们 hadoop 端的文件结构:

/warehouse/tablespace/managed/hive/xxxxxxx/dxxxxxx/created_month=2019-11/base_0000083/bucket_00001的结构 文件版本:0.12 带有 ORC_135 行数:51107 压缩:ZLIB 压缩大小:262144 身份证:INT, xxx xxx xxx

这边有16个字段

另一方面,我创建了如下文件格式:

    CREATE EXTERNAL FILE FORMAT [OrcFileFormat] WITH (
    FORMAT_TYPE = ORC,DATA_COMPRESSION = N'org.apache.hadoop.io.compress.DefaultCodec')
   

和外部表如下:

    CREATE EXTERNAL TABLE [dbo].[test]
    (
        id:int,xxx
    xxx
    xxx
    )
    WITH (DATA_SOURCE = [hadoop_test],LOCATION = N'//warehouse/tablespace/managed/hive/xxxxxxx/dxxxxxx/created_month=2019- 
     11/base_0000083/bucket_00001',FILE_FORMAT = [OrcFileFormat],REJECT_TYPE = VALUE,REJECT_VALUE = 500)
   

对于完全复制的字段,数据类型的唯一变化是字符串到 varchar 和时间戳到日期时间。 表创建成功;但是,当执行以下查询时:

     SELECT TOP (1000) *
      FROM [dbo].test

抛出这个错误

无法针对链接服务器“(null)”的 OLE DB 提供程序“MSOLEDBsql”执行查询“远程查询”。由于内部错误,外部文件访问失败:'File //warehouse/tablespace/managed/hive/xxxxxxx/dxxxxxx/created_month=2019-11/base_0000083/bucket_00001:HdfsBridge::CreateRecordReader - 创建记录读取器时遇到意外错误:HadoopExecutionException:列数不匹配。源文件有 6 列,外部表定义有 16 列。'

有人可以帮我吗?

解决方法

当 ORC 被创建为事务表时发生。在这种情况下,ORC 文件包含一些其他信息,如操作等。如果您打开 ORC 文件,它会如下所示:

(operation,originalTransaction,bucket,rowId,currentTransaction,(ActualData))

其中 ActualData 是您已存储在文件中的实际数据。因此,如您所见,您的实际列数似乎有 6 列。正如 Microsoft 所说的 Polybase 限制here,您将无法读取 ORC 事务文件。

,

这不是答案,而是故障排除的一个步骤。尝试使用虚拟字段(即虚拟 int)创建外部表,然后运行查询。当它由于列不匹配而失败时,它会告诉您找到了哪些字段及其排序规则。这可以帮助您进一步排除故障。