如何通过使用Azure Spark创建的拼合文件通过GUI在Azure ML Studio中创建Azure数据集

问题描述

我正在尝试将文件作为数据集加载到Azure ML Studio的GUI中。这些镶木地板文件是通过Spark创建的。

Spark在我的文件夹中创建“ _SUCCESS”或“ _committed_8998000”之类的文件

Azure ML Studio无法读取或忽略它们并告诉我:

The provided file(s) have invalid byte(s) for the specified file encoding.
{
  "message": " "
}

我选择了“忽略不匹配的文件路径”,但是它仍然不起作用。

如果我删除了“ _SUCCESS”和其他Spark文件,则可以正常工作。

解决方法

感谢您的反馈。您可以在路径中使用globing。例如path ='** / *。parquet'仅选择实木复合地板文件

,

这是 Azure ML Studio 的问题。它大概会尝试解析和解码默认情况下写入 Parquet 文件旁边的 CRC 文件。

现在的解决方案是删除这些文件,希望 Microsoft 最终能够解决这个问题。