问题描述
我正在尝试将文件作为数据集加载到Azure ML Studio的GUI中。这些镶木地板文件是通过Spark创建的。
Spark在我的文件夹中创建“ _SUCCESS”或“ _committed_8998000”之类的文件。
Azure ML Studio无法读取或忽略它们并告诉我:
The provided file(s) have invalid byte(s) for the specified file encoding.
{
"message": " "
}
我选择了“忽略不匹配的文件路径”,但是它仍然不起作用。
如果我删除了“ _SUCCESS”和其他Spark文件,则可以正常工作。
解决方法
感谢您的反馈。您可以在路径中使用globing。例如path ='** / *。parquet'仅选择实木复合地板文件
,这是 Azure ML Studio 的问题。它大概会尝试解析和解码默认情况下写入 Parquet 文件旁边的 CRC 文件。
现在的解决方案是删除这些文件,希望 Microsoft 最终能够解决这个问题。