为什么有时某些Contour板却出现格式错误的数据错误,而另一些却没有?

问题描述

我有一个数据集,当用作构建另一个数据集的输入时,会导致“格式错误的记录”错误,指示原始数据文件存在某些错误(某些格式错误的值)。因此,我希望无法在Contour中使用该数据集。那么,为什么有时在Contour中某些板子出现格式错误的记录错误,而另一些板子却没有?

解决方法

因此,这里的答案是,您将能够在Contour中执行某些操作,而其他操作则无法。这取决于Contour在引擎盖下执行的spark作业是否实际遇到格式错误的记录。从本质上讲,spark是懒惰的,因此实际上不会对所有数据执行所有操作-仅显示结果即可。因此,如果在Contour中执行的功能不包括格式错误的记录所在的特定列/行,则可以使用数据集。