Amazon Deequ的Pyspark版本

问题描述

我正在研究AWS glue,并将pyspark API用于我的ETL。 我相信,如果需要使用Amazon Deequ,则需要切换到Scala。但是我仍然希望contine使用Pyspark API。有出路吗? 如果是,我在AWS glue中需要遵循哪些步骤?

谢谢

解决方法

有一个Deequ的Python包装器,名为PyDeequ,它可以工作,尽管我自己还没有使用过。

如果您想使用Python,我建议您看一下实现与Deequ非常相似的功能的Great Expectations library,包括对PySpark的支持。

,

感谢您的建议 GreatExpectations是一个很棒的库,但是它是C依赖包。不幸的是,AWS Glue不支持PySpark的C依赖库

https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-python-libraries.html

恐怕我可能无法使用GreatExpectations

任何其他PySpark库建议都将不胜感激