问题描述
我有一个熊猫或pyspark数据框df
,我希望以此为依据。
我已经在内存中存储了数据框。如何将数据框转换为great_expectations数据集?
例如,我可以这样做:
df.expect_column_to_exist("my_column")
解决方法
import great_expectations as ge
对于熊猫:
df_ge = ge.from_pandas(df)
或
df_ge = ge.dataset.PandasDataset(df)
对于pyspark:
df_ge = ge.dataset.SparkDFDataset(df)
现在您可以实现您的期望
df_ge.expect_column_to_exist("my_column")
,注意,great_expectations SparkDFDataset不会从pyspark DataFrame继承函数。您可以通过
访问原始的pyspark DataFrame。df_ge.spark_df
另请参阅《大期望》文档/教程,了解有关使用ge.from_pandas
:https://docs.greatexpectations.io/en/latest/guides/tutorials/explore_expectations_in_a_notebook.html