如何以加密格式保存spark数据集?

问题描述

我将我的spark数据集另存为本地计算机中的木地板文件。我想知道是否可以使用某种加密算法对数据进行加密。我用来将数据保存为拼花文件代码看起来像这样。

dataset.write().mode("overwrite").parquet(parquetFile);

我看到了similar question,但是由于我正在写入本地磁盘,因此查询有所不同。

解决方法

我不认为你可以直接在 Spark 上做,但是你可以在 Parquet 周围放置其他项目,在特殊的 Apache Arrow 中。我认为这个视频解释了如何做到这一点:

https://databricks.com/session_na21/data-security-at-scale-through-spark-and-parquet-encryption