问题描述
我将我的spark数据集另存为本地计算机中的木地板文件。我想知道是否可以使用某种加密算法对数据进行加密。我用来将数据保存为拼花文件的代码看起来像这样。
dataset.write().mode("overwrite").parquet(parquetFile);
我看到了similar question,但是由于我正在写入本地磁盘,因此查询有所不同。
解决方法
我不认为你可以直接在 Spark 上做,但是你可以在 Parquet 周围放置其他项目,在特殊的 Apache Arrow 中。我认为这个视频解释了如何做到这一点:
https://databricks.com/session_na21/data-security-at-scale-through-spark-and-parquet-encryption