是否可以删除基础镶木地板文件而不会对DeltaLake _delta_log 这个总和是什么意思？如果从文件系统中删除实木复合地板怎么办？

问题描述

在DeltaLake表上使用.vacuum()非常慢（请参阅Delta Lake (OSS) Table on EMR and S3 - Vacuum takes a long time with no jobs）。

如果我手动删除了基础镶木地板文件，并且没有添加新的json日志文件或添加新的.checkpoint.parquet文件并更改指向该文件的_delta_log/_last_checkpoint文件；如果有的话，对DeltaLake表的负面影响是什么？

很显然，时间旅行，即加载依赖于我删除的实木复合地板文件的表格的先前版本是行不通的。我想知道的是，在读取，写入或附加到DeltaLake表的当前版本时是否会有任何问题？

我想在pySpark中做什么：

### Assuming a working SparkSession as `spark`

from subprocess import check_output
import json
from pyspark.sql import functions as F

awscmd = "aws s3 cp s3://my_s3_bucket/delta/_delta_log/_last_checkpoint -"
last_checkpoint = str(json.loads(check_output(awscmd,shell=True).decode("utf-8")).get('version')).zfill(20)

s3_bucket_path = "s3a://my_s3_bucket/delta/"

df_chkpt_del = (
    spark.read.format("parquet")
    .load(f"{s3_bucket_path}/_delta_log/{last_checkpoint}.checkpoint.parquet")
    .where(F.col("remove").isNotNull())
    .select("remove.*")
    .withColumn("deletionTimestamp",F.from_unixtime(F.col("deletionTimestamp")/1000))
    .withColumn("delDateDiffDays",F.datediff(F.col("deletionTimestamp"),F.current_timestamp()))
    .where(F.col("delDateDiffDays") < -7 )
)

这里有很多选择。一种可能是：

df_chkpt_del.select("path").toPandas().to_csv("files_to_delete.csv",index=False)

在这里我可以将files_to_delete.csv读入bash数组，然后使用一个简单的bash for循环将每个镶木文件s3路径传递到aws s3 rm命令，以逐个删除文件。

这可能比vacuum()慢，但是至少它在工作时不会消耗群集资源。

如果我这样做，我是否也必须：

编写一个新的_delta_log/000000000000000#####.json文件来正确记录这些更改？
编写一个新的000000000000000#####.checkpoint.parquet文件以正确记录这些更改并更改_delta_log/_last_checkpoint文件以指向该checkpoint.parquet文件吗？

第二种选择会更容易。

但是，如果我只删除文件并且不更改_delta_log中的任何内容，如果没有负面影响，那将是最简单的。

解决方法

TLDR。回答这个问题。

如果我手动删除了基础镶木地板文件，并且没有添加新的json日志文件，也没有添加新的.checkpoint.parquet文件并更改指向它的_delta_log / _last_checkpoint文件；如果有的话，对DeltaLake表的负面影响是什么？

是，这可能会破坏您的增量表。

让我简要回答delta-lake如何使用_delta_log读取版本。

如果您要读取版本x，它将进入从1到x-1的所有版本的增量日志，并将不断读取实木复合地板文件。每10个版本后，此过程的摘要就会另存为.checkpoint，以使此求和过程高效。

这个总和是什么意思？

假设，
版本1日志中说，添加add file_1,file_2,file_3 版本2日志中说，添加delete file_1,and add file_4

因此，当阅读版本2时，总指令为 add file_1,file_3 -> delete file_1,and add file_4

因此，读取的结果文件将是file_3和file_4。

如果从文件系统中删除实木复合地板怎么办？

假设在版本3中，您从文件系统中删除了file_4。如果您不使用.vacuum，则增量日志将不会知道file_4不存在，它将尝试读取它并失败。

apache-spark apache-spark-sql delta-lake pyspark