问题描述
我正在使用Azure databricks服务中的databricks表,但是,在我看来databricks表不支持事务隔离级别?在另一个进程访问(读取/修改)同一张表的同时更新/删除/插入表时会发生什么情况?
解决方法
Azure Databricks表架构是不可变的。
Azure Databricks上的Delta Lake支持两种隔离级别:可序列化和WriteSerializable。
Delta Lake在读取和写入之间提供ACID事务保证。这意味着:
- 跨多个群集的多个编写器可以同时修改表分区并查看表的一致快照视图,并且这些写入将有一个串行顺序。
- 即使在作业过程中修改了表,读者仍会继续看到Azure Databricks作业开始的表的一致快照视图。
表的隔离级别定义了必须将事务与并发事务所做的修改隔离的程度。 Azure Databricks上的Delta Lake支持两种隔离级别:可序列化和WriteSerializable。
可序列化:最强的隔离级别。它确保提交的写入操作和所有读取都可序列化。只要存在一次执行一次序列操作的序列,并且该序列产生与表中所示结果相同的结果,就可以允许该操作。对于写操作,序列顺序与表的历史记录完全相同。
WriteSerializable(默认)::隔离级别比Serializable弱。它仅确保写入操作(即读取操作)是可序列化的。但是,这仍然比快照隔离更强大。 WriteSerializable是默认的隔离级别,因为它为大多数常见操作提供了数据一致性和可用性之间的最佳平衡。
在这种模式下,增量表的内容可能与表历史记录中的操作顺序所期望的不同。这是因为此模式允许某些并发写入对(例如,操作X和Y)继续进行,从而即使历史记录显示Y,结果也好像Y在X之前执行(即,它们之间可序列化)。是在X之后提交的。要禁止这种重新排序,请将表隔离级别设置为Serializable可导致这些事务失败。
有关每种隔离级别上哪些操作类型可能相互冲突以及可能的错误的更多信息,请参见Concurrency control。
有关更多详细信息,请参阅“ Azure Databricks - Isolation levels”。