问题描述
我们有一个多租户系统,我们开始将其数据迁移到 CockroachDB。 我们经常需要从多个表中加入属于单个租户的数据。在极少数情况下,我们还会读取属于多个/所有租户的数据 - 但这并不经常发生,因此从性能角度来看并不那么重要。
我们认为 table interleaving 可能是一个好的解决方案的一部分 - 即:有一个租户“父”表,然后将其他表插入该表中,以增加数据属于的机会到同一个租户最终在相同的范围内。但是,这是否是一个好主意,现在并不重要,因为交错已被弃用。
为每个租户创建单独的架构或数据库,可能是一种解决方案。但是由于我们已经为每个微服务提供了一个架构,这将导致架构爆炸式增长(我们有数千个租户)。因此,一些带有“鉴别器”列的设计可以告诉给定的数据行属于哪个租户。
什么样的设计既好用又性能好?例如。使用带有租户 ID 的复合密钥作为密钥的第一部分是否有帮助?我想这至少可以确保单个表中来自同一租户的数据彼此相邻,因此更有可能最终在同一范围内?不过,这在跨表连接时无济于事(这正是我期望交错可以提供帮助的)。
解决方法
为每个租户创建单独的架构或数据库,可能是一种解决方案。但是由于我们已经为每个微服务提供了一个架构,这将导致架构爆炸式增长(我们有数千个租户)。因此,一些带有“鉴别器”列的设计可以告诉给定的数据行属于哪个租户。
就性能而言,这些方法中的任何一种都是合适的。事实上,它们会在 CRDB 的 distributed key-value store 中产生非常相似的密钥编码。
也就是说,CockroachDB 有大约 10k 个数据库的软限制,因此如果您已经有数千个用户,则每个用户的数据库可能是不可取的。
因此,将租户 ID 作为每个表的主键和二级索引的前缀可能是最好的方法。它将确保来自同一租户的单个表中的数据彼此相邻,以优化扫描和多行读写事务。