问题描述
你好 StackOverflow 社区。p>
我目前正在重新设计一个必须存储基于时间的值的 sql Server 数据库表。旧表每天大约有 50,000,000 个条目,这变得太多了。因此,我们计划每小时对条目进行分组,这将导致每天大约 5,000 个条目。
我对新表的概念如下:
CREATE TABLE data.Values (
Date date NOT NULL,/* The day of the values */
Hour tinyint NOT NULL,/* The hour of the values */
deviceid int NOT NULL,/* The id of the gateway that these values belong to */
Values varbinary(MAX) NOT NULL /* The actual values in binary format */
);
根据数据的时间戳和deviceid,新数据以二进制形式简单地附加到Values属性中的现有数据。
我的问题是为这张表找到一个好的聚集索引。正如我所读到的,聚集索引最重要的标准是:
- 窄
- 静态
- 独特
- 不断增加
前两点很容易被任何索引候选覆盖,因为写入的数据永远不会被修改,而且只有几列。我的两个选择是:
- 如果我使用 (Date,Hour,deviceid) 组合作为聚集索引,那么它将不会不断增加,因为来自各种设备(以及各种设备 ID)的数据将被写入。只有日期+小时在不断增加。但这种组合是独一无二的。
- 因此,如果我使用 (Date,Hour) 组合,那么索引将不断增加但不再唯一,因为有是使用相同时间的其他设备 ID。
很快:如果我必须在独特或不断增加的索引之间做出选择,是否有偏好?
感谢您的专业知识!
编辑:我注意到我可能对插入情况的解释很糟糕。旧表中有许多插入,这将导致新表设计中 values 列的更新。但由于此列未编入索引,因此据我所知,应该不会影响性能。
解决方法
根据您的解释,Date
、Hour
和 DeviceId
的组合将是唯一的。当使用多列作为索引时,列被合并。聚集索引决定了插入新记录时记录的排序方式。
因为我们谈论的是聚集索引,所以它必须是狭窄的和静态的。该索引还将确定排序顺序。这是合乎逻辑的。
如果它不是唯一的,SQL Server 会使其唯一。这是在引擎盖下使用 UNIQUIFIER 键完成的。此密钥将有 4 个额外字节长。 (所以不那么狭窄)有关更多信息,请搜索“UNIQUIFIER and sql server”。
如果键不是不断增加,则插入不会总是在最后。这会导致页面拆分并花费更多的时间来插入。进行大量插入时,页面拆分会损害您的性能。
如果键是不断增加的,插入总是在最后完成。这将是我的偏好,因为在您的问题中,您正在谈论很多插入。但是...
如果总是在最后插入,可能会遇到锁定问题。搜索“最后一页插入闩锁争用。因为并发插入必须写在同一个 8K 页面中。您也可以在谷歌中搜索“不断增加的集群键不能扩展!幸运的是,有一个解决方案可以解决这个问题。您可以在 StackExchange 中阅读答案。链接:https://www.sqlpassion.at/archive/2014/04/15/an-ever-increasing-clustered-key-value-doesnt-scale/
这个答案符合您的问题,因为您的表中也有一个 varbinary(max)。请搜索“在数据库表中存储图像 varbinary(max) 数据的最佳做法是什么?”这是链接:https://dba.stackexchange.com/questions/2624/what-is-the-best-practice-for-storing-image-varbinarymax-data-in-a-database-ta
那里提到的答案是设置“ALLOW_PAGE_LOCKS = OFF”。
另一篇好文章是这个链接:https://www.sqlskills.com/blogs/kimberly/ever-increasing-clustering-key-the-clustered-index-debate-again/
希望能帮到你。