问题描述
我正在sql数据库上建立一个相当大的数据集(目录)(估计大概有10万条记录),以存储有关产品的信息。每种产品的特征均约为20-30个,因此基本上意味着20-30个色谱柱。设置系统后,每个属性实际上都链接到一个代码,因此每个产品都具有一个唯一的字符串,该字符串将所有这些属性连接在一起(字符串必须是唯一的,如果两个产品代码相同,则两个产品实际上是同一产品)。我想弄清楚的是,如果是sql-wise,则将目录存储为20-30列的表是否有任何区别,或者如果我最好只使用1列代码并从代码中解码属性,那是更好的选择。区别在于在一种情况下我会做
SELECT * FROM Catalogue WHERE Color='RED'
与
SELECT * FROM Catalogue WHERE Code LIKE '____R____________'
另外,由于我仅将一个列与20-30个列进行比较,因此可能更容易检查产品是否已存在。我还可以在完整表中添加一列来存储代码,并在执行一项操作时使用一种方法,在执行另一项操作时使用另一种方法。
我几乎不了解SQL引擎的工作方式,因此我可能完全不理解这里的推理。
解决方法
code
方法似乎很愚蠢。为什么我这样说呢?
您有几十个带有属性的列,并且您知道。您为什么不将这些信息包括在数据模型中?
您也将如何区分这些比较让我感到很有趣:
WHERE Code LIKE '____R____________'
WHERE Code LIKE '___R_____________'
WHERE Code LIKE '_____R___________'
WHERE Code LIKE '____R___________'
这似乎是一种将余下的余下时间用于调试的方法-如果不是您的代码,则是别人的代码。
并且,使用单独的列,您可以为常用组合创建索引。
如果不是所有行都具有所有属性-或者如果将来可以扩展这些属性,则可能需要一个结构,其中每个属性都有单独的行:
entityId code value
1 Color Red
这称为实体属性值(EAV)模型,在某些情况下适用。