sql – 数据仓库分段区域内的结构

我们正在为一家银行开发一个数据仓库,并且几乎遵循标准的Kimball模式的分期表,星型模式和ETL来通过该过程拉出数据.

Kimball talks about using the staging area for import,cleaning,processing and everything until you are ready to put the data into the star schema. In practice this typically means uploading data from the sources into a set of tables with little or no modification,followed by taking data optionally through intermediate tables until it is ready to go into the star schema. That’s a lot of work for a single entity,no single responsibility here.

我以前的系统已经对不同的表格进行了区分,具体方法如下：

>上传表：原始源系统数据,未修改
>分级表：中间处理,打字和清洗
>仓库表

您可以将它们粘贴到单独的模式中,然后对归档/备份/安全性等应用不同的策略.其他的一个人在一个仓库上工作,那里有一个StagingInput和一个StagingOutput,类似的故事.整个团队有很多经验,包括数据仓库和其他.

然而,尽管如此,通过Kimball和网络来看,似乎绝对没有任何关于给分段数据库提供任何类型的结构的书面文字.一个人会被宽恕,相信Kimball先生将把我们所有的人都作为这个大深黑暗的非结构化数据库进行分期工作.

当然,如果我们想在分段区域添加一些更多的结构,当然这是很明显的,似乎很奇怪,似乎没有什么可写的.

那么,其他人在做什么呢？只是这个大的非结构化的混乱,还是民间有一些有趣的设计呢？

解决方法

我遇到了同样的问题.我们有一个大型的HR DataWarehouse,我从整个企业的系统中抽取数据.我有一个很好的Fact和Dimension表的集合,但分期区是一团糟.我不知道这个设计的任何标准.我会遵循同样的道路,并提出一套标准的名称来保持秩序.你的建议对于命名是非常好的.我会继续努力

sql – 数据仓库分段区域内的结构

解决方法

相关文章