连接 数据仓库跟数据集市的关系

http://www.csdn.net/expert/topic/576/576587.xml

诸位哥们给点意见



懒得转贴,别无它意

作者: cxgtommy   发布时间: 2002-06-05

讨论很精彩!!值得一看。
不过,实在说不出什么,做个项目体会就深了

作者: ligengocp   发布时间: 2002-06-06

为什么要设立数据集市呢,我觉得这个方面有些值得考虑的事情
企业决策者有时要根据一些数据进行决策,但要找出所需要的不是很容易的一件事情,于是设立了数据集市。数据集市实际上是为各种特殊需要而专门设计的数据表。数据集市并不是在主题内,而在数据仓库的范畴中,也就是说,可以在原来主题的基础上,为决策的需要,进行跨主题的重组

作者: justforit   发布时间: 2002-06-08

呵呵
理由一:数据仓库如果按照分析的需求直接设计,整合性很差,而且随着客户需求的变化要不断做调整,数据仓库层就失去意义了。不过在数据仓库上,可以做一些通用性的查询甚至ad hoc
理由二:数据仓库基本不会写入数据,而数据集市就无所谓,所以数据集市可以做一些what if等东西,而不仅仅是分析
理由三:有时候是为了一些查询优化,会建立数据集市,比如仅挑出有用的测量甚至不要测量、生成一些聚合表、为数据仓库中的复杂查询而建立数据集市(常见的就是一些跨部门的查询)等
理由四:数据仓库并不是什么星星、雪花的东东,还是走标准范式那一套,而集市才是星星、雪花xxx。 如果你的数据仓库有大量的星星,恐怕就只是一堆的数据集市
理由五:。。。。。。。

数据仓库跟数据集市并不矛盾,只是用途不一样。目前国内很多人为了一些简单olap分析应用,建了一堆数据集市,居然认为这就是数据仓库,混淆视听,把这个行当搅得乌烟瘴气

作者: cxgtommy   发布时间: 2002-06-08

在SAS的理念里,好像并不明显区分这两个概念, 我是这样理解SAS的想法的: 不管DM还是DW,最终是为了分析挖掘服务的, 所以SAS的数据仓库策略更偏重于更好地支持挖掘.

我们这儿一直认为DB2 Olap Server中的立方体存储是数据集市, 不知道对不对. 如果对的话, 那和数据仓库区别就比较大了, 毕竟数据仓库是传统的关系模型存储.

作者: roamer   发布时间: 2002-06-13

其实国内很多应用模式就直接拿sas做些数据仓库和集市,国外很多大型的应用都是其他的数据仓库方案+sas来构建的

cube都是从数据集市来的,在这些xolap产品中,基本都是这样的,但显然数据集市不是olap。

作者: cxgtommy   发布时间: 2002-06-14

有时,数据集市可以作为数据仓库的廉价替代品
因为前者的创建所花费的时间和金钱更少
但是,因为如此,过多的数据集市会造成数据内容、管理等等的重叠

作者: justforit   发布时间: 2002-06-14

概念上讲, 这两个区分是很明确的
INMON的书中讲过, DW主要是存放明细数据,和少数的聚集; 而数据集市主要是基于原始数据的聚集;

但是从物理存储的角度讲, 我真的有些胡涂, DW当然是比较明确了, DM究竟存放在哪儿? 是我们BI部门所说的存放在DW中, 还是我理解的就是那些CUBE, 如果按INMON的说法, 我的理解也算正确吧.

作者: roamer   发布时间: 2002-06-14

通常,cube跟dm有直接的对应关系,但不等价。我更倾向于认为cube是一个多维的视图或实体(要看后面是怎样的olap产品),数据集市是根本的数据来源

作者: cxgtommy   发布时间: 2002-06-16

和你的观点不太一样,数据仓库最终目的还是为了作数据分析,所以不能说完全采用雪花/星星结构的就不是数据仓库。目前,我们所提到的“数据仓库”实际上就是一大堆数据集市的集合,都是建立在明确的需求上的,与Inmon数据仓库理论不同。主要原因还是无论是开发人员还是使用者对数据仓库没有一个清晰的认识,或者说我们目前的国情不允许我们向那一方向发展。数据集市的建设应该建立在明确的分析途径/手段上,数据仓库则应该是任取所需的地方,二者结构有不同,但从结构的设计理念上应该是相同的。

作者: scy_cd   发布时间: 2002-06-18

同意scy_cd所说数据仓库应该是任取所需的地方,那么如何能做到?那就是要原子化,把数据分解为最小有意义的单位,然后依据一定的主题组织,我认为数据仓库中的数据应该尽可能符合第三范式,而不是为了查询的方便和速度进行组织(这样做往往存在大量的冗余)。至于数据集市则自然是从数据仓库中refresh过来,既方便又快速。如果从数据集市开始做,最后作数据仓库,我认为通常都是某种折中或是历史原因造成。

作者: karson   发布时间: 2002-06-18

Ok.简单整理不同观点如下
1。数据仓库是基于范式而不是星星   me
2。数据仓库尽可能基于范式    karson
3。数据仓库等于一堆的数据集市(scy_cd兄所提的数据仓库可能是目前国内所谓“数据仓库“的现状,而不是从国外直接搬过来的那套东东)   scy_cd
.........


建立一个数据仓库(基于范式而不是数据集市的集合)好处就是有一个清洗过、整合过、一致的、元数据统一的数据基础,在其上添加新的数据集市无需修改大量现有的应用,从维护的角度较少了大量的开发,难点是数据仓库的结构设计不合理的话,负作用也很大,通常需要很长时间不断修改一直到稳定下来。相信大家也有同感,结合概念跟目前国内实际情况所以才会有各种不同的设计指导思想,但目的都是要形成一个稳固的数据仓库层,在此基础上搭建各种分析应用。建议不要因为目前实际情况如何如何,就把数据仓库跟数据集市的集合混为一谈,这也算是基本概念吧。

我的倾向是建立数据仓库在先,然后设计集市。当然,如果时间和金钱允许的情况下。

作者: cxgtommy   发布时间: 2002-06-18

这种倾向在项目实现时会有一些问题

想设计一个结构比较合理的数据仓库需要时间, 而目前国内尤其是行业的领导对数据仓库的重要性基本没有什么理解, 他们更关心的是项目能在决策上对他们有什么样的帮助, 也就是说一个BI的项目首先应该至少具有一个亮点, 能够挖掘出他们以前不知道的东西, 只有这样, 领导才能更加支持Bi系统的建设, 然后再逐步完善存储, 集成....,构建数据仓库. 否则, 领导肯定会问: 我化了那么多钱, 就得到一堆没有意义的报表, 建数据仓库有何意义?

我觉得从项目实施的角度, 先构建数据集市, 这样比较快, 费用也相对低, 关键是首先要有能够打动领导的东西.

数据仓库的工程也是领导的工程

作者: roamer   发布时间: 2002-06-22

我无用的感叹:唉,这是国内实际情况,很多时候,客户建立这种系统是为了出点政绩,作为升官的资本,等一个建设几年的项目是不太现实。

其实不用远了,就连香港一些银行规划数据仓库的时候,设计期都要一年半以上。急功近利的话,还是最好在建设数据仓库的同时继续维护现有的报表系统,远水从来就解不了近渴

同意roamer的说法,先建立数据集市给一些业务部门,这样效果很快,不过整合性就比较差了,如果数据仓库一直未能建立的话,恐怕单独维护几个数据集市的话,re-engine的工作会很痛苦

作者: cxgtommy   发布时间: 2002-06-23

看了roamer和cxgtommy的总结深有感触,从INMON提出数据仓库概念开始到现在也有十几年了,但是我们还在不断地讨论数据仓库、数据集市、OLAP、CUBE等一些概念,我想这主要还是因为我们的国情,我们目前的国民经济水平,所以我觉得如果有这方面专长的人(包括技术、经验),建议你们去国外发展,如美国、英国等一些国家。

作者: thinkless   发布时间: 2004-08-01

这个问题inmon和kimball 以及他们的支持者争论了十几年,在网上可以查到很多资料,我觉得看看这些争论还是有好处的。

作者: gclizh   发布时间: 2004-08-02

数据集市只是从数据仓库中抽取的一个面向特定的主题,和业务的,小型数据仓库

作者: zg_ivan   发布时间: 2004-08-10

收藏!

作者: lutian   发布时间: 2004-09-28

数据仓库是面向数据源的,集大成者
数据集市是面向数据仓库,为目标服务

作者: 小楼一夜听春雨   发布时间: 2004-09-29

请继续讨论。

作者: itpub888   发布时间: 2006-09-30

数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段;而数据集市则是一种微型的数据仓库,它通常有更少的数据,更少的主题区域,以及更少的历史数据,因此是部门级的,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。
数据仓库和数据集市的区别可从如下三个方面进行理解:
(1) 数据仓库向各个数据集市提供数据
(2) 几个部门的数据集市组成一个数据仓库
(3) 下面从其数据内容特征进行分析,数据仓库中数据结构采用规范化模式,数据集市中的数据结构采用星型模式,通常仓库中数据粒度比集市的粒度要细,下图反映了数据结构和数据内容特征的区别
详细内容请看:
http://www.chinabi.net/blog/user1/105/archives/2006/388.html

作者: duzhaoyi2000   发布时间: 2006-09-30

支持精华,谢谢!

作者: bankit   发布时间: 2006-10-02



QUOTE:原帖由 cxgtommy 于 2002-6-18 14:34 发表
Ok.简单整理不同观点如下
1。数据仓库是基于范式而不是星星   me
2。数据仓库尽可能基于范式    karson
3。数据仓库等于一堆的数据集市(scy_cd兄所提的数据仓库可能是目前国内所谓“数据仓库“的现状,而不是从国外直接搬过来的那套东东)   scy_cd

明显矛盾么
1。数据仓库是基于范式而不是星星   me  -->得出 数据仓库不是星星
3、数据仓库等于一堆的数据集市(数据集市是星星) --> 那此时数据仓库又是什么呢?星星还是范式?

作者: snow_winter   发布时间: 2009-10-23



QUOTE:原帖由 小楼一夜听春雨 于 2004-9-29 11:52 发表
数据仓库是面向数据源的,集大成者
数据集市是面向数据仓库,为目标服务

作者: mdoracle   发布时间: 2011-05-23