ETL工具设计

etl设计之一 - 最终幻想
http://spaces.msn.com/xiangshifu ... 08329C6F0!142.entry

etl设计之二 - 狐妖之惑
http://spaces.msn.com/xiangshifu ... 08329C6F0!143.entry

etl设计之三 - 文件格式
http://spaces.msn.com/xiangshifu ... 08329C6F0!144.entry

etl设计之四 - 万流归海
http://spaces.msn.com/xiangshifu ... 08329C6F0!147.entry

etl设计之五 - 初见雏形
http://spaces.msn.com/xiangshifu ... 08329C6F0!150.entry


后面几篇为2006-02-17新发
etl工具设计之六 - 模块分割
http://spaces.msn.com/xiangshifu ... 08329C6F0!178.entry

etl工具设计之七 – 抽取模块
http://spaces.msn.com/xiangshifu ... 08329C6F0!179.entry

etl工具设计之八 – 转换模块
http://spaces.msn.com/xiangshifu ... 08329C6F0!180.entry

etl工具设计之十一 - 需要自己编写etl工具吗?
http://spaces.msn.com/xiangshifu ... 08329C6F0!181.entry

作者: xiangshifu   发布时间: 2006-02-14

不同领域的数据仓库的ETL区别非常大. 并且在大部分数据仓库的ETL处理过程中, 转换占绝大部分时间. ETL工具之间的竞争也都在转换上下功夫,因为在一个数据仓库的ETL的设计和实现过程中,T将占80%以上人力资源.

作者: bigtong   发布时间: 2006-02-15

呵呵, 是的 “T将占80%以上人力资源”

不过,这个只是人力资源,而不是机器资源, 一旦配置好之后,  只要不是进行大批量的排序之类的操作, 转换比装载快许多, ETL的速度瓶颈绝对不在转换上

我一直在想,怎么简化ETL工具的使用,尽量让整个BI项目组成员都用起来,而不仅仅是ETL工程师。工具而已,没有必要复杂,越简单越好。

转换可以分为两类: 一类是对单条记录的操作,另一类是象排序之类的操作,需要多记录关联。
对于,第一类, 可以简单的通过增加线程数来提供性能,机器的裕量一般都很高,犯不着节省。
对于,后一类,在实际的项目中又有多少呢?我没有见过(当然,这个与我的经历短有关)。

片面倒是真的, 因为是只做过中国移动经分,转换不复杂, 在其他行业估计不适用, 据我所知,在银行的数据仓库里面, T比较复杂

作者: xiangshifu   发布时间: 2006-02-15

做数据仓库, 我有一个观点:
尽量避免使用ETL工具进行复杂的转换。我以前做项目之时,就是因为过分的依赖ETL工具转换功能,导致ETL这块成为整个项目组的瓶颈。后来,二期建设的时候, 在数据仓库里面加入了ODS(源数据)层,然后使用存储过程将数据导入到DW层,项目组成员都会写存储过程,转换的实现要简单很多,减轻了项目组对ETL的依赖。
虽然日处理的速度延长一个小时左右,但从整个项目的角度来讲,绝对利大于弊。
当然,千万级以上的数据还是用工具来T。

作者: xiangshifu   发布时间: 2006-02-15

xiangshifu 的设计分享很不错,不知是否已经实现?
有机会好好交流一下实现方面心得?

作者: bluewhite   发布时间: 2006-02-15

to bluewhite:

呵呵, 只是设计, 没有实现, 没有那么多的人力物力来做, 以我的估计,4、5个人猛干一年,才有可能完成初始版本!

实现的话, 自己也想试一试, 有机会讨论讨论!如果可以的话,加我msn吧,

msn:  xiangshifu##hotmail.com

作者: xiangshifu   发布时间: 2006-02-15

1.不应把ETL和BI工具开发在一起,因为一个大的综合性的数据仓库ETL和BI往往分别建立在各自的服务器上.
2.应用ETL工具主要是用来降低人力资源和缩短ETL开发时间.然而在ETL工具中,E&L部分只不过是几个和数据库下载和装载相关的接口,可见E&L本身没什么可开发的因为E&L必须依赖于数据库.E&L执行的好坏主要取决于数据库的设计.所以ETL工具主要是用来处理T的.
3.如果一个ETL工具主要用于BI,不如把这个工具称为BI工具.ETL和BI完全是两个范畴在数据仓库系统里.

我所知道的几个大型(20-100TB)数据仓库所用的ETL工具是Ab Initio. 只有4-5个components of Ab Initio是用来做E&L,而剩下的近百个components并结合200多个functions(date, string, math, inquiry, error, ...)都是用来处理T的.

作者: bigtong   发布时间: 2006-02-15

嗯,确实是这样的, 我设计的那个叫做BI工具更合适一些, 多谢指正!

作者: xiangshifu   发布时间: 2006-02-15

This is a good topic because we really need some ETL and BI tools for Chinese business models or features. Please offer your suggestions!!!

作者: bigtong   发布时间: 2006-02-23

这个,感觉话题太大了, 实在不知道从哪里下手!
不过, 头头脑脑 新闻组上还有不少bi文章,有些很有价值,可以去看看
http://groups.google.com/group/ttnn

作者: xiangshifu   发布时间: 2006-02-27

联系方式:rebeccasoft1224@hotmail.com

作者: REBECCASOFT   发布时间: 2006-02-27

有没有那位做过AB Initio的,
大家多交流 my msn:xiaolihua99@hotmail.com

作者: xiaolihua99   发布时间: 2007-04-05



QUOTE:最初由 bigtong 发布
1.不应把ETL和BI工具开发在一起,因为一个大的综合性的数据仓库ETL和BI往往分别建立在各自的服务器上.
2.应用ETL工具主要是用来降低人力资源和缩短ETL开发时间.然而在ETL工具中,E&L部分只不过是几个和数据库下载和装载相关的接口,可见E&L本身没什么可开发的因为E&L必须依赖于数据库.E&L执行的好坏主要取决于数据库的设计.所以ETL工具主要是用来处理T的.
3.如果一个ETL工具主要用于BI,不如把这个工具称为BI工具.ETL和BI完全是两个范畴在数据仓库系统里.

我所知道的几个大型(20-100TB)数据仓库所用的ETL工具是Ab Initio. 只有4-5个components of Ab Initio是用来做E&L,而剩下的近百个components并结合200多个functions(date, string, math, inquiry, error, ...)都是用来处理T的.

Ab Initio?很少听到这个公司,想了解却无从下手,有没有相关资料可以共享的?这个公司一直都很神秘?产品也不知道到底如何?
我的msn:bruce_lee@btamail.net.cn

作者: bruce_lee   发布时间: 2007-07-04

嗯,写得不错。
DateStage其实是数据流的概念,Informatica不清楚。
构想不错,但目前用过的ETL工具都包含了你说的功能,有些还做得更好。

一直期望着国内有公司内做出专业的ETL工具,不光是模仿国外产品,而是有独特的创新之处。
LZ加油。

作者: esestt   发布时间: 2007-07-04

无从下手哦

作者: 33859007   发布时间: 2007-07-04



QUOTE:最初由 esestt 发布
嗯,写得不错。
DateStage其实是数据流的概念,Informatica不清楚。
构想不错,但目前用过的ETL工具都包含了你说的功能,有些还做得更好。

一直期望着国内有公司内做出专业的ETL工具,不光是模仿国外产品,而是有独特的创新之处。
LZ加油。

下面主要整理了大家比较关心的睿智ETL的热点问题:
(一)关于数据库的主键重复等情况下的数据覆盖配置
(二)如何防止因停电、宕机等意外而造成的ETL处理被漏掉
(三)如何保证ETL处理过程中的事务完整性
(四)如何应对ETL运行过程中产生的意外
(五)如何做增量处理
(六)如何跟踪数据的ETL处理过程

暂时整理这些,以后逐渐增加,欢迎各位合作伙伴贡献智慧,共同把国产的睿智ETL做好。

如有需要,请和我们联系

作者: udis_etl   发布时间: 2007-07-04



QUOTE:原帖由 udis_etl 于 2007-7-4 11:52 发表


下面主要整理了大家比较关心的睿智ETL的热点问题:
(一)关于数据库的主键重复等情况下的数据覆盖配置
(二)如何防止因停电、宕机等意外而造成的ETL处理被漏掉
(三)如何保证ETL处理过程中的事务完整性
(四)如何应对ETL运行过程中产生的意外
(五)如何做增量处理
(六)如何跟踪数据的ETL处理过程

暂时整理这些,以后逐渐增加,欢迎各位合作伙伴贡献智慧,共同把国产的睿智ETL做好。


如有需要,请和我们联系

总结的比较好啊!对于第一个问题我们是做的先删除再插入的处理~
第四个和第六个问题可以通过记录日志来监控ETL处理的意外和处理过程
偶更加关注第三个和第五个问题~大家讨论讨论哈!!!

作者: yanyun54321   发布时间: 2008-07-18

本人研发ETL 工具3年,做bi6年,想把这个工具卖出去,请有意联系qq 1009551930

[ 本帖最后由 fj2401022 于 2010-10-12 20:11 编辑 ]

作者: Hero--008   发布时间: 2008-07-20