什么是数据仓库?
数据库应用程序有两种主要类型:在线事务处理(online transactional processing,OLTP)和数据仓库,数据仓库包括在线分析处理(online analytical processing,OLAP)和数据挖掘应用程序。DB2 9 同时适用于这两种应用程序。OLTP 系统与业务智能(Business Intelligence,BI)数据仓库系统的区别是什么?区别在于访问数据的典型查询。
OLTP 系统可能是一个 Web 订购系统,可以通过 Web 执行交易(比如购买产品)。这些应用程序的特征是进行细粒度的单行查询,可能更新少量的记录。与之相反,BI 类型的查询执行大型的表扫描,因为它们尝试在大量数据中寻找数据模式。如果要求您汇总西部地区的所有销售,这就是仓库查询。
简单地说,OLTP 是简短的查询,而 BI 是对大量数据进行搜索和汇总以便进行报告。当然,实际情况不只如此,但是现在您知道这么多就够了。
包含操作性数据 (运行企业的日常交易的数据)的系统是 OLTP 系统。但是,这些系统包含企业分析师用来了解企业运营情况的信息。例如,他们可以查看某一时间段内在某个地区销售出了哪些产品。这有助于识别异常情况或对未来的销售进行规划。
但是,如果分析师直接访问操作性(OLTP)数据来进行报告和其他 BI 活动,就会有几个问题:
他们可能没有查询操作性数据库的专业经验。一般来说,有查询操作性数据库的专业经验的程序员会负责全职地维护数据库及其应用程序。
性能对于许多操作性数据库来说非常重要,比如用来处理银行事务的数据库。这些系统不能应付用户对操作性数据存储进行特殊的查询。例如,考虑在线支付帐单的情况。在选择 OK 时,处理支付常常只需要花费几秒。现在,假设一个银行分析师试图查明某个现有的顾客群花费了多少钱。这个分析师运行一个非常复杂的查询,导致您的银行事务现在要花费 30 秒才能完成!显然,这样的性能是不可接受的(这可不是分析师希望的结果)。因此,操作性数据存储和报告性数据存储(包括 OLAP 数据库)一般是分开的。
但是,在过去几年里,报告性数据存储已经倾向于变得具有伪操作性和及时性。这种存储称为操作数据存储(ODS)或活跃数据 仓库。例如,考虑电信行业的情况。ODS 在这些电信运营公司中很流行,因为他们需要尽可能快地识别出恶意欠费的情况。DB2 是少数几种同时适合操作性和报告性工作负载的数据库。
操作性数据一般没有采用最适合业务分析师使用的格式。与原始的事务数据相比,按照产品、地区和季节汇总的销售数据对于分析师要有用得多。
数据仓库 解决了这些问题。在数据仓库中可以存储信息性数据 —— 这些数据是从操作性数据中提取出来的,然后为帮助最终用户决策进行了转换和清理。例如,数据仓库工具可能会复制操作性数据库中的所有销售数据,执行计算来汇总数据,并将汇总的数据写入一个与操作性数据库分开的数据库中。最终用户可以查询这个独立的数据库(仓库),而不会影响 OLTP 数据库。
用于数据仓库的 DB2 产品
DB2 是为帮助实现业务智能化而设计的。DB2 不但是世界上可伸缩性最好的数据库,它还有一套健壮的业务智能化功能。DB2 有两个 Data Warehouse Editions(DB2 DWE),以低廉的价格提供一整套数据仓库工具。这些工具的一部分可以在 DB2 DWE 之外单独购买,其他工具只能通过 DB2 DWE 包获得。DB2 DWE 分为 Base 和 Enterprise 两个版本。
DB2 DWE 是在强大的 DB2 Enterprise 9 产品上构建的并扩展了它的功能,提高了数据仓库和分析特性的性能和易用性,帮助进行实时探察和决策的用户获得需要的信息。DB2 DWE 特性包括用于仓库管理、分析应用程序开发、OLAP、数据挖掘以及超大型数据库(VLDB)查询和资源管理的工具。
DB2 DW Enterprise Edition 中包含的产品有:
DB2 Enterprise
DB2 Data Partitioning 特性
这个特性允许在单一服务器上或者跨服务器集群对数据库进行分区。DB2 Data Partitioning 为企业提供了支持超大型数据库(这是数据仓库环境中的常见情况)所需的可伸缩性,并可以处理涉及复杂工作负载和高并行性的管理任务。这个特性可以在 DB2 DWE 产品之外单独购买。
DB2 Data Warehouse Edition Design Studio
DWE Design Studio 是通过包含和扩展一些基于 Eclipse 的 Rational Data Architect(RDA)建模功能形成的,这是一个针对 BI 解决方案的开发环境。Design Studio 将以下任务集成在一个统一的图形化环境中:物理数据建模(RDA)、DB2 基于 SQL 的仓库构造、OLAP 多维数据集建模和数据挖掘建模。
这个设计工具使设计人员能够连接源数据库和目标数据库、对物理数据模型进行反向工程、构建 DB2 基于 SQL 的数据流和挖掘流、设置 OLAP 多维数据集以及准备将应用程序部署到运行时系统上。因为它是基于 Eclipse 框架的,这个工具看起来与 DB2 Developer Workbench 相似。