软件部 金 涛
随着Client/Server 、Internet/Intranet技术和并行数据库的发展,数据常常以其本身的原始形式存储,导致冗余度高,可利用率低,加之各种数据分布在异构且往往不兼容的分布式环境中,使得传统数据库已不能满足要求。为了满足OLAP的实时响应和DSS的分析要求,人们希望为决策目标把可用数据存放在一种特殊的格式中,随着这个过程的发展和完善,数据仓库(DW)的概念逐渐形成。业界公认的数据仓库创始人W.H.Inmon在他的《Building the Data Warehouse》一书中给出如下定义:"DW就是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程。"DW中的存储并不是简单的存储,而是对来源于不同系统存在语义异构性的数据进行加工和集成处理后的再存储。
目前,数据仓库的数据组织方式可分为虚拟存储方式,基于关系表的存储方式和多维数据库存储方式三种。其中,虚拟存储方式存在一个致命弱点,即只有当源数据库的数据组织比较规范,没有数据不完备及冗余,同时又比较接近多维数据模型时,其多维语义才容易定义,在实际中这种方式很难建立起有效的决策服务数据支持;基于关系表组织方式的主要问题是,在多维数据模型定义好后,从数据库中抽取数据往往需要编制独立、复杂的程序,因此通用性差,很难维护;较之前两者,用的比较广泛的是多维数据库的组织方式。它是直接OLAP分析操作的数据组织形式,其具体实现方法不尽相同,数据组织采用多维数据组织结构文件进行数据存储,并有维索引及其相应的源数据管理文件与数据相对应。
数据仓库的发展趋势主要表现在三个方面:对非结构化数据的处理、实现共享数据和对信息进行打包。关于非结构化数据(主要是多媒体数据)的处理,W.H.Inmon提出,首先要把非结构化数据作为一种新的数据类型对待,并把它添加到现有的关系表格中,以便数据仓库可以存放非结构化数据;其次,处理非结构化数据需要专用的服务器。最后,处理非结构化数据需要一个新的检索引擎。随着DW的发展,未来的数据仓库还会增加很多新的改进技术,包括改进数据质量、丰富内容、改进可使用性以及在数据仓库操作质量上的提高。
(作者简介: 金涛,男,28岁,西安电子科技大学电子工程专业本科毕业,高级程序员,软件部项目经理。)