#12002/8/29 15:51:03
前言:
随着我国企业信息化建设步伐的不断加快,全球性市场竞争的加剧,越来越多的企业开始建设自己的数据仓库系统,希望能对历史数据进行具体而又有针对性的分析与挖掘,以期从中发现新客户和客户新的需求。
目前市场上各种数据仓库产品及其解决方案品种繁多,且大多属于“舶来品”,产品定位不同,各有特点,究竟选择哪家的产品能更适合自己的企业特点与未来发展?
本文对目前市场上九种主流数据仓库产品(Business Objects、Oracle、IBM、Sybase、Informix、NCR、Microsoft、SAS、CA)进行分析与总结,根据各公司提供的数据仓库工具的功能,将其分为三大类:单点产品、提供部分解决方案的产品、提供全面解决方案的产品。下面对其进行一一介绍,以期能够给你的选择提供一定的参考。
九种数据仓库产品及解决方案评析
===============================================
一、单点产品
这类产品仅局限于数据仓库方案实施中的一部分或某一特定功能,主要是作为第三方产品或者和其它公司的产品结合起来进行使用。比较有特色的是Business Objects。
Business Objects
所谓单点产品是指仅局限于数据仓库方案实施中的一部分或某一特定功能,主要是作为第三方产品或者和其它公司的产品结合起来进行使用。
·产品特点:
Business Objects是一个集查询、报表和OLAP技术为一身的智能决策支持系统。它使用独特的“语义层”技术和“动态微立方”技术来表示数据库中的多维数据,具有较好的查询和报表功能,提供钻取(Drill)等多维分析技术,支持多种平台(所有Windows平台及Unix平台)和多种数据库(如Oracle、informix、Sybase、 Microsoft SQL Server、DB2、CA-Ingres、Teradata、Red Brick、FoxFro、dBase、Access等),同时它还支持Internet/Intranet,可以通过WWW进行查询、报表和分析决策。
·主要工具:
Business Objects提供工具如下:
BusinessObjects 是集成查询,报表和分析功能的工具;
Webintelligence 是世界上第一个通过Web进行查询、报表和分析的决策支持工具;
Businessquery 是第一个可以在Microsoft Excel中集成企业公共数据源中数据的工具;
Businessminer 是面向主流商业用户的数据挖掘工具,可以实现深入的分析用以发掘深层次的数据之间的关系。
·应用提示:
严格意义上说,Business Objects产品只能算是一个前端工具。它是数据仓库解决方案中最常用的数据展现工具。Business Objects通过为主流的商业用户提供访问数据库和数据仓库中的信息的决策支持方案而立足业界。产品已经从初级的工作组晋级到企业级。
二、提供部分解决方案的产品
目前许多提供数据方案解决方案的供应商,并不能提供构建数据仓库的全部工具,它们还要结合第三方供应商提供的工具才能完成整个数据仓库的构建。例如:IBM、Oracle、Sybase、NCR、Informix、Microsoft等公司所提供的数据仓库产品都属于此类范畴。
1、Oracle
·产品特点:
Oracle公司的数据仓库解决方案包含了业界领先的数据库平台、开发工具和应用系统,它能够提供一系列的数据仓库工具集和服务。它具有多用户数据仓库管理能力,多种分区方式,较强的与OLAP工具的交互能力,及快速和便捷的数据移动机制等特性。
·主要工具:
Oracle公司提供了一系列的数据仓库工具:
Oracle 8I 是数据仓库的核心。
Oracle Warehouse Builder 集成数据建模、数据抽取、数据转移和装载、聚合、元数据的管理等功能。
Oracle Developer Server 使企业级的应用系统开发工具,支持面向对象和多媒体,可同时生成Client/Server及Web下的应用,具有极高的开发效率及网络伸缩性。
Oracle Discoverer 是最终用户查询、报告、深入、旋转和WEB公布工具,能够帮助用户迅速访问关系型数据仓库,从而使他们作出基于充分信息的决策。
Oracle Darwin 使基于数据仓库的数据挖掘工具,简单易用的图形化界面,提供决策树、神经网络等多种数据挖掘方法,支持海量数据的并行处理,分析结果可以和现有系统集成。
·应用提示:
Oracle的数据转移工具需手工编写SQL脚本,在处理复杂的数据转换需求时困难很多。Oracle的前端工具易用性较差,需较多地依赖第三方产品。
2、IBM
·产品特点:
IBM公司提供了一套基于可视数据仓库的商业智能(BI)解决方案,具有集成能力强,高级面向对象SQL等特性。
·主要工具:
IBM提供的Visual Warehouse(VW)是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。
Essbase/DB2 OLAP Server 支持多维数据库,它是一个(ROLAP和MOLAP)混合的HOLAP服务器,在Essbase完成数据装载后,数据存放在系统指定的DB2 UDB数据库中。
QUEST 是IBM公司Almaden研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统提供多种开采功能,开采算法可适用于任意大小的数据库。
·应用提示:
IBM公司自己并没有提供完整的数据仓库解决方案,但是它可以使用第三方的数据仓库工具。例如,查询工具使用Business Objects的Business Objects,统计分析工具使用SAS公司的SAS系统。
3、Sybase
·产品特点:
Sybase公司提供的数据仓库解决方案以能够支持多种关系型数据库而受到业界推崇。它能够同时处理几十个即席查询,其Bit_Wisc技术和垂直数据存储技术使系统只访问特定的少量数据,使得查询速度比传统的关系型数据库管理系统快100倍。
·主要工具:
Warehouse Architect是PowerDesigner中的一个设计模块,利用它数据集市或数据仓库设计者可以自动地对已有的关系数据库进行逆向工程,建立目标数据库设计、物理设计和DDL。
PowerStage、Replication Server、Carleton PASSPORT是数据抽取与转换工具。
Adaptive Server Enterprise是Sybase企业级关系数据库,它通过多线索体系、并行操作以及对系统的内存、处理器和磁盘资源使用进行控制等手段增强了资源利用率。
Adaptive Server IQ是Sybase公司专为数据仓库设计的关系数据库。
PowerDimensions、EnglishWizard、InfoMaker、PowerDynamo是数据分析与展现工具。
Warehouse Control Center、Sybase Central、Distribution Director是数据仓库的维护与管理工具。
·应用提示:
Sybase的Industry Warehouse Studio包括相应行业所需的商业智能应用软件和数据分析模型,可以针对不同行业进行业绩分析、促销活动分析、用户群分析、销售分析和收益分析等,具有数据仓库设计、元数据管理等功能、支持广泛的应用软件和报表,并提供Warehouse Studio 的设计工具、Warehouse Control Center等工具,使企业能够进一步扩展数据模型和应用系统,以适应各种商业活动的实际需要。
4、 Informix
·产品特点:
Informix公司日前发布了一个集成的、可伸缩的Fast Start数据仓库解决方案,以使用户能快速而便捷地设计开发具有可伸缩性的数据仓库或数据集市。采用ROLAP的星型模式与Informix IDS 、IDS/AD紧密集成提供预先汇总、抽样、后台查询等性能优化手段。Informix产品能够集成Microsoft IIS或Netscape Enterprise/FastTrack服务器,从而支持web访问。Informix没有提供自己的报表和数据挖掘工具,它可以集成第三方产品(例如结合Brio的前端数据分析和报表功能,结合SAS的数据挖掘功能)。informix并且向客户提供一套完整、使用的咨询服务包。
·主要工具:
MetaCube ROLAP Option为基于Informix的数据仓库或数据中心提供了全面、简便易用、可扩展和自动化的商业分析环境。
Informix InfoMover 是一套集成工具,用于从多个工作资源中抽取、转换和维护数据。
Seagate Crystal Info 是企业级报表、分析系统。
IDS以及AD/XP选项 是Informix数据仓库系统的核心,提供数据仓库数据的存储功能。
·应用提示:
采用Informix数据仓库解决方案可以使您的数据仓库系统具有高性能、高可扩展性,高开放性,可以自己进行定制等特性,同时,利用informix的专业数据仓库咨询服务,将充分保证您的数据仓库系 统建设快速、及时,保证您的数据仓库系统真正发挥作用。
5、 NCR
·产品特点:
在长期的实践过程当中,NCR形成了一套独特的数据仓库方法论和实施框架,这套理论被称为可扩展数据仓库 (Scalable Data Warehouse,简称为SDW)。NCR可扩展数据仓库的基本框架主要分成三个部分:数据装载、数据管理和信息访问。
·主要工具:
NCR的Teradata是高端数据仓库市场最有力的竞争者,主要运行在NCR WorldMark SMP硬件的Unix操作系统平台上,提供交互分析、标准报告和多维度分析。为了开拓数据集市(Data Mart)市场1998年,该公司也提供了基于Windows NT的Teradata。
·应用提示:
总的来看NCR的产品性能很好,但是,NCR产品的价格相对较高,中小企业用户难以接受。
6、 Microsoft
·主要特点:
Microsoft公司的SQL Server 2000已经在性能和可扩展性方面确立了世界领先的地位,是一套完全的数据库和数据分析解决方案,使用户可以快速创建下一代的可扩展电子商务和数据仓库解决方案。Microsoft将OLAP功能集成到Microsoft SQL Server中,提供可扩充的基于COM的OLAP接口。Microsoft Office 2000套件中的Access和Excel可以作为数据展现工具,另外SQL Server还支持第三方数据展现工具。
·主要工具:
Sql server通过一系列服务程序支持数据仓库应用。
数据传输服务DTS(Data Transformation Services)提供数据输入/输出和自动调度功能,在数据传输过程中可以完成数据的验证、清洗和转换等操作,通过与Microsoft Repository集成,共享有关的元数据;
Microsoft Repository 存储包括元数据在内的所有中间数据;
SQL Server OLAP Services 支持在线分析处理;
PivotTable Services 提供客户端OLAP数据访问功能,通过这一服务,开发人员可以用VB或其他语言开发用户前端数据展现程序,PivotTable Services还允许在本地客户机上存储数据;
MMC(Microsoft Management Console)提供日程安排、存储管理、性能监测、报警和通知的核心管理服务。
·应用提示:
数据仓库是Microsoft公司刚刚进入的一个全新领域,与该公司的传统产品差别较大。同时,Microsoft也缺少在数据仓库实施方面的咨询经验。
7、 SAS
·产品特点:
SAS公司在20世纪70年代以“统计分析”和“线性数学模型”而享誉业界,它提供的工具以统计分析见长。90年代以后,SAS公司也加入了数据仓库市场的竞争,它提供的工具(例如:智能化的客户机/服务器,多厂商构架等)可以帮助企业实现一个灵活和低风险的处理。SAS数据仓库可以支持各种硬件平台、支持不同数据库之间数据的存取,它还可对不同格式的数据进行查询、访问和分析,SAS具有与目前许多流行数据库软件和老的数据文件的接口,并可在SAS环境中建立对应外部异构数据的统一的公用数据界面。
·主要工具:
SAS提供的工具包括30多个专用模块。其中:
SAS/WA(Warehouse Administrator)是建立数据仓库的集成管理工具,包括定义主题、数据转换与汇总、更新汇总数据、元数据管理、数据集市的实现等;
SAS/MDDB 是SAS用于在线分析的多维数据库服务器;
SAS/AF 提供了屏幕设计功能和用于开发的SCL(屏幕控制语言);
SAS/ITSV(IT Service Vision)是IT服务的性能评估和管理的软件,这些IT服务包括计算机系统、网络系统、Web服务器和电话系统等。
·应用提示:
总的来说,SAS系统的优点是功能强、性能高、特长突出,缺点是系统比较复杂,软件投资较高,而且每年都需交纳License费。
三、提供全面解决方案的产品
CA
CA于1999年收购Platinum Technology公司后,得到了完整的数据仓库解决方案,它具有丰富的行业知识和经验,能够向用户提供完善的数据仓库构造咨询服务、全面的数据仓库产品系列。
·产品特点:
CA能够提供以“元数据”为核心的,结构化的,包容构造数据仓库各项技术的全面解决方案。它具有独特的“元数据”管理与应用特性,具有用三维可视化技术解析处理的功能。CA解决方案提供ODBC接口,并将数据存储在第三方关系数据库(如Oracle、Sybase、SQL Server、Informix和IBM DB2等)中,其性能虽要打一些折扣,但提高了开放性。
·主要工具:
Erwin 是数据库/数据仓库模型设计工具;
DecisionBase 是图形界面的元数据管理和数据转移工具;
InfoPump 是可编程控制的双向数据转移工具;
InfoBeacon 是OLAP服务器;
Forest&Trees DSS/EIS开发工具;
Repository 是企业环境下元数据的集中管理工具;
ProVision 是数据库性能和操作系统性能管理工具。
·应用提示:
CA提供的数据仓库解决方案能够满足不同企业的需要,能够集成完全不同的技术解决方案。适合于航空、电信、零售业、股票交易、证券等各行业的数据综合性分析处理,为其提供全面的数据仓库解决方案。
结束语
数据仓库的建设过程是复杂的,企业在制定实施数据仓库解决方案时,不能盲目的选择产品供应商。因为每个行业都有自己的运行特点,都有自己特定的业务范围,都有自己特定的历史数据。因此,在建立数据仓库时,必须紧密结合本行业的特点和本企业的业务发展需求,参考产品提供商的技术特点和他们的成功案例,认真比较后再做出恰当的选择。
数据仓库概述
随着计算机技术的飞速发展和企业界不断提出新的需求,数据仓库技术应运而生。传统的数据库技术是单一的数据资源,即数据库为中心,进行从事事务处理、批处理到决策分析等各种类型的数据处理工作。近年来,随着计算机应用,,网络计算,开始向两个不同的方向拓展,一是广度计算,一是深度计算,广度计算的含义是把计算机的应用范围尽量扩大,同时实现广泛的数据交流,互联网就是广度计算的特征,另一方面就是人们对以往计算机的简单数据操作,提出了更高的要求,希望计算机能够更多的参与数据分析与决策的制定等领域。特别是数据库处理可以大致地划分为两大类:操作型处理和分析型处理(或信息型处理)。这种分离,划清了数据处理的分析型环境与操作型环境之间的界限,从而由原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环境。
数据库系统作为数据管理手段,从它的诞生开始,就主要用于事务处理。经过数十年的发展,在这些数据库中已经保存了大量的日常业务数据。传统的业务系统一般是直接建立在这种事务处理环境上的。随着技术的进步,人们试图让计算机担任更多的工作,而数据库技术也一直力图使自己能胜任从事务处理、批处理到分析处理的各种类型的信息处理任务。后来人们逐渐认识到,在目前的计算机处理能力上,根本无法实现这种功能,而且,另一方面,事物处理和分析处理具有极不相同的性质,直接使用事务处理环境来支持决策是行不通的。
事务处理环境不适宜DSS应用的原因主要有以下五条:
(1)事务处理和分析处理的性能特性不同。
在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短;在分析处理环境中,用户的行为模式与此完全不同,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。
(2)数据集成问题。
DSS需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得月完整,得到的结果就越可靠。当前绝大多数企业内数据的真正状况是分散而非集成的。造成这种分散的原因有多种,主要有事务处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据和非结构化数据。
(3)数据动态集成问题。
静态集成的最大缺点在于,如果在数据集成后数据源中 莘⑸吮浠庑?变化将不能反映给决策者,导致决策者使用的是过时的数据。集成数据必须以一定的周期(例如24小时)进行刷新,我们称其为动态集成。显然,事务处理系统不具备动态集成的能力。
(4)历史数据问题。
事务处理一般只需要当前数据,在数据库中一般也是存储短期数据,切不同数据的保存期限也不一样,即使有一些历史数据保存下来了,也被束之高阁,未得到充分利用。但对于决策分析而言,历史数据是相当重要的,许多分析方法必须一大量的历史数据为依托。没有历史数据的详细分析,是难以把握企业的发展趋势的。DSS对数据在空间和时间的广度上都有了更高的要求,而事务处理环境难以满足这些要求。
(5)数据的综合问题。
在事务处理系统中积累了大量的细节数据,一般而言,DSS并不对这些细节数据进行分析。在分析前,往往需要对细节数据进行不同程度的综合。而事务处理系巢痪弑刚庵肿酆夏芰Γ莨娣痘砺郏庵肿酆匣雇蛭且恢质萑哂喽右韵拗啤?br>
要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。