数据挖掘工具简介
在数据挖掘技术日益发展的同时,许多数据挖掘的商业软件工具也逐渐问世。数据挖掘工具主要有两类:特定领域的数据挖掘工具和通用的数据挖掘工具。
特定领域的数据挖掘工具针对某个特定领域的问题提供解决方案。在设计算法的时候,充分考虑到数据、需求的特殊性,并作了优化。对任何领域,都可以开发特定的数据挖掘工具。例如,IBM公司的AdvancedScout系统针对NBA的数据,帮助教练优化战术组合;加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,帮助天文学家发现遥远的类星体;芬兰赫尔辛基大学计算机科学系开发的TASA,帮助预测网络通信中的警报。
特定领域的数据挖掘工具针对性比较强,只能用于一种应用;也正因为针对性强,往往采用特殊的算法,可以处理特殊的数据,实现特殊的目的,发现的知识可靠度也比较高。
通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型,一般提供六种模式。例如,IBM公司Almaden研究中心开发的QUEST系统,SGI公司开发的MineSet系统,加拿大SimonFraser大学开发的DBMiner系统。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。
下面简单介绍几种数据挖掘工具:
1.QUEST
QUEST是IBM公司Almaden研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统具有如下特点:
提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。
各种开采算法具有近似线性(O(n))计算复杂度,可适用于任意大小的数据库。
算法具有找全性,即能将所有满足指定类型的模式全部寻找出来。
为各种发现功能设计了相应的并行算法。
2.MineSet
MineSet是由SGI公司和美国Standford大学联合开发的多任务数据挖掘系统。MineSet集成多种数据挖掘算法和可视化工具,帮助用户直观地、实时地发掘、理解大量数据背后的知识。MineSet有如下特点:
MineSet以先进的可视化显示方法闻名于世。
提供多种 萃诰蚰J健0ǚ掷嗥鳌⒒毓槟J健⒐亓嬖颉⒕劾喙椤⑴卸狭兄匾取?br>
支持多种关系数据库。可以直接从Oracle、Informix、Sybase的表读取数据,也可以通过SQL命令执行查询。
多种数据转换功能。在进行挖掘前,MineSet可以去除不必要的数据项,统计、集合、分组数据,转换数据类型,构造表达式由已有数据项生成新的数据项,对数据采样等。
操作简单、支持国际字符、可以直接发布到Web。
3.DBMiner
DBMiner是加拿大SimonFraser大学开发的一个多任务数据挖掘系统,它的前身是DBLearn。该系统设计的目的是把关系数据库和数据开采集成在一起,以面向属性的多级概念为基础发现各种知识。DBMiner系统具有如下特色:
能完成多种知识的发现:泛化规则、特性规则、关联规则、分类规则、演化知识、偏离知识等。
综合了多种数据开采技术:面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法。
提出了一种交互式的类SQL语言——数据开采查询语言DMQL。
能与关系数据库平滑集成。
实现了基于客户/服务器体系结构的Unix和PC(Windows/NT)版本的系统。
Archive for 11月, 2009
选定数据仓库的数据库后,如何选用合适的数据抽取和转换工具从数据源中抽取所需要的数据,根据业务需求,对数据进行转换,包括检验、整理、加工和重新组织的功能步骤后,存放到目标数据库中,是数据仓库体系结构设计时要考虑的又一个关键问题。传统的关系型数据库管理系统支持多种数据复制模型,可以提供整个企业范围内复杂的数据库复制功能,从而满足正常情况下数据仓库对数据抽取功能的要求。这种系统支持一般的数据抽取、数据复制和一定程度上的数据重新组织、聚簇和汇总,但是如果数据源之间的数据存在逻辑上的不一致,需要额外的重新组织和转换加工,那么其功能显得不足。举例而言,传统的关系型数据库管理系统不能自动完成从主机的OLTP系统中抽取源数据,解决数据间的不一致造成的冲突,对数据进行重新组织后转换到目标数据库中的全部过程。因此,只有当源数据完全正确可靠、组织合理且没有任何不一致时,才能直接采用传统的关系型数据库管理系统中的数据复制功能完成数据抽取工作。然而在工程实践中,源数据组织不合理,包含冗余数据,数据在逻辑上冲突和数据定义冲突等问题十分常见,因此,有必要考虑采用特别的数据抽取和转换工具。 专门的数据抽取转换工具提供收集、转换和修订操作型数据的功能,并自动把转换后的数据装载到数据仓库指定的数据库中。目前,市场上已经有一些这样的工具。多个主要的传统关系型数据库管理系统厂商已经开发了其数据库产品与专门的数据抽取和转换工具之间的集成接口,以扩展其数据库产品的功能。因此,采用专用的数据抽取和转换工具十分方便。 一般说来,数据抽取和转换工具主要提供两个方面的功能。首先,这些工具都提供流行的基于视窗的图形用户接口,使得用户(数据仓库管理员)能方便的描述数据抽取和转换的需求。数据转换包括对数据进行匹配、归并、排序、创建新的数据域、选择数据子集、聚簇数据、转换操作型数据、在一个或多个数据库之间解决数据的语法、定义或格式的冲突等操作,其次,这些工具能自动创建运行在数据源所在平台上的程序,自动至此那个数据抽取、检验和重新组织等功能。用户可以为抽取程序加上转换逻辑。这些工具根据用户的输入建立有关元数据,其中描述了源数据和目标数据的格式,以及如何把源数据转换成目标数据。 综上所述,传统的关系型数据库管理系统也许不能全面满足对数据抽取和转换的功能需要,数据仓库体系结构设计人员可以根据具体的需要选择合适的数据抽取和转换工具,与数据库管理系统相结合,全面实施数据抽取和转换。
作为数据仓库的目标数据库,既可以选用传统的关系型数据库管理系统,也可以选用专用的多维数据库管理系统。对于许多企业来说,并不要求一定选用专用多维OLAP数据库,以支持数据仓库的功能。在许多情况下,可以使用传统的关系型数据库管理系统和企业熟悉的通用数据访问工具来建立数据仓库的目标数据库。目前在市场上可以获得的各个主要的关系数据库管理系统都提供单向的数据复制功能,并能迅速响应大量用户的联机并发查询访问。它们通过使用标准的SQL接口,与标准的数据库查询工具和客户机/服务器工具实现透明的接口,而且多家主要厂商的关系型数据库管理系统的最新产品还能提供复杂查询和分析功能,能作为兼顾操作型数据处理环境和数据仓库应用的数据库引擎。在某些规模非常大的决策支持应用场合下,专用的多维数据库具有一定的优势。例如,如果要分析一个大型的多维数据库,以发现市场营销的趋势。在这样应用环境下,专用多维数据库由于对多维OLAP的特殊支持,以及在数据库内部紧密集成了如数据复制等支持数据仓库的特殊功能,因而具有一定的优势。一般认为,传统的关系型数据库管理系统在设计时优化的重点是考虑为OLTP应用提供高性能的支持,因而在决策支持应用环境中往往差强人意,而在专用的多维数据库管理系统中,往往针对为联机查询提供快速响应的需求,特别设计了跨平台的查询引擎,采用入数据分片、存储过程、对循环查询的支持和针对高性能数据仓库操作扩展SQL等技术,因此能在决策支持环境下获得较高的性能。现在,市场上已经出现了支持多维体系结构的OLAP专用数据仓库工具。选择数据仓库的目标数据库是数据仓库工程的关键决策之一,它将影响数据仓库体系结构的诸多方面,因此,需要认真慎重考虑。传统的关系型数据库管理系统和专用的多维数据库管理系统各有利弊。美国著名的数据仓库工程专家Pieter R. Mimno先生认为,除非业务环境的确要求采用专用的数据库才能解决业务需求,或者需要采用专用的数据库管理系统才能达到业务所需要的性能指标,否则,从节省成本和降低复杂性的角度出发,一般情况下,应优先考虑采用传统的关系型数据库管理系统,这个中肯的意见值得我们在选择数据仓库的数据库时认真考虑。