2012年第2期 福 建 电脑 101 简述数据挖掘分类方法 黄桂辉 ,郑翠萍 ,郑衍云。 (1、闽西职业技术学院福建龙岩364021 2、永定气象局福建永定364100) 【摘 要】:本文对数据挖掘、分类进行概念介绍,分类规则挖掘所应用的领域和分类一些常用算法如 决策树、K临近和粗糙集等以及衡量一个算法标准。 【关键词】:数据挖掘、分类、算法 一、概念 随着信息的发展.人们能从各个领域获取的数据 越来越多.如何有效的提起这些数据中隐藏的信息和 知识.这就产生了数据挖掘技术。数据挖掘(Data Mining1就是从大量的、不完全的、有噪声的、模糊的、随 机的原始数据中.提取隐含在其中的、人们事先不知道 的、但又是潜在有用、可信、新颖的信息和知识的过程。 它融合了多门学科.涉及人工智能、数据库技术、数理 统计、可视化、并行计算等多方面的领域。 分类就是找出一个类别的概念描述.它代表了这 类数据的整体信息.即该类的内涵描述.并用这种描述 来构造模型 一般用规则或决策树模式表示构造分类 器的过程一般分为模型训练和使用模型分类两个步 骤.在训练阶段.分析训练数据集的特点,为每个类别 产生一个对相应数据集的准确描述或模型.在测试阶 段.利用类别的描述或模型对测试数据集进行。 二、分类规则挖掘的应用领域 分类规则挖掘是数据挖掘领域最重要的研究课题 之一.很多数据挖掘的问题都可以转化为分类挖掘问 题。目前,分类挖掘算法已经具有广泛的应用,其中应 用最集中的领域包括科学研究、市场营销、金融投资、 医疗卫生、保险等。 三、分类规则挖掘的算法 分类规则挖掘是数据挖掘中在应用领域极为广泛 的重要技术之一.目前为止已提出多种算法.对于分类 规则挖掘的算法通常有以下几种:决策树方法、k一最 临近分类法、贝叶斯方法、人工神经网络方法、粗糙集 方法和关联规则分类法等 这些算法都是其主要的算 法。都有其优缺点,也有其适用的数据。还有一些其他 的算法,比如遗传算法.后向传播分类、基于概念层次 的分类、基于案例的推理、群智能算法如蚁群算法和粒 子群算法。以及各种算法的混合算法。分类算法的优劣 直接影响数据挖掘的效率与准确性 本文将对一些常用的数据挖掘中的分类算法进行 一个简述。 1.基于决策树的分类方法 决策树是由一系列判断f包括条件和结论)组成的 一种树状结构.是实例属性值约束的合取式。在其树型 结构中.每个结点表示对一个属性值的测试,分支表示 测试的结果.而树的叶结点表示类别.从决策树的根结 点到叶结点的一条路径对应着一条合取规则.整个决 策树的产生是一个自顶向下的方式.其大致过程是:首 先.通过对一批训练实例集的训练.生成决策树,其次。 利用决策树.根据属性的取值对一个未知实例集进行 分类。 决策树分类算法由Quinlan提出了著名的ID3算 法和C4.5算法.随后为了满足大规模数据的处理.又 对算法进行多次改进算法.其中SLIQ和SPRINT算法 是两个最具代表性的算法 (1)ID3算法 ID3算法的核心是:在决策树各级结点上选择属性 时,用信息增益(inf0rmation gain)作为属性的选择标 准,以使得在每一个非叶结点进行测试时.能获得关于 被测试记录最的类别信息。其具体方法是:检测所有的 属性.选择信息增益最大的属性产生决策树结点.由该 属性的不同取值建立分支.再对各分支的子集递归调 用该方法建立决策树结点的分支.直到所有子集仅包 含同一类别的数据为止。最后得到一棵决策树.它可以 用来对新的样本进行分类 (2)C4.5算法 C4.5算法在继承ID3算法的优点的基础上对其进 行了改进.用信息增益率代替信息增益来选择属性.同 时在树的构造过程中对树进行剪枝避免了过拟合问 题,还能够处理属性值缺少的样本,提高了抗噪能力。 C4.5算法产生的分类规则仍然易于理解.准确率较 高.但是在构造树的过程中.对数据集进行多次的顺序 扫描和排序.导致算法的效率降低.而且C4.5仍然不 适合大训练集数据 2.k一最临近分类法 K最近邻(k-Nearest Neighbor,KNN)分类算法。该 方法的思路是:如果一个样本在特征空间中的k个最 相似(即特征空间中最邻近1的样本中的大多数属于某 一个类别,则该样本也属于这个类别。KNN算法中,所 选择的邻居都是已经正确分类的对象 该方法在定类 决策上只依据最邻近的一个或者几个样本的类别来决 定待分样本所属的类别 KNN方法虽然从原理上也 依赖于极限定理.但在类别决策时.只与极少量的相邻 样本有关 由于KNN方法主要靠周围有限的邻近的样 102 福 建 电脑 2012年第2期 本.而不是靠判别类域的方法来确定所属类别的.因此 四.算法的评价标准 对于类域的交叉或重叠较多的待分样本集来说.KNN 分类算法的优劣直接影响数据挖掘的效率和准确 方法较其他方法更为适合 性,因而选择何种算法是至关重要 衡量一个分类算法 从其概念来看KNN算法是数据挖掘中一种较易 是否适合,通常用以下五层作为评价标准 理解的.实现比较简单的算法.因此对于类域的交叉或 (1)预测的准确率。它包括模型正确地预测新的或 重叠较多的待分样本集来说.KNN方法较其他方法更 者先前未见过的样本的类标号的能力 为适合。但当样本数据的特征属性的数量较多、样本容 (2)计算速度。就要依赖于具体的实现细 和硬件 量较大的时,分类所需的时间代价很大.分类的效果也 环境。 不好,影响实际应用,这就需要改进其算法 (3)强壮性。指正确预测含有噪声和空缺值的数据 3.粗糙集方法 集的能力。 粗糙集理论是波兰数学家PawlakZ提出的一种处 (4)可伸缩性。对于海量的数据或大型数据库.是 理不精确或不完整信息的数学工具.目前正在被广泛 否具有有效的构造模型的能力 应用于机器学习、决策分析、过程控制、模式识别和数 (5)模型描述的简洁性和可解释性。模型描述越简 据挖掘等领域. 洁、越易理解,则越受欢迎。 粗糙集理论是一种刻画不完整性和不确定性的数 五.研究展望 学工具,能有效分析和处理不精确、不一致和不完整等 目前。分类挖掘算法已经得到广泛的应用.包括信 各种不完备信息.并从中发现隐舍的知识.揭示潜在的 誉证实、医疗诊断、性能预测和选择购物.但尚未发现 规律 目前粗糙集理论已成为国内外人工智能领域中 哪一种方法对所有数据都优于其他方法 因此.各种方 个较新的学术热点.引起了越来越多科研人员的关 法应相互取长补短。来不断完善分类挖掘算法 一注。 粗糙集理论主要是针对数据的模糊性问题的而提 参考文献: 出的 粗糙集对不精确概念的描述方法是通过上下近 [1]HadJiawei,Micheline Kamber数据挖掘——概念与技-g[M】北 2001:279—334 似概念选两个精确概念来表示。一个概念(或集合1的下 京:高等教育出版社.2]ga明,张载鸿决策树学习算法ID3的研究U】.微机发展.2002 近似概念f或集合1指的是.其下近似中的元素肯定属于 [该概念,一个概念(或复合)的上近似概念f或集合)指的 (5):6—9 【3】王光宏,蒋平数据挖掘综述D1同济大学学报,2004,32(2): 是.其上近似中的元素可能属于该概念。粗糙集理论将 246—252 分类能力和知识联系在一起.使用等价关系来形式化 【4】蔡伟杰,张晓辉,朱建秋,等关联规则挖掘综述Ⅱ]计算机工程, 地表示分类.知识表示为等价关系集R与空间u的之 2001(5):31—33 间的映射关系。在分类问题中,粗糙集可以用来进行属 【5]江效尧,江伟决策树在数据挖掘中的应用研究Ⅱ]安庆师范学 2003(1):83—85 性消减.还可以求取数据中最小不变集和最小规则羹 院学报(自然科学版),[6]Y-清毅,张波,蔡庆生目前数据挖掘算法的评价Ⅱ]小型微型计 f即属性约简算法1 算机系统,2000(1):75—77 另外.粗糙集方法得到的分类规则一般是符号形 [7]肖攸安,李腊元数据挖掘与知识发现的理论方法及技术分析 式的显式规则.正是数据挖掘所追求的.因此近年来得 U】交通与计算机,2002(1):57—61 到越来越广泛的应用。粗糙集可以利用特征归约f可以 [8】罗可,林睦纲,郗东妹数据挖掘中分类算法综述[JlCt算机工 识别和删除无助于给定训练数据分类的属性1和相关 程,2005(1)3-5 分析(根据分类任务评估每个属性的贡献和意义1。提高 [9]http://blog.csdn.net/aladdina/article/details/4141 127 获取分类模式的速度.但找出可以描述给定数据集中 【10]http://www.cnblogs.com/zhaoqian/archive/201 1/01/25/ 1944717 html ’ 所有概念的最小属性子集问题是一个NP困难的. _-4--—●一.-4.----4---4.---4.-一+・ (上接第97页) 试验五:用Nero BURNING ROM虚拟有版权视频 的文件,且内容不是很大,大约在IOOMB以内,使用 DVD光盘和其他类型光盘 使用该软件虚拟DVD过程很顺利.无任何不良提 示,生成.NRG单个文件.使用虚拟光驱加载和播放均 正常。同时,使用Nero软件备份其他格式类型的光盘, 同样生成.NRG单个文件,加载使用效果均良好。 通过以上试验可以得出结论:就现阶段在众多随 RAR无损压缩格式打包,压缩效果会比较显著,且操 作简单.文件打包速度较快。同样方便硬盘备份和用户 下载解压使用。 参考文献: 【1]王卫国等编著.光盘制作入门与提高【M】.北京:清华大学出版 书光盘硬盘备份方法和备份格式的选择中.从生成单 社,2007:P18 [2】风舞科技编著.光盘刻录完全攻略【M】.北京:清华大学出版社, 个文件、方便系统管理和用户下载使用这些层面来看, 2010:P248 使用Nero格式(.NRG)或者Nero软件可以成为制作虚 【3】杨扬.图解DAEMON Tools[J].电脑迷,2004,(O7) 拟光盘镜像文件的首选 如果光盘内容主要为文档型