上课时间 第一周 上课节次 3节 课 型 理论 课 题 绪论 教学目的 使学生初步认识数据挖掘与数据仓库 教学方法 讲授 重点、难点 数据挖掘与数据仓库的定义及其应用价值 板书或课件时间分配 教学内容 版面设计 1.1初识数据挖掘 1.1.1数据挖掘的产生 数据挖掘产生的前提是需要从多年积累的大量数据中找出隐藏在其中的、有用的信息和规律。 计算机技术和信息技术的发展使其有能力处理这样大量的数据。 1.1.2数据挖掘的应用价值 应用数据挖掘从大量数据中发现规律是面向某一应用的规律,具有具体的指导意义。 早期数据挖掘主要应用于商业领域,随着人们对数据挖掘了解的逐步深入,其应用领域逐步扩大到科学研究、市场营销、金融分析和体育比赛等领域。 1.1.3数据挖掘的发展过程
数据挖掘是20世纪80年代人工智能研究项目失败后,人工智能转入实际应用时提出的,是一个新兴的、面向商业应用的人工智能研究。 1.1.4数据挖掘的定义 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 1.2初识数据仓库 1.2.1数据仓库的产生 20世纪80年代出现了数据仓库的思想,数据仓库是面向主题的、集成的、包含历史的、不可更新的、面向决策支持的、面向全企业的、最明细的数据存储、数据快照式的数据获取。 1.2.2数据仓库的应用价值 传统数据库的处理方式和决策分析中的数据需求在决策处理的系统吸纳供应问题、决策数据需求的问题以及决策数据操作的问题方面不相称,导致企业无法使用现有的业务处理来满足决策分析的需要,因此决策分
析需要一个能够不受传统事务处理的约束、高效率处理决策分析数据的支持环境,这就是数据仓库存在的价值。 1.2.3数据仓库的发展过程 数据仓库是一种新的数据处理体系结构,是企业内部各部门业务数据和各种外部数据进行统一和综合的数据仓库,为企业决策支持系统提供所需的信息,是一种信息管理技术。 目前世界上最大数据仓库是NRC公司建立的基于其Tera data数据库拥有24TB数据量的Wal-Mart数据仓库系统。 1.2.4数据仓库的定义 数据仓库是面向主题的、集成的、不可更新的、随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。 1.2.5数据仓库与数据挖掘的关系 (1)数据仓库系统的数据可以作为数据挖掘的数据源 (2)数据挖掘的数据源不一定必须是数据仓库系统 1.3进一步理解的数据挖掘
1.3.1数据挖掘的功能 数据挖掘的目标是从数据中发现隐含的、有意义的知识,包括概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析7个方面的功能。 (1)概念描述 对某类对象的内涵进行描述,并概括这类对象的有关特征。其中,特征性描述用于描述某类对象的共同特征,区别性描述用于描述不同类对象之间的区别。 (2)关联分析 关联分析的目的在于找出数据中隐藏的关联网。 (3)分类与预测 所谓分类就是依照分析对象的属性分门别类、加以定义、建立类组,其关键是确定对数据按照什么标准或什么规则进行分类。 所谓预测就是利用历史数据就爱能力模型,再运用最新数据作为输入值,获得未来变化的趋势或者评估给定样本可能具有的属性值或值的范围。 (4)聚类分析
又称为无指导的学习,其目的在于客观地按照被处理对象的特征分类,将有相同特征的对象归为一类。 (5)趋势分析 又称为时间序列分析,是从相当长的时间的发展中发现规律和趋势,是时序数据挖掘最基本的内容。 (6)孤立点分析 又称为孤立点挖掘,是指数据库中包含的一些与数据的一般行为或模型不一致的数据。 (7)偏差分析 又称为比较分析,是对差异和极端特例的描述,用于揭示事物偏离常规的异常现象。 1.3.2数据挖掘常用技术 数据挖掘算法是数据挖掘技术的一部分,数据挖掘技术用于执行数据挖掘功能,一个特定的数据挖掘功能只适用于给定的领域。 (1) 聚类检测方法 是最早的数据挖掘技术之一,在聚类检测技术中,不是搜寻预先分类的数据,也没有自变量和因变量之分,因此也称为无指导的知识发现或无监督学习。
聚类生成的组叫簇,是数据对象的集合。 聚类检测的过程就是使同一个簇内的任意两个对象之间具有较高的相似性,不同簇的两个对象之间具有较高的向异性。 用于数据挖掘的聚类检测方法有:划分的方法、层次的方法、基于密度的方法、基于网络的方法和基于模型的方法等。 (2) 决策树方法 主要应用于分类和预测,提供了一种展示类似在什么条件下会得到什么值这类规则的方法。一个决策树表示一系列的问题,每个问题决定了继续下去的问题会是什么。 决策树方法适合于处理费数值型数据。 (3)人工神经网络方法 人工神经网络方法主要用于分类、聚类、特征挖掘、预测等方面。它通过向一个训练数据集学习和应用所学知识,生成分类和预测的模式。对于数据是不定性的和没有任何明显模式的情况,应用人工神经网络比较有效。 人工神经网络方法主要有:前馈式网络、反馈式网络和自组织网络。
(4)遗传算法 该算法模仿人工选择培育良种的思路,从一个初始规则集合开始,迭代地通过交换对象成员产生群体,评估并择优复制,优胜劣汰逐代积累计算,最终得到最有价值的知识集。 繁殖:从一个旧种群选择出生命力强的个体产生新种群的过程。 交叉:选择两个不同个体的部分进行交换,形成新个体的过程。 变异:对某些个体的某些基因进行变异。 (5)关联分析方法 包含关联发现(能够系统地、有效地得到关联规则,找出关联组合,在关联组合中,如果出现某一项,另一项也会出现)、序列模式发现(找到时间上连续的事件)和类似的时序发现模式(先找到一个事件顺序,再推测出其它类似的事件顺序)。 (6)基于记忆的推理算法 即使用一个模型的已知实例来预测未知的实例。 1.3.3数据挖掘的过程
1.4数据挖掘应用实例 某些具有特定的应用问题和应用背景的领域是最能体现数据挖掘作用的应用领域。 1.5数据挖掘的发展趋势 1.5.1数据挖掘研究方向 (1)专门用于知识发现的形式化和标准化的数据挖掘语言。 (2)数据挖掘过程中的便于用户理解的及人机交互的可视化方法。 (3)网络环境下的数据挖掘技术。 (4)加强对各种非结构化数据的挖掘。 1.5.2数据挖掘应用的热点 (1)网站的数据挖掘 (2)生物信息或基因的数据挖掘 (3)文本的数据挖掘 本章节的重点是数据挖掘与数据仓库的定 教学后记 义,难点是它们的应用价值,学生对它们的应用领域及案例相对较为感兴趣。
上课时间 第二周 上课节次 3节 课 型 理论 课 题 数据仓库的定义、结构、说明及其清理 教学目的 使学生初步了解数据仓库 教学方法 讲授 重点、难点 数据仓库的定义及其结构 板书或课件时间分配 教学内容 版面设计 2.1数据仓库的定义 数据仓库是一个环境,而不是一件产品,提供用户用于决策支持的当前和历史的数据,这些数据时在传统的操作型数据库中很难或不能得到的。 数据仓库的4个基本特征: (1)数据仓库的数据是面向主题的。 (2)数据仓库的数据是集成的。 (3)数据仓库的数据是不可更新的。 (4)数据仓库的数据时随时间不断变化的。 2.1.1数据仓库的数据是面向主题的 面向主题性表示数据仓库中数据组织的基本原则,数据仓库中的所有数据都是围绕着某一主题组织和展开的。
(1)主题的概念 主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象,在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。 面向主题的数据组织方式,就是在较高 上分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。 (2)主题的划分原则 在划分主题是,必须保证每个主题的性和完备性。 主题确定后需要确定主题应该包含的数据。 在主题的数据组织中应该注意,不同的主题之间可能出现相互重叠的信息,这种主题间的重叠是逻辑的,而不是同一数据内容的物理存储重复。 2.1.2数据仓库的数据是集成的 在数据进入数据仓库之前,必然要经过转换、统一与综合,这是数据仓库建设中最关键也是最复杂的一步。 2.1.3数据仓库的数据是不可更新的
数据仓库的数据主要供企业决策分析之用,不是用来进行日常操作的,一般只保存过去的数据,而不随源数据的变化而实时更新,数据仓库中的数据一般不再修改。 由于数据仓库的数据是不可更新的,因此也称其具有非易失性。这种不可更新性可以支持不同的用户在不同的时间查询相同的问题时获得相同的结果。 2.1.4数据仓库的数据是随时间不断变化的 数据仓库的数据随时间的不断变化主要体现在数据仓库随时间变化不断增加新的数据内容。 数据仓库的数据初装完成后,再向数据仓库输入数据的过程称为数据追加。 数据追加的内容仅限于上次向数据仓库输入后元数据库中变化了的数据。 2.2数据仓库的结构 数据仓库中的数据可分为多个级别,不同综合级别称之为“粒度”。 2.2.1元数据 元数据是“关于数据的数据”,可对数据仓库中的各种数据进行详细的描述与说明,说
明每个数据的上下文关系,使每个数据具有符合现实的真实含义,使最终用户了解这些数据之间的关系。 (1)元数据在数据仓库中的作用 ①为决策支持系统分析员和高层决策人员服务提供便利。 ②解决面向应用的操作型环境和数据仓库的复杂关系。 (2)元数据的使用 ①元数据在数据仓库开发期间的使用。 ②元数据在数据源抽取中的作用。 ③元数据在数据清理与综合中的使用。 (3)元数据的分类 按元数据的类型可分为关于基本数据的元数据、用于数据处理的元数据和关于企业组织结构的元数据。 按抽象级别可分为概念级、逻辑级和物理级的元数据。 按元数据承担的任务可分为静态元数据和动态元数据。 从用户的角度对元数据分类没有一个统一的标准,往往与元数据的使用目的有关,一
般可分为技术元数据和业务元数据两类。 (4)元数据的内容 ①数据源的元数据 ②数据模型的元数据 ③数据准备区元数据 ④数据库管理系统元数据 ⑤前台元数据 2.2.2粒度的概念 粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别,它影响存放在数据仓库中的数据量得大小,同时影响数据仓库所能回答查询问题的细节程度。 粒度可分为按时间段综合数据的粒度和按采样率高低划分的样本数据库两种形式。 (1)按时间段综合数据的粒度 按时间段综合数据的粒度是对数据仓库中的数据的综合程度高低的一个度量,一般是按照不同的时间段来综合数据。它及影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。 为了适应不同查询的需要,数据仓库中经常建立多重粒度。
(2)样本数据库 样本数据库的粒度级别不是根据综合程度的不同来划分的,而是根据采样率的高低来划分的。采样粒度不同的样本数据库可以具有相同的综合级别。 样本数据库的抽取可以按照数据的重要程度不同来进行,样本数据库是建立在不同时点上的粒度。 2.2.3分割问题 分割也是数据仓库中的一个重要概念,它是指将数据分散到各自的物理单元中去,以便能分别处理,以提高数据处理效率。 数据分割后俄数据单元称为分片。 (1)分割的优越性 ①容易重构 ②容易重组 ③自由索引 ④顺序扫描 ⑤容易恢复 ⑥容易监控 (2)数据分割的标准 数据分割的标准石油开发人员选择的(有时
间、商业领域、地理位置、组织单位等),在数据仓库中,按时间总是必需的。 (3)分割的层次 一般分为系统层(由数据库管理系统和操作系统完成分割)和应用层(由应用程序完成分割)两层。 2.2.4数据仓库中的数据组织形式 (1)简单堆积结构 这是数据仓库中最常用、最简单的数据组织形式,它从面向应用的数据库中每天的数据中提取出来,然后按照相应的主题集成为数据仓库中的记录。 (2)轮转综合结构 该结构将数据存储单位分为日、周、月、年几个级别,结构简捷,数据量比简单堆积结构大大减少,但损失了数据细节。 (3)简单直接结构 类似于简单堆积文件,但不是每天集成后放入数据仓库,而是间隔一定时间间隔。 简单直接结构也可以认为是按一定的时间间隔对数据库的采样。 (4)连续结构
通过两个或更多的连续的简单直接结构数据组织形式的文件,可以生成连续结构数据组织形式的文件。 对于各种文件结构的最终实现,关系数据库中仍然要依靠“表”的结构。 2.3数据仓库的说明 数据仓库通过标准手册进行说明,标准手册中包含: ➢ 描述什么是数据仓库 ➢ 描述对数据仓库输送数据的源系统 ➢ 如何使用数据仓库 ➢ 有了问题如何获得帮助 ➢ 谁负责什么 ➢ 数据仓库的迁入计划 ➢ 数据仓库数据如何与面向应用的数据相关联 ➢ 如何为决策分析系统使用数据仓库 ➢ 什么时候不向数据仓库中加数据 ➢ 数据仓库中没有什么类型的数据 ➢ 可利用的元数据的说明 ➢ 数据仓库的记录系统是什么 2.4数据仓库的清理
数据从数据仓库中“清除”有以下几种形式: (1)数据加入到失去原有细节的一个轮转综合结构数据组织形式的文件中。 (2)数据从高性能的介质转移到大容量介质上。 (3)数据从数据仓库系统中真正清除。 (4)数据从偶给你体系结构的一个层次转移到另一个层次。 本章节的重点是数据仓库的定义,难点是数 教学后记 据仓库的结构,学生掌握情况一般,还需课后多查看相关资料。
上课时间 第三周 上课节次 3节 课 型 理论 课 题 数据仓库系统的设计、数据的访问及应用 教学目的 使学生学会设计数据仓库系统,并访问其数据 教学方法 讲授 重点、难点 数据仓库系统的设计与素具仓库数据的访问 板书或课件时间分配 教学内容 版面设计 2.5数据仓库系统的设计 2.5.1数据仓库系统设计方案 数据仓库是一个面向数据分析处理的数据环境,数据仓库的数据是面向主体的、集成的、不可更新的、随时间不断变化的。 (1)数据仓库系统设计与数据库系统设计的不同 主要表现在面向的处理类型步步、面向的需求不同、系统设计的目标不同、两者的数据来源或系统的输入不同以及设计的方法和步骤不同等几个方面。 (2)声明周期发SDLC SDLC有的手机需求和分析需求的阶段,一旦进入到构建数据库阶段,系统的需
求就基本不变了。 (3)螺旋式卡法方法CLDS CLDS方法没有的收集需求和分析需求的阶段,而是将对需求的过程贯穿整个设计的过程。 (4)数据驱动 创建数据仓库的工作实在原有的数据库的数据基础上进行的,这种从已有数据出发的数据仓库设计方法被称为“数据驱动”的系统设计方案。 其基本思路是: ①利用以前所取得的工作成果 ②不再是面向应用 ③利用数据模型 数据仓库的系统设计是一个动态的返回和循环的过程。 2.5.2数据仓库设计的三级数据模型 数据模型是对现实世界进行抽象的工具,抽象的程度不同,性阿城的抽象级别层次就不同。 ①数据仓库的数据模型中不包含纯操作型的数据。
②数据仓库的数据模型扩充了码结构,增加了时间属性作为码的一部分。 ③数据仓库的数据模型中增加了一些导出数据。 在数据仓库设计中存在着概念级数据模型、逻辑数据模型和物理数据模型三级。 (1)概念数据模型 是主观与客观之间的桥梁,最常用的表示方法是实体——联系(E-R)法。 (2)逻辑数据模型 数据仓库中采用的路基数据模型就是关系模型,无论主题还是主题之间的联系都用关系来表示。 数据仓库的逻辑数据模型描述了数据仓库的主题的逻辑实现,即每个主题所对应的关系表的关系模式的定义。 (3)物理数据模型 数据仓库的物理数据模型就是逻辑数据模型在数据仓库中的实现。 (4)高层数据模型、中间层数据模型和低层数据模型 高层数据模型对数据抽象程度最大,使用的
主要表达工具是E-R图。 高层数据模型建好后,对高层数据模型中标识的每个主要的主题域或实体,都要建一个中间层数据模型,中间层数据模型有联接数据组(主要用于标识本主题域与其它主题域之间的联系)、基本数据组(基本不会发生变化的数据项)、二次数据组(基本不变化,但又有变化的可能的数据项)和类型数据组(经常变化的数据项)四种基本构造。 底层数据模型就是物理数据模型。 2.5.3提高数据仓库的性能 建立数据仓库过程中一个重要的问题就是如何提高系统的性能,提高系统性能主要就是提高系统的物理I/O性能。 (1)粒度划分 一般要将数据划分为:详细数据、轻度综合、高度综合三级或更多级粒度,不同粒度级别的数据用于不同类型的分析处理。 划分粒度步骤: ①估算数据仓库中数据的行数和所需占用的空间大小。 ②根据估算出的数据行数和所需占用的空
间大小,决定是否要划分粒度及如何划分粒度。 (2)分割 ①数据仓库中的库中的数据分割与数据库中的数据分片概念相近。 ②按时间进行数据分割是最普遍的。 ③分割的标准一般要考虑数据量、数据分析处理的实际情况、简单易行以及粒度划分侧率等几方面因素。 (3)其它设计问题 ①合并表 ②建立时间序列 将数据严格按处理顺序存放到一个或几个连续的物理块中,即所谓的建立数据序列。建立时间序列可以在同一次调页中处理更多的记录,将物理I/O的次数降到最低。 ③引入冗余 引入冗余的目的是减少连接操作,从而减少访问的代价,但引入冗余后需要注意维护数据各个副本间的一致性。 ④表的物理分割 ⑤生成导出数据
⑥建立广义索引 2.5.4数据仓库设计步骤 数据仓库系统开发时一个经过不断循环、反馈而使系统不断增长与完善的过程,其设计大体上可分为以下几个步骤: (1)概念模型设计 (2)技术准备工作 (3)逻辑模型设计 (4)物理模型设计 (5)数据仓库生成 (6)数据仓库运行与维护 2.6数据仓库数据的访问 在一些特殊情况下,有可能会出现数据从仓库流向操作性环境的这种数据“回流”现象,当出现“回流”情况时,对数据仓库数据的访问有数据仓库数据的直接访问和间接访问两种方式。 2.6.1数据仓库数据的直接访问 所谓直接访问即操作环境下的一个传统应
用向属于数据仓库的数据提出访问请求,在数据仓库环境中查询到所需的数据,再传输到操作型环境中。 2.6.2数据仓库数据的接按揭访问 所谓间接访问即利用程序对数据仓库的数据进行定期的分析,将分析的结果产生新的文件,用来满足操作型应用的需要。 数据仓库数据的访问大多采用间接访问方式。 2.7数据仓库的应用 主要应用领域: (1)全局应用 主要用于企业在发展过程中形成的多种应用的系统,或者用于一些大公司地理位置上分布的多个子公司或部门。 (2)复杂应用 需要将数据分为操作环境数据和分析环境数据量大部分。 本章节重点是数据仓库系统的设计和数据 仓库数据的访问,难点是数据仓库的应用。教学后记 学生并未真正建立和使用过数据仓库,对其设计和使用都还只是停留在理论阶段。
上课时间 第四周 上课节次 3节 课 型 理论 课 题 数据预处理的目的以及数据的清理、集成和变换 教学目的 使学生掌握数据的基本处理方法 教学方法 讲授 重点、难点 数据的清理、集成和变换 板书或课件时间分配 教学内容 版面设计 3.1数据预处理的目的 3.1.1原始数据中存在的问题 原始数据主要存在以下几个方面问题: ①不一致 ②重复 ③不完整 ④含噪声 噪声是指一个测量变量中的随机错误或偏离期望的孤立点值。 ⑤维度高 一个完整的数据挖掘系统应该提供数据预处理模块,此模块的功能是形成供数据挖掘算法使用的目标数据知识基。 3.1.2 数据预处理的方法和功能
数据预处理包含数据清洗、数据集成、数据变换和数据归约击中方法。 (1)数据清洗过程即填充空缺值,识别孤立点,去掉原始数据中的噪声和无关数据。 (2)数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储中。 数据集成涉及多个数据源的数据匹配、数值冲突和数据冗余的问题。 (3)数据变换是把原始数据转换成为适合数据挖掘的形式,包括对数据的汇总和聚集、概化、规范化,还可能需要进行属性的构造。 (4)数据归约技术用于产生数据的规约表示,是的数据的范围减小,但更适合于数据挖掘算法的需要,并能够得到和原始数据相同的分析结果。 3.2数据清理 从数据中选取合适的属性作为数据挖掘属性的过程有以下几个参考原则 ①尽可能赋予属性名和属性值明确的含义。 ②统一多数据源的属性值编码。 ③去除唯一属性。
④去除重复属性。 ⑤去除可忽略字段。 ⑥合理选择关联字段 3.2.1处理空缺值 处理空缺值有以下几种方法: ①忽略该记录 ②去掉属性 ③手工填写空缺值 ④使用默认值 ⑤使用属性平均值 ⑥使用同类样本平均值 ⑦预测最可能的值 3.2.2噪声数据的处理 在测量一个变量时可能产生一些误差或者错误,是的测量值相对于真实值有一定的偏差,这种偏差成为噪声。 去除噪声的方法有: (1)分箱 分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。 所谓“箱子”,实际上就是按照属性值划分的子区间。
在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。 注意:分箱之前血药对记录按照目标属性值的大小进行排序。 分箱方法有统一权重(等深分箱法)、统一区间(等宽分箱法)、最小熵和用户自定义区间等。 分箱的目的是对各个箱子中的数据进行处理,所以完成分箱之后,要考虑的就是选择一种方法对数据进行平滑,使得数据尽可能接近。 常使用的数据平滑方法有按平均值怕你规划、按边界值平滑和按中值平滑三种。 (2)聚类 聚类是将物理的或抽象对象的集合分组为由类似的对象组成的多个类的过程。 聚类的结果是生成一组由数据对象组成的集合,称为簇。 同一簇中的所有对象具有相似性,并且一个对象与同簇中任何一个对象之间的相似性一定强于它于其它簇中任何一个对象之间
的相似性。 同一簇中的对象用相同的特征来标识,落在簇之外的值称为孤立点,这些孤立点被视为噪声。 聚类的质心即聚类中的平均点。 (3)回归 回归试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。 线性回归也称为简单回归,是最简单的回归形式,用直线建模,将一个变量看作另一个变量的线性函数。 多元回归是线性回归的扩展,也成为复回归,有两个火两个以上自变量。 3.3数据集成和变换 数据挖掘所使用的数据通常来自于多个数据存储,所以经常需要把多个数据存储合并起来,这个过程称为数据集成。而为了是数据符合算法和数据挖掘目标的需要,还学需要对数据进行变换。 3.3.1数据集成
数据集成是将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中,解决语义模型问题,主要工作涉及到数据的冲突问题和不一致数据的处理问题。 在数据集成过程中,通常需要考虑模式匹配、数据冗余和数据值冲突问题。 3.3.2数据变换 (1)平滑 平滑即去除噪声,还可以将连续的数据离散化,增加粒度。 数据平滑的方法包括分箱、聚类、回归等。 (2)聚集 聚集即对数据进行汇总。 聚集常用来构造数据立方体。 (3)数据概化 从原始数据集得到的数据包含一些低层概念的描述,而在数据挖掘中有时并不需要细化到这些概念,可以用它的高层概念替换,所以需要对数据进行概化。 (4)规范化 将数据按比例缩放,使之落入一个特定的区
域,称为规范化。 常用的规范化方法有最小—最大规范化、零—均值规范化和小叔定标规范化等。 (5)属性构造 为了提高数据挖掘的精度或者使数据结构更容易理解,有时会根据已有的属性构造新的属性添加到数据挖掘集中,这种方法对分类算法有帮助。 本章节重点是数据的基本处理方法,难点是 教学后记 处理方法的应用。学生对处理方法的理论尚能掌握,但实际应用方面没有经验。
上课时间 第五周 上课节次 3节 课 型 理论 课 题 数据归约 教学目的 是学生掌握各种数据归约的方法 教学方法 讲授 重点、难点 各种数据归约的算法及其实现 板书或课件时间分配 3.4数据归约 数据归约用于从源数据集中得到数据集的归约表示。 数据归约的目的是为了获得比原始数据小得多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。 3.4.1数据归约的方法 (1)数据立方体聚集 即把聚集的方法用于数据立方体。 (2)维归约 即检测并删除不相关、弱相关或冗余属性。 (3)数据压缩 即选择正确的编码压缩数据集。 教学内容 版面设计
(4)数值压缩 即用较少的数据表示数据或采用较短的数据单位、数据模型代表数据。 (5)离散化和概念分层 使连续的数据离散化,就是用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。 3.4.2数据立方体聚集 数据立方体是数据的建模和表示,由维和事实组成。 维就是涉及到的属性,而事实是一个具体的数据。 3.4.3维归约 在数据立方体的概念基础上,把属性称为维,维归约即去掉不相关的属性,减少数据挖掘处理的数据量。 属性子集选择的基本方法: ①逐步向前选择 ②逐步向后删除 ③向前选择和向后删除结合 ④判定树归纳
⑤基于统计分析的归约 3.4.4数据压缩 数据压缩就是用数据编码或者变换,得到原始数据压缩表示。 数据压缩可以减少数据存储而不影响数据挖掘的结果。 数据压缩的方法分为无损压缩和有损压缩两种。 3.4.5数值归约 数值归约就是通过某种方法,选择较少的数据来替代原数据,减少数据量。 (1)直方图 直方图技术是一种常用的归约技术,它使用分箱方法对数据进行近似。 每个箱代表一个区域范围内的值,箱的宽度代表值域范围,箱的高度代表这个范围内的值的个数,即频率。 每个箱可以代表一个属性的值和频率,称为一维直方图,也可以代表两个以上属性的值和频率,称为直方图。 若每个箱只表示一个属性值,则成为单桶。 (2)聚类
用数据的聚类来代表实际数据,当数据中存在聚类特征时,即数据可以形成有限个聚类时,此方法可以很好的归约数据。 (3)抽样 抽样是对记录进行选取,用较小的数据样本集表示大的数据集。 几种常用的抽样方法: ①不放回简单随机抽样 ②放回简单随机抽样 ③聚类抽样 ④分层抽样 (4)线性回归和非线性回归 线性回归和非线性回归方法用数据模型近似数据,它们并不保存实际数据,而是产生一个数据模型,只保存数据模型的参数,所以也称为参数方法。 此类方法只对数值型数据有效。 3.4.6离散化与概念分层 离散化就是为了适应算法或者存储的需要,用有限数量的离散数据替代连续数据。 在数据集上递归的使用某种离散化技术就形成了数据集俄概念分层。
(1)数值数据的离散化与概念分层 数值数据的概念分层可以通过数据分析自动产生,它们能够无干预的完成对属性的概念分层,但是这些方法划分出来的层并不考虑边界值是否直观或自然。 (2)分类数据的概念分层 分类数据是指分类属性值所包含的数据。 所谓分类属性,就是那先具有有限个取值的属性。 典型的用于分类数据概念分层的方法有: ①由用户或者专家在模式级显式地说明数据的包含关系。 ②通过显式数据分组说明分层结构的一部分。 ③根据属性值的个数自动产生分层。 ④根据数据语义产生分层。 本章节重点是各种数据归约算法的掌握,难 教学后记 点是各种算法的实现。学生对算法的掌握尚可,但对算法的实现还学要多加练习。
上课时间 第六周 上课节次 3节 课 型 理论 课 题 数据挖掘发现知识的类型(一) 教学目的 使学生掌握各种知识的概念及发现方法 教学方法 讲授 重点、难点 广义知识、关联知识和分类知识 板书或课件时间分配 4.1广义知识 4.1.1广义知识的概念 广义知识是指类别特征的概括性描述知识,即对大量数据的归纳、概括,提炼出带有普遍性的、概括性的描述统计知识。 4.1.2广义知识的发现方法 (1)数据立方体 也称为“数据库”、“实现视图”等,实质上就是一个数组,是维和变量的组合表示。 数据立方体的基本思想是实现某些常用的代价较高的聚集函数的计算,并将这些实现视图储存在数据库中。 (2)面向属性的归约 教学内容 版面设计
也称为维规约。 规约即经过相互协议规定下来的共同遵守的条款。 面向属性的规约即关于属性的经过相互协议规定下来的共同遵守的条款。 规定这些条款的目的是减少属性个数,从而减少数据量。 减少数据量的方法可以从以下几方面考虑: ①将无用的、冗余的、错误的或影响小的属性直接删除,减少属性个数。 ②增大数据统计的粒度,提升概念树。 ③对属性设置控制阈值,过滤一部分数据量。 ④使用聚集函数。 4.2关联知识 4.2.1关联知识的概念 关联知识是反映一个事件和其它事件之间以来或相互关联的知识。 4.2.2关联知识的发现方法 (1)Apriori算法 关联规则的发现可分为两步: ①迭代识别所有的频繁项目集,要求频繁项
目集的支持度不低于用户设定的最低值。 ②从频繁项目集中构造可惜度不低于用户设定的最低值的规则。 识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。 (2)关联及关联规则 数据关联是数据库中存在的一类重要的可被发现的知识。 关联分析的目的是找出数据库中隐藏的关联网。 关联可分为简单关联、时序关联、因果关联。 关联规则从本质上讲是条件概率。 在关联规则的挖掘中要注意: ①充分理解数据 ②目标明确 ③数据准备工作要做好 ④选取恰当的最小支持度和最小可信度 ⑤很好地理解关联规则 如何合理地运用得出的关联关系,完全靠决策者的正确理解和决策。 4.3分类知识 4.3.1分类知识的概念
分类知识是反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。 4.3.2分类知识的发现方法 所谓分类,就是把给定的数据划分到一定的类别中。 分类的关键是对数据按照什么标准或什么规定进行分类。 分类的过程: ①在已知训练集上,根据属性特征,为每一种类别找到一个合理的描述或模型,及分类规则。 ②根据规则对新数据进行分类。 对于分类规则的挖掘通常有决策树方法、贝叶斯方法、人工神经网络方法、粗糙集方法和遗传算法等。 本章节重点是各种知识的概念,难点是各种 知识的发现方法。学生能够掌握概念和各知教学后记 识理论上的发现方法,但实际应用方面的经验比较匮乏。
上课时间 第七周 上课节次 3节 课 型 理论 课 题 数据挖掘发现知识的类型(二) 教学目的 使学生掌握各种知识的概念及发现方法 教学方法 讲授 重点、难点 预测型知识和偏差型知识 板书或课件时间分配 4.4预测型知识 4.4.1预测型知识的概念 预测型知识是根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。 4.4.2预测型知识的发现方法 目前,时间序列预测方法有经典的统计方法、神经网络和机器学习等 对于连续型数值的预测可以用称为回归的统计技术进行建模,回归分析的目的是找到一个联系输入变量和输出变量的最优模型。 回归方法包括:线性回归、多元回归、非线性回归等。 4.5偏差型知识 教学内容 版面设计
4.5.1偏差型知识的概念 偏差型知识是对差异和极端特例的描述,解释事物偏离常规的异常现象。 偏差即异常,在数据挖掘中也称其为“孤立点”。 孤立点探测和分析是数据挖掘中的一个很特殊的任务,被称为孤立点挖掘。 4.5.2偏差型知识的发现方法 偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。 最常用的偏差型知识的发现方法是异常探测法,异常探测法对异常的定义是:异常是既不属于聚类也不属于背景噪声的点。 具体的异常探测算法有: ①基于统计的方法 ②基于距离的方法 ③基于偏离的方法 本章节重点是各种知识的概念,难点是各种 知识的发现方法。学生能够掌握概念和各知教学后记 识理论上的发现方法,但实际应用方面的经验比较匮乏。
上课时间 第八周 上课节次 3节 课 型 理论 课 题 神经网络算法 教学目的 使学生了解并掌握神经网络算法 教学方法 讲授 重点、难点 神经网络的概念与基于神经网络的算法 板书或课件时间分配 教学内容 版面设计 5.1神经网络算法 神经网络的研究的历史阶段: ①1943—1969年的初创期 ②1970—1986年的过渡期 ③1987—今的发展期 5.1.1神经网络的概念 (1)人工神经元原理 神经元由细胞体、树突和轴突三部分组成,是一种根须状的蔓延物,是组成人脑的最基本单元。 传递神经元冲动的地方称为突触。 从信息处理功能看,神经元具有如下性质: ①多输入,单输出 ②突触兼有兴奋和抑制两种性能
③可时间加权和空间加权 ④可产生脉冲 ⑤脉冲进行传递 ⑥非线性 (2)人工神经网络 人工神经网络是一个并行和分布式的信息处理网络结构,严格来说,神经网络就是一个具有如下性质的有向图: ①对于每个节点有一个状态变量Vj ②节点j到节点i有一个连接权系数Tij ③对于每个节点有一个阈值j ④对于每个节点定义一个变换函数f(x) 人工神经网络是生物神经网络的一种模拟和近似,它主要从两个方面进行模拟:一种是从结构和实现机理方面进行模拟;另一种是从功能上加以模拟,即尽量使得人工神经网络具有生物神经网络的某些功能特性。 (3)MP模型与Hebb规则 ①MP模型 每个神经元的状态Si(i=1,2,…,n)只取0或1,分别代表抑制与兴奋,每个神经元的状态由MP方程决定:
Sif(ijSjj) j②Hebb规则 若i与j两种神经元之间同时处于兴奋状态,则它们之间的连接应加强: ijSiSj(0) 5.1.2神经网络的计算机模型 (1)反向传播模型(BP模型) BP模型是1985年由Rumelhart等人于提出的,该模型具有分层结构,最下层是输入层,中间是隐含层,最上面一层是输出层。 信息从输入层一次向上传递,直至输出层。 BP网络的主要优点有: ①只要有足够多的隐含层和隐节点,BP网络可以逼近任意的非线性映射关系。 ②BP网络的学习算法术语全局逼近的方法,因而具有良好的泛化能力。 BP网络的主要缺点有: ①收敛速度慢 ②局部极值 ③难以确定隐含层和隐节点的个数 BP网络能够实现输入输出的非线性映射关系,但并不依赖于模型。
由于连接权的个数很多,个别神经元的损坏只对输入输出关系有较小的影响,因此BP网络具有较好的容错性。 BP网络由于具有很好地逼近非线性映射的能力,因而它可以应用于信息处理、图像识别、数据挖掘等多个方面。 (2)反馈式Hopfield模型 J.Hopfield于1982年提出了离散型反馈神经网络DHNN,于1984年又提出了连续型反馈神经网络CHNN。 ①离散型Hopfield神经网络(DHNN) 离散型神经网络是一个单层的神经网络,每个节点之间互相连接。 DHNN有同步和异步两种工作方式,同步方式在任何时刻t,所有神经元都更新,网络收敛于一个稳定点或一个周期解;异步方式在任一时刻t只有一个神经元状态更新,其余神经元状态不变,异步方式使能量函数单调下降,保证了网络稳定性和收敛性。 ②连续型Hopfield网络模型(CHNN) Hopfield连续型网络结构与电子电路直接对应,主要用于优化计算。
5.1.3定义神经网络拓扑 神经网络的拓扑结构在一定程度上影响网络的分类能力。 隐层单元数与问题的要求、输入输出单元的多少都有直接关系。 5.1.4基于神经网络的算法 神经网络的工作过程可分为两个阶段:第一阶段是对神经网络进行训练(学习期),在学习期主要是利用给定的数据或只是来调整网络的各参数;第二阶段(工作期)是神经网络利用学习期所学到的知识,对网络输入作出正确的响应。 (1)神经网络的学习方式 神经网络有监督学习、分监督学习和再励学习三种学习方式。 (2)神经网络的学习方法 ①误差纠正算法 误差纠正学习的最终目的是使某一基于误差信号(ek(n)=dk(n)-yk(n))的目标函数达到最小,以使网络中每一输出单元的实际输出在某种统计意义上逼近应有输出。 ek(n)表示误差信号,yk(n)为输入是xk(n)时
的神经元k在n时刻的实际输出,dk(n)表示应有的输出。 ②Hebb学习 Hebb学习规则可归纳为:当某一连接两端的神经元同步激发或同步抑制时该来凝结强度应增强,反之减弱。 ③竞争学习 在竞争学习时,网络各输出单元相互竞争,最后达到只有一个最强者激活。 (3)几种常用的神经网络学习算法 ①BP(反向传播)学习算法 这是实现函数逼近的一种方法 ②遗传算法 产生于一些生物学家用计算机模拟生物进化过程的仿真实验,是一种优化搜索算法。 遗传算法首先产生一个初始可行解群体,然后对这个群体通过模拟生物进化的选择、交叉、变异等遗传操作遗传到下一代群体,并最终达到全局最优。 ③最小二乘学习算法 最小二乘法训练神经网络利用一组朝顶方程组来估计网络的连接权,使网络输出与实
际输出的均方误差在统计上达到最小。 本章节重点是神经网络的概念,难点是基于 教学后记 神经网络的算法。学生对概念和算法的掌握还可以,但对算法的实现还存在一些困难。
上课时间 第九周 上课节次 3节 课 型 理论 课 题 Apriori算法 教学目的 使学生了解并掌握Apriori算法 教学方法 讲授 重点、难点 关联规则的分类与Apriori算法的描述 板书或课件时间分配 教学内容 版面设计 5.2使用候选项集找频繁项集(Apriori)算 法 Apriori算法是一种最有影响的挖掘布尔关联规则频繁集的算法。 5.2.1关联规则的分类 (1)基于规则中处理的变量的类别分类 基于关联规则中处理的变量的类别,可分为布尔型和数值型两种。 布尔型关联规则处理的值都是离散的、种类化得,关联规则显示这些变量之间的关系;数值型关联规则是对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理。 (2)基于规则中数据的抽象层次分类
基于规则中数据的抽象层次分类,可分为单层关联规则和多层关联规则。 在单层的关联规则中,所有的变量都没有考虑到现实的数据时具有多个不同的层次的;在多层的关联规则中,考虑数据的多层性。 (3)基于规则中涉及到的数据的维数分类 基于规则中设计到的数据的维数分类,关联规则可分为单维和的。 单维的关联规则中只涉及到数据的一个维,关联规则中要处理的数据将会涉及多个维;单维关联规则是处理单个属性中的某些关系,关联规则是处理多个属性的各个属性之间的某些关系。 5.2.2Apriori算法 Apriori算法将发现关联规则的过程分为两步:第一步是通过迭代,检索出源数据中的所有频繁项集;第二步是利用第一部中检索出的频繁项集构造出满足用户最小信任度的规则。 Apriori算法的核心是第一步,也占整个算法工作量的大部分。 Apriori算法产生频繁项集是采用迭代的方
法实现的,每一次迭代包括产生候选集和计算并选择候选集两个步骤。 Apriori算法的一个特殊性质是,若一个项集是频繁的,那么它的所有子集也是频繁的。 Apriori算法不仅计算所有频繁项集的支持度,也计算那些在删减过程中不会被排除的非频繁候选项集的支持度。所有这些非频繁但有Apriori算法的支持度的候选项集的集合被称为负边界。 若项集是非频繁的,但它的所有子集都是频繁的,那么它就在负边界中。 5.2.3 从频繁项集产生关联规则 在使用Apriori算法或其它类似的算法所建立的所有的频繁1—项集的基础上,来挖掘关联规则。若规则{X1,X2,X3}->X4,那么项集{ X1,X2,X3,X4}和{X1,X2,X3}都必须是频繁的。然后计算规则的置信度c=s(x1,x2,x3,x4)/s(x1,x2,x3),置信度c大于给定的阈值的规则就是强关联规则。 注意:并不是所有被挖掘出来的强关联规则都有意义或者都有用,需要注意是否有负关
联的情况。 本章节重点是关联规则的分类,难点是 Apriori算法的应用。学生对分类规则和算教学后记 法的描述掌握还可以,但对算法的应用实现还存在一些困难。
上课时间 第十周 上课节次 3节 课 型 理论 课 题 决策树算法 教学目的 使学生了解并掌握决策树算法 教学方法 讲授 重点、难点 ID3算法与树的剪枝 板书或课件时间分配 5.3决策树算法 决策树算法是以样本为基础的归纳学习算法,主要用于分类和预测,结果比较容易转换成分类规则。 决策树的表现形式是类似于流程图的树结构,在决策树的内部节点进行属性测试,并根据属性值判断由该节点引出的分支,在决策树的叶节点得到结论。 内部节点是属性或属性的集合,叶节点代表样本所属的类或类分布。 决策树学习的基本算法是贪心算法,采用自定向下的递归方式构造决策树。 5.3.1信息论的基本原理 (1)信息论原理 教学内容 版面设计
信息论也称为统计通信理论,是为了解决信息传递过程问题而建立的理论。 信息系统由信源、信宿和信道三者组成。 信息是用来消除不确定性的度量,信息量的大小由所消除的不确定性的大小来衡量。 (2)互信息的计算 5.3.2ID3算法 (1)主算法 ①从训练集中随机选择一个既含正例又含反例的子集(称为“窗口”) ②用“建树算法”对当前窗口形成一颗决策树 ③用训练集(窗口除外)中例子对所得决策树进行类别判定,找出错判的例子 ④若存在错判的例子,把它们插入窗口,转②,否则结束。 (2)建树算法 ①对当前例子集合,计算各特征的互信息 ②选择互信息最大的特征Ak ③把在Ak出取值相同的例子归于同一子集,Ak取几个值就得几个子集 ④对既含正例又含反例的子集,递归调用建
树算法 ⑤若子集仅含正例或反例,对应分枝上标P或N,返回调用处 5.3.3树剪枝 剪枝是一种克服噪声的技术,同时它也能使树得到简化而变得更容易理解。 剪枝策略有先剪枝和后剪枝两种,先剪枝也称为预剪枝,用于决策树的过度生长,后剪枝则是待决策树生成后再进行剪枝的技术。 (1)先剪枝 最直接的先剪枝方法是事先限定决策树的最大生长高度,使决策树不能过度生长。 先剪枝算法有可能过早停止树的生长而存在视野效果问题,但该算法效率高,适合于规模大的问题。 (2)后剪枝 后剪枝技术允许决策树过度生长,然后根据一定的规则,减去那些不具有代表性的节点和分枝。 可采用自上而下的顺序,也可采用自下而上的顺序进行剪枝。
剪枝之后的决策树的叶节点不再只包含一类实例。节点有一个类分布描述,即该叶节点属于某类的概率。 可以将先剪枝和后剪枝算法交叉使用,后剪枝所需的计算比先剪枝多,但能产生更可靠的树。 5.3.4由决策树提取分类规则 从决策树提取规则可分为获得简单规则和获得精简规则属性两个步骤。 (1)获得简单规则 对于生成好的决策树,可以直接从中获得规则。 从根到叶的每一条路径都可以是一条规则,用“if…then”的形式表示。 (2)精简规则属性 在获得的简单规则中,可能包含许多无关的属性,在不影响规则预测效果的情况下,可以删除一些不必要的条件。 Quinlan提出了一种贪婪搜索方法,即每次从条件集合中删除一个对预测效果影响最小的条件,若删除该条件后,误判率减小了,则继续上述过程,否则整个精简过程结束。
本章节重点是ID3算法,难点是树的剪枝。 教学后记 学生对ID3算法的应用掌握还可以,但对剪枝算法的实现还存在一些困难。
上课时间 第十一周 上课节次 3节 课 型 理论 课 题 聚类分析 教学目的 使学生了解并掌握聚类分析的主要算法 教学方法 讲授 重点、难点 聚类分析的概念及主要算法 板书或课件时间分配 5.4聚类分析 聚类分析就是将待分析数据根据一定的分类规则,合理地划分数据集合,确定每个数据所在的类别。 聚类分析的方法很多,采用不同的聚类方法,对于相同的记录集合可能有不同的划分结果。 5.4.1聚类分析的概念 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。 数据挖掘对聚类算法有如下要求: ① 可伸缩性 ② 处理不同类型属性的能力 ③发现任意形状的聚类 教学内容 版面设计
④使输入参数的领域知识最小化 ⑤处理噪声数据的能力 ⑥对于输入记录的顺序不敏感 ⑦高维性 ⑧基于约束的聚类 ⑨可解释性和可用性 5.4.2聚类分析中的数据类型 聚类算法通常采用数据矩阵和相异度矩阵两种数据结构。 (1)区间标度变量 区间标度变量是一个粗略线性标度的连续变量。 选用度量单位将直接影响聚类分析的结果,一般而言,所用的度量单位越小,变量可能的值越大,这样对聚类结果的影响也越大。 (2)二元变量 一个二元变量只有0或1两个状态,0表示变量为空,1表示该变量存在。 对于一个二元变量,若它的两个状态是同等价值的,并有相同的权重,那么该二元变量是对称的,基于对称二元变量的相似度称为恒定的相似度。
若两个状态的输出不是同样重要的,那么该二元变量是不对称的,基于这样变量的相似度被称为非恒定的相似度。 当对称和非对称的二元变量出现在同一个数据集中,可以应用混合变量方法。 (3)标称型、序数型和比例标度型变量 ①标称型变量 标称型变量是二元变量的推广,可以具有多于两个的状态值。通过为每个标称状态创建一个新的二元变量,可以用非对称的二元变量来编码标称变量。 ②序数型变量 一个离散的序数型变量类似于标称变量,与标称变量的区别是序数型变量的M个状态是以有意义的序列排序的,而标称变量没有任何顺序含义。 序数型变量对记录那些难以客观度量的主观评价是非常有用的。 一个连续序数型变量看起来像一个未知标度的连续数据的集合,也就是说,值的相对顺序是重要的,而实际大小不重要。 ③比例标度型变量
比例标度型变量总是取正的度量值,有一个非线性的标度,近似的遵循指数标度。 (4)混合类别的变量 利用混合类型变量来描述对象之间的相异度,一种方法是将变量按类型分组,对每种类型的变量进行单独的聚类分析;另一种方法是将所有的变量一起处理,只进行一次聚类分析。 5.4.3几种主要的聚类分析方法 聚类算法的选择取决于数据的类型、聚类的目的和应用 (1)划分方法 给定一个n个对象或元组的数据源,划分方法将数据构建为k个划分,每个划分表示一个聚簇,且每个组至少包含一个对象,每个对象必须属于一个组。 ①K—平均算法 在该算法中,每个簇用该簇中对象的平均值来表示。 K—平均算法不适合于处理分类属性数据;对数值数据有较好的几何和统计意义。 ②K—中心点算法
K—中心点算法选择簇中位置最接近簇中心的对象作为簇的代表点。 K—中心点算法对属性类型没有局限性,通过簇内主要点的位置来确定选择中心点,对孤立点的敏感性小。 划分聚类方法对在中小规模的数据库中发现球状簇很适用。 (2)层次的方法 层次的方法对给定数据对象集合进行层次的分解。 根据层次分解形成的顺序,层次的方法可以分为凝聚和。 (3)基于密度的方法 主要思想:只要临近区域的密度超过某个阈值,就继续聚类。 (4)基于网格的方法 基于网格的方法将空间量化为有限数目的单元,形成一个网格结构,然后在这个量化空间上进行所有的聚类操作。 (5)基于模型的方法 基于模型的方法为每个簇假定了一个模型,寻找数据对给定模型的最佳拟合。
基于模型的方法主要有统计学方法和神经网络方法两类。 5.4.4聚类分析算法 (1)K—平均算法 K—平均算法是属于划分方法中的基于之心技术的一种算法。 划分思路:以k为参数,把n个对象分为k个簇,以使簇内具有较高的相似度,而簇间的相似度较低。 流程:随机选择k个对象,每个对象都初始地代表一个簇的平均值或中心。对剩余对象,根据其余各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。不断重复该过程,直到准则函数收敛。 该算法当结果簇是密集的,且簇与簇之间的区分明显时,效果较好。 对处理大数据集,该算法是相对可伸缩和高效的。 但该算法只有在簇的平均值被定义的情况下才能使用,且不适合与发现非凸面形状的簇,或者大小差别很大的簇。而且,它对噪声和孤立点数据是敏感的,少来那个的该类
数据能够对平均值产生极大的影响。 (2)K—中心方法 选用簇中位置最中心的对象作为参考点,即K—中心方法 K—中心聚类算法同样属于划分的方法,是一种基于有代表性的对象技术。 基本策略:首先为每个簇随意选择一个代表对象,剩余的对象根据其余代表对象的距离分配给最近的一个簇。然后反复用非代表对象来替代代表对象,以改进聚类的质量。 当存在噪声孤立点数据时,K—中心方法比K—平均方法更健壮,因为中心点不容易被极端数据影响。但K—中心方法的执行代价比K—平均方法高。此外,这两种方法都要求用户指定结果簇的数目。 (3)凝聚和的层次聚类 凝聚的层次聚类采用自底向上的策略,首先将每个对象作为一个单独的簇,然后逐次对各个簇进行适当合并,直到所有的对象都在一个簇中,或者满足某个终止条件。 的层次聚类与凝聚的层次聚类相反,采用自顶向下的策略,首先将所有对象置于一
个簇中,然后逐渐细分为越来越小的簇,知道每个对象自成一簇,或者到达某个终止条件。 在凝聚或的层次聚类方法中,用户定义希望得到的簇数目作为一个结束条件。 层次聚类方法尽管简单,但不具有很好的伸缩性,因为合并或的决定需要检查和估算大量的对象或簇。 本章节重点是聚类分析的概念,难点是几种 主要的聚类分析的算法。学生对概念的掌握教学后记 还可以,但对算法的应用实现还存在一些困难。
上课时间 第十二周 上课节次 3节 课 型 理论 课 题 SQL Server 2000数据挖掘工具应用 教学目的 使学生了解并掌握使用SQL Server 2000数据挖掘功能 教学方法 讲授 重点、难点 创建数据挖掘模型 板书或课件时间分配 教学内容 版面设计 6.1SQL Server 2000数据挖掘工具应用 6.1.1安装要求 (1)硬件:Intel或兼容机;32MB内存;CD-ROM驱动器;50-90MB硬盘。 (2)操作系统:Microsoft Windows 2000 Server或者带有Service Pack 5或更高版本的Microsoft Windows NT Server 4.0. (3)网络软件:Windows 2000 Professional、Windows NT 4.0、Windows 98 或Windows 95 内置网络软件;TCP/IP。 (4)联机产品查看器:Microsoft Internet Explorer 5.0或更高版本。 (5)访问权限:若要安装用于分析服务器的服务,必须用管理员权限登录到该服务
器。 6.1.2安装过程 安装 SQL Server 2000组件中的Analysis Services,按照安装向导的提示逐步执行安装程序。 6.1.3Analysis Services功能介绍 Analysis Services系统包括一个服务器,可以把数据仓库中的数据构造成用于分析数据的数据集,同时Analysis Services系统还提供对数据集信息的快速客户端访问。 使用Analysis Services,可以从OLAP和关联数据源这两者创建数据挖掘模型,还可以对这两类数据应用数据挖掘模型。 Microsoft SQL Server 2000 Analysis Services提供对数据仓库数据的快速访问,还提供访问数据挖掘的构架,可以将这些数据按表单或关系表单的形式发送到客户端。 6.1.4 Analysis Services的优点 (1)易于使用 (2)灵活的数据模型 Analysis Services为维度、分区以及数
据集提供多为OLAP、关系OLAP和混合OLAP三种存储模式。 (3)集成性 (4)广泛支持的API和开放的构架 6.1.5创建数据挖掘模型 (1)注册服务器 (2)创建数据库 (3)创建数据源 (4)创建挖掘模型 6.1.6查看分析挖掘结果 6.1.7聚类模型 创建聚类模型的步骤和创建决策树模型完全一致,只要在选择挖掘模型时选择“Microsoft聚类”就可以了,对模型的处理也是相同的。 本章节重点是如何使用SQL Server 2000数 据挖掘工具,难点是数据挖掘模型的创建及教学后记 结果的查看和分析。学生对工具的掌握尚可,但实际开发应用还需多加练习。
上课时间 第十三周 上课节次 3节 课 型 理论 课 题 SPSS数据挖掘工具应用 教学目的 使学生了解并掌握SPSS数据挖掘工具的应用 教学方法 讲授 重点、难点 Clementine应用的结构和使用 板书或课件时间分配 教学内容 版面设计 6.2SPSS数据挖掘工具应用 SPSS是应用最广泛的统计软件之一,现在的SPSS软件能实现各种统计功能,用数种清洗简练的表格和数十种二维、三维图形显示统计结果。 SPSS支持数据挖掘功能,但其数据挖掘功能模块并不包含在SPSS软件中,而是单独推出了SPSS Clementine。 Clementine是一个强大的数据挖掘产品,可把直观的用户图形界面与多种分析技术相结合。从用户测试来看,它在可伸缩性、预测准确率和处理的时间方面都表现得很好。 6.2.1安装SPSS Clementine 环境要求:需要110MB硬盘,可以在运行
Windows NT的Intel Pentium系统、运行HPUX10及以上的HP900系列、运行IRIX的Silicon Graphics、运行Solaris 2.x的SunSPARC上使用。 6.2.2SPSS Clementine 8.0工作环境介绍 (1)菜单条和工具栏 菜单条包含Clementine 8.0的所有功能,工具栏列出了一些常用功能。 (2)流编辑窗口 用户建立数据挖掘模型的地方。 (3)节点模板 包括了创建流的过程中可能用到的所有节点,每个选项卡包含流操作中某一个阶段的相关节点。 (4)管理器 显示用户可用的数据流,可以方便用户选择、新建数据流和对数据流进行访问、保存和关闭。 (5)工程浏览器 该窗口有CRISP-DM视图和Classes视图两个选项卡。CRISP-DM视图用6个阶段描述从收集业务需求到结果分析的过程;Classes
视图按照分类保存对象。 6.2.3Clementine应用的结构 (1)工程 在Clementine中,通常为一个数据挖掘任务建立一个工程,工程中包含了数据流、图表、产生模型、报告和其它所有用到的节点。 工程不仅仅是一种组织方式,还可以对工程中的对象进行注释、使用CRISP-DM方法指导数据挖掘、添加非Clementine对象等。 (2)流 Clementine的流是一次处理的节点的结合。 一个工程中可以包含一个或多个流。 (3)节点 节点是Clementine的基本组成单元,所有Clementine的可用节点都被安排在Clementine环境下方的节点模板中,使用起来很方便。 6.2.4Clementine的使用 (1)创建和保存工程 (2)创建和保存流 (3)添加节点 Clementine中建立挖掘模型的过程就是向
流中添加各种节点和对节点进行编辑的过程。 6.2.5挖掘模型的建立和执行 (1)添加和编辑数据源节点 (2)添加记录操作节点和字段操作节点 (3)使用图形节点观察数据 (4)添加数据挖掘模型节点 (5)执行挖掘模型 本章节重点是Clementine应用的结构和使 用,难点是挖掘模型的建立和执行。学生对教学后记 工具使用掌握的较好,实际应用开发还需多加练习。
第十四—上课时间 —十六周 课 题 数据挖掘应用实例 教学目的 使学生进一步理解、领会和掌握数据挖掘的用法 教学方法 上机指导 重点、难点 源程序的开发 板书或课件时间分配 通过实际案例的开发,学生对数据挖掘的用 教学后记 法有了深层次的理解和领会。
上课节次 3节/周 课 型 实验 教学内容 版面设计 1.实例开发前的准备 2.实例的系统结构设计 3.算法模块设计 4.算法核心程序的实现 5.完成系统开发
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- yrrf.cn 版权所有 赣ICP备2024042794号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务