T技术 SCIF NCE&TECHNOI OGY 智能邮件过滤系统的设计与实现 王霞 (徐州师范大学计算机科学与技术学院 徐州 2201 1 9) 摘 要:介绍了一种基于粗糙集和聚类的智能邮件过滤算法,并且提出一种智能邮件过滤系统,该系统按其功能可以划分为 知识库子系统、邮件导入子系统、关键词获取子系统和属性约简子系统等四个部分。重点介绍了采用基于粗糙集和聚类的智 能邮件过滤算法的属性约简子系统的设计。 关键词 电子邮件 邮件过滤 粗糙集 聚类 中图分类号:TP31 文献标识码:A 文章编号:1672 3791(2006)1O(a)01 21 01 2 2知识库子系统 知识库子系统主要由专家知识库、领域 随着计算机技术和lnte rnet的迅速发 展,电子邮件已经成为人们生活中非常重 规则库和结果规则库三个部分组成。其中,主 要的组成部分,但是垃圾邮件的出现严重 专家知识库是存储领域专家知识的数据库,这是他们在多 的影响了正常的邮件系统的运行。目前, 要是采用领域专家的规则知识,人们对于垃圾邮件的防范意识已经逐渐提 年的实践中所获取的知识。领域规则库是用 主要是包括分类知 高,但是仍然没有有效的手段来防范。在 来存储领域知识的数据库,本文中,作者通过对现有邮件过滤方法和 识所在领域的所包含的基本概念、属性、实 邮件体系结构的分析研究,提出一种基于 体、规则等的知识。 3关键词获取子系统 粗糙集和聚类的智能邮件过滤算法,并且 21引言 一条边,若为0则没有边。将有连线的连通的 各接点合并形成类,完成对训练集中大量文 档的分类。从而组成下一步进行分类时的信 息表。 Step four:离散化信息表中的数据;刚 除重复信息行; Step five 令初始约简属性集B为空; 计算条件属性C中各属性集对决策属性D 的重要性,构成集合s; Step six:若 ( )jB)≠ (D ( ),则循环: 通过实验证明,利用这个算法设计的智能 邮件过滤系统可以有效的提高邮件的处理 效率和准确程度。 (1)从s中取出最大值,将对应属性 C 加入约简属性集B; (2)将C 的重要性值从集合s中Ill}I』除; 2.4属性约简子系统 (3)计算B对D的条件熵E(DlB); 属性约简子系统完成的任务主要是对上 SteP seven: 对约简后的每个对象 2智能邮件过滤的分析与设计 个阶段产生的关键词集合进行二次过滤,并 (行)进行值约简,消去冗余规则,求出优 系统主要由四个模块子系统组成:知 识库子系统,邮件导入子系统,关键词获取 形成最小的规则集合,用来指导用户的文档分 化的规则集。子系统,属性约简子系统。可以参见图1。 类。其主要使用的算法是作者自行设计的一 种基于聚类和粗糙集的算法。 3结论 2.1邮件导入子系统 该算法利用聚类和粗糙集的优点来进行 主要功能是从外部数据库 网站信 本文通过对现有邮件过滤方法和电子 描述的。先利用空间向量模型的知识对文档 息数据库中读人数据,经过量化过程转换 邮件相关协议分析人手,研究并设计了一 为系统所需的数据格式,然后存入系统内 进行直接聚类,然后利用粗糙集进行规则约 个基于“用户个性化的”智能邮件过滤系 部的数据库中,从而为关键词获取和属性 简,从而形成一个较优的规则集。统的概念模型。重点讨论了基于聚类和粗 算法的具体描述如下: 约简等工作奠定基础。 糙集的属性约简子系统,功能设计完善, 输入:获取的每一 证明了其思想优于目前的某些主流邮件过 个文档的关键词集合 滤系统,对现有邮件过滤系统的改进.升 撕 庶千橐麓 输出:分类规则 级具有相对的实践意义,具有较好的应用 算法步骤: 前景。 一其主要经过关键词获取.然后基于空间 向量模型进行预处理获取,从而为属性约简 予系统奠定基础。 t 入 Z 叠 图1智能附件过滤系统的图 step one:根据输 入的关键词集合,计算 两两文档之 的相似 度,形成文档相似度对 称矩阵S, ..表示文档 D 和文档D,的相似度; step two:选取一 个阀值 对矩阵进行 截集的处理,相似 度大干等于 的转化为 l,小于 转化为0, 形成新的矩阵 ; step three:将矩阵 对应一个无向图, 若 为l,则从到有 .参考文献 【1】刘建毅,张鹏飞,王枞,郭燕慧.高性能电子 邮件过滤系统的设计与实现.计算}几应用 研究,2005:224 226. 【2】陈细谦等,基于Qmai的邮件过滤系统的 设计与实现现代计算机(下半月刊)2001 年9期. 【3】王霞.基于粗糙集和聚类的文本自动分类 的研究.【硕士学位论文】.兰州,兰IJJ1I交通大 学,2004. 发展产生巨大而深远的影响。 tecture for Open G rid Services,2002 【2】都志辉,陈渝,刘鹏.网格计算.清华 大学出版社,2002. 【4】战莹.软件世界,2004.02.05. 参考文献 【1】伊安(Ian Foster).网格:2l世纪信息 技术基础设施的监图.1 998. 【3】N.Nagaratnam,P.Janson,J.Dayka, A.Nadalin,F.Siebenlist,V.Welch,I. Foster,S.Tuecke:The Security Archi 科技资讯SCIENCE&TECHNOLOOY INFORMATION 1 21
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- yrrf.cn 版权所有 赣ICP备2024042794号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务