维普资讯 http://www.cqvip.com Computer Engineering and Applicotiona计算机工程与应用 2007.43(7) 185 一个基于决策粗糙集理论的信息过滤模型 赵文清,朱永利,高 伟 ZHAO Wen-qing,ZHU Yong-li,GAO Wei 华北电力大学计算机科学与技术学院.河北保定071003 School of Computer Science and Technology,North China Electric University,Baoding,Hebei 07 1003,China E—mail:jbzwq@126.com ZI-IAO Wen—q.mg,ZHU Yong-li,GAO Wei.Information mtermg model based on decision-theoretic rough set theory. Computer Engineering and Applications,2007,43(7):185—187. Abstract:This paper introduces decision—theoretic rough set theory and presents a decision—theoretic rough set based model to iflter information,by comparing with traditional information filtering methods like Naive Bayes algorithm,the proposed model has high precision and can reduce error ratio. Key words:Decision-Theoretic Rough Set(DTRS);ifornmation filtering;Naive Bayes 摘要:介绍了决策粗糙集理论,提出了一个基于决策粗糙集理论的通用信息过滤模型,并通过对电子邮件进行过滤,与传统的基 于文本内容的信息过滤方法——朴素贝叶斯方法进行了比较,比较结果证明该文提出的基于决策粗糙集理论的信息过滤模型可 以降低误判率.有较高的正确率。 关键词:决策粗糙集;信息过滤;朴素贝叶斯 文章编号:1002—8331(2007)07-0185-03 文献标识码:A 中图分类号:TP311 1 引言 因特网给人们的生活带来了极大的便利,但是因特网中也 对决策支持进行近似性推理的数学工具,也可以用于对象分 类,其最大的贡献在于给出了机器学习的理论基础,定义了独 立约简和正区域已经用来划分对象。由Yao和Wong提出的决 策粗糙集 理论,继承了原有粗糙集模式的所有基本属性,针 对于不确定信息的处理。本文首先介绍决策粗糙集理论。 存在着有害信息,比如垃圾邮件、色情以及暴力等有关内容,可 以通过信息过滤来拦截这些内容。信息过滤是指计算机根据用 户提供的需求,从动态变化的信息流(比如Web、E—mail)中自 动检索出满足用户需求的信息。目前针对文本的信息过滤技术 2.1粗糙集理论基础 设一个决策系统 =<u,A,d>,其中 , ,…, }是一 个非空对象集合(n是对象的个数);A= ,a2,…, }表示非空 的条件属性集合(m表示属性个数),同时存在映射 — , 主要采用的是基于贝叶斯算法的信息过滤器『l】,也有一些采用 遗传算法、支持向量机[21等。传统的信息过滤技术存在“准确性 不足”、易“误判”等问题。所谓“误判”是指原本是用户感兴趣的 信息却被判定为用户不感兴趣的信息,从而被漏掉,在当今的 信息社会,有可能给用户造成巨大的损失。 本文提出了把决策粗糙集理论 ̄- ̄(DTRS,Decision—Theoretic Rough Set Theory)应用到信息过滤中。用基于决策粗糙集理论 的信息过滤方法对文本信息进行过滤。信息过滤可以针对无结 构的或半结构化的数据进行。而电子邮件是典型的半结构化数 据,有着结构化的邮件头和无结构的邮件正文,同时对邮件过 滤也是对信息过滤的一种应用。因此,本文利用UCI机器学习 数据资料库中的电子邮件数据集进行了实验。实验表明,该方 表示A中所有属性 ,az,…, }的值域;d是不属于A的决策 属性。如果在 的分量中没有决策属性,则称 为信息系统。 定义1设 <U。A>是一个信息系统,BCA且 BX=(xl[x]n _X)C BX=(xl[x]n fiX≠ ) U。通过构 造 关于 的上近似和下近似来表示 的近似,分别表示为 其中 是 的不可分辨关系的等价类。 定义2粗糙集理论中,根据现有知识及不可分辨关系 , 元素 是否属于集合 的不确定性,可以用粗糙隶属函数来表 示。其定义如下: : 法不仅理论上易于建立和更新,而且降低了信息过滤的误判 率。下面首先对决策粗糙集理论做一个简要的介绍。 2决策粗糙集理论 1982年波兰数学家Pawlak/s3提出了粗糙集理论。它是一种 基金项目:教育部“新世纪优秀人才”支持计划(No.NCET-04-0249)。 作者简介:赵文清(1973一),女,讲师,主要研究方向:人工智能和数据挖掘。 [0'l邮 = 通过粗糙隶属函数可以定义集合 的正区域Pos(x),负 维普资讯 http://www.cqvip.com 186 2007,43(7) Computer Engineering and Applications计算机工程与应用 区域NEe(X)和边界区域BND(X)分别为 R POS(x)=B X.={x ( )≥订} R NEG( )= X=U-{x ( )>l一订} BND0X :B X一 X 其中,订∈( ,l】,表示粗糙度或精确度,可以看作划分对象时 二 的阈值。也就是说,利用粗糙集理论,可以把数据集分为3部 分:正区域、负区域和边界。限于篇幅,有关粗糙集的其它概念, 诸如可辨识矩阵和函数等,请参看参考文献【7】。下面,本文将介 绍如何在原有的粗糙集方法的基础之上应用决策粗糙集理论 建立信息过滤模型。 2.2决策粗糙集理论 原有的粗糙集方法为数据分析提供了形式化的工具。由Yao 和Wong提出的决策粗糙集理论(Decision-Theoretic Rough Set hTeory)继承了原有粗糙集的基本特点.同时增强了处理不确 定信息的能力。在决策粗糙集理论中,用状态集 ,] }表 示一个元素是否属于集合 ,动作集A={n。,n2,Ⅱ3}分别表示判 定当前对象 属于POS(X)、NEG(X)和BND(X)的动作。 n.表示判定当前对象 ∈POS(X); 表示判定当前对象 ∈NEG(X); 表示判定当前对象 ∈BND(X)。 用A(n.Ix∈ )表示当对象 ∈X时,执行动作n 所引起的 损耗,用A(aiIx∈7 )表示当对象 ∈-q X时,进行活动ai所引 起的损耗。 这样,进行三种不同活动的估计损耗值皿(儡Ix)为 EL(al k)=AllP(X, )+Al2P(7 X, ) 观(n2k)=A2lP(X, )+A22P(7 X, ) J观(a3k)=A1lP(X, )+A32P(7 X, ) 其中,P(X, )和P(7 X, )分别表示 属于 和 属于] 的 概率,A。l=A(alx∈ ),A =A(aiIx∈7 ), =l,2,3。按照贝叶斯 决策过程可以推导出下面的最小风险决策规则RUL .B(RUL , RULⅣ,RULB): RULP:如果EL(alk)≤皿(n2Ix)并且EL(alk)≤皿(Ⅱ3Ix), 那么 ∈PD5( ); RULⅣ:如果皿(n2Ix) ̄EL(alk)并且皿(n2Ix)≤皿(n3k), 那么 ∈NEG(X); RULB:如果皿(Ⅱ3Ix)≤皿(nlIx)并且皿(Ⅱ3Ix)< ̄EL(a21x), 那么 ∈BND(X)。 由于P(X, )+P(7 X, )=l,上面的决策规则可以化简成 只含有概率p(x. )的形式。因此可以根据概率P(X, ),也就 是给定损耗函数A ( =l,2,3 =l,2)和前面2.1节中的粗糙隶 属函数来划分对象 属于哪一区域。 当All≤A3l<A2l且A22≤A32<Al2时,表示对象 eX时,将 对象 划分到正区域POS(X)的损耗小于等于将 划分到边界 区域BND(X)的损耗。并且两种损耗都严格小于将 划分到负 区域NEG(X)的损耗。反之,将一个不属于 的对象划分到 会得到相反的顺序。对于这种类型的损耗函数,最小风险决策 规则RUL (RULP,RULⅣ,RULB)可以写作: .BRUL :如果P(X, )≥卢且P(X, )≥ ,习B么 ∈POS(X); RULⅣ:女口果P(X, )≤ 且P(X, )≤6,习B么 ∈NEG(X); RULB:如果6≤P( , )且P(X, )≤卢,那么 ∈BND(X)。 其中: o Al2一A32 P= = (A2l—Al1)+(AlL2一A2 2) (、2)二 一 銎 。(A2l—A31)+(A32-A22) 由条件All≤A3l<A2l且A22≤A32<A 可知卢∈(0,1), ∈ (0,1),6∈【0,l】。此时,决策规则RUL 只依赖于参数卢、 和 .B,它们可以由用户给出A 值直接计算出来。 若6≤卢,6≤ ≤卢,根据决策规则RUL 正区域、负区域 和边界区域可以由6和卢来决定。若 ,就有卢q 。根据 RUL .B可知边界区域为空,而此时正区域和负区域可由 来 决定。为了区分三个区域,令6 ,即有6q 。此外,当判定 ∈NEG(X)和 ∈BND(X)的风险相同时,则判定 ∈BND(X)。 如果判定 ∈POS(X)和 ∈BND(X)的风险一样,则判定 ∈ pos(x)。在这些假设前提下,决策规则RUL .B可以简化为 RUL :如果P(X, )≥卢且6≤ ≤卢,那么 ∈POS(X); RUL :如果P(X, ) ,那么 ∈NEG(X); RULB:如果6≤P( , ) ,那么 ∈BND(X)。 为了实现信息过滤的目的.要考虑一种特殊类型的损耗函 数。可以认为把一个实际上属于 的对象 划分到正区域 POS(X)的损耗为眦也就是 被认为是正对象,因此没有损 耗)。相反的情况下,把一个实际上属于 的对象 划分到负 区域NEG(X)的损耗为最大损耗值l。划分到边界区域的损耗 是介于0和l之间的某个值。基于这种假设,可有 AIl=0,Al2=l A2l=l,A22=0 (3) 0≤ 3l<l,0≤A32<l 利用公式(3)可将公式(2)中的估计损耗函数简化为下面 的形式: 在这个假设的基础上,如果能够估计P(X, )的值以及损 耗值A,。和A 就可以把任何对象划分到三个区域其中之一了。 2.3估计P{X, )的值以及损耗值A3,和A32 令RUL表示所有的决策规则,RUL(x)C_RUL表示命中对 象 或至少有一个蕴含前项与 匹配的规则的集合。 P(X = ×荟predcits(胁e) 其中,CER 表示所有与对象 匹配的规则总数的总和,predicts (Like)代表用户感兴趣的信息,其值是accuracy(a--}b)啕: 删uracy( )= S Up pO ̄ ‘n J accuracy(a--- ̄)表示由证据n得出结论b的规则的可信度, 而且是对条件概率Pr(bla)的基于频率的估计。 用曰表示出现在决策规则 的前项n中的属性的集 合, 表示b所描述的用户感兴趣的信息。 维普资讯 http://www.cqvip.com 赵文清,朱永利,高 伟:一个基于决策粗糙集理论的信息过滤模型 support(a)是含有证据 的属性的信息系统中对象的数量. support(b)是含有b所描述的属性的信息系统中对象的数量。 因此accuracy(a- ̄b)与粗糙隶属函数 的值相同,其中这 个隶属函数应用于与a匹配的对象 。这样,accuracy(a- ̄b)利 用属性集曰测量 关于 的隶属度,可以看作P(X, )的估 6-= | - ̄32 ; 200743(7) .187 ; For ∈Dis—Z: Do { If R比( )= Maybe=Maybeu恤} Else 计值。 在本模型中,All=A22:0,Al2:A2l:1,同时令0<A3l<1,0<A32< 1,若6≤P( , ) ,则由RUL 判定 ∈BND(X),由以上可以 得出结论:如果A A 接近于0,则/3增大,6减小。边界区域 BND(X)扩大,这就意味着用户认为将 划分到BND(X)的损 耗很小,所以理论上可以降低将用户感兴趣的信息划分为用户 不感兴趣的信息的错误率。如果A,.:A, :0.2,则/3=o.8,8=0.2, 决策规则RUL 可以简化为 { R={r∈RUL(x)lr predicts Like};I*R是所有认为 属于Like 的规则 , 估计Rel(Dis—TEIx∈Like); Rel(Dis—TELxELike)= ̄predicts(Like); L :女口果P(X, )≥0.8,习 么 ∈POS(X); RUL :女口果P(X, )<0.2,习 么 ∈NEG(X); RUL :如果0.2≤P( , )<0.8,那么 ∈BND(X)。 ce 壶 l(Dis埘 If Cert≥6l Like=Like u恤} xElse if(b2< ̄Cert<b1)Maybe=Maybeu恤l Else Unlike=Unlikeu恤} } } ’这也是本文案例所选用的阈值。 3建立基于决策粗糙集理论的信息过滤模型 在以上的概念和知识的基础上,本文提出了基于决策粗糙 集(DTRS)理论的信息过滤方案。在本文中,正区域代表用户感 兴趣的信息,负区域代表用户不感兴趣的信息,边界代表介于 二者之间的信息。本文的目的是把用户感兴趣的信息划分为用 Output:三种信息-Like,Unlike和Maybe。 4实验结果与分析 如前所述.本文提出的DTRS模型能够降低将用户感兴趣 的信息划分为用户不感兴趣的信息的错误率,为了能够验证这 一户不感兴趣的信息的比例最大可能地降至最低,避免“误判”, 更好地服务于用户。主要步骤如下: (1)首先把源信息数据集转换为一个决策系统£,把£分 为两部分,训练数据集豫和测试数据集陋。然后从豫导出 一点,进行了实验对比。实验数据来自于UCI机器学习数据资 料库(http://www.ies.uei.edu/mlearn/MLRepository.htm1)。实验以 4/5的数据对象作为豫(3 681个对象),1/5的数据对象作为 TE(920个对象)。参数b.:0.8,b,:0.2。并同基于朴素贝叶斯方 法的实验结果进行了比较。下面分别给出基于本文模型和朴素 贝叶斯方法的实验结果。 个信息过滤器,并把该过滤器用于阿得到学习的结果,因 此,对豫需要做第(2)步和第(3)步的工作。 (2)使用Boolean reasoning算法[91进行属性值的离散化。得 到一个关于决策属性的最小割集。 (3)使用遗传算法GA求得约简之后的规则。GA已经被集 成到许多粗糙集工具中,如Rosetta(http://rosetta.1cb.UU.se.),而 本文的实验也用到了Rosetta这个工具软件。执行完第(3)步之 后,对测试集陋继续执行第(4)步。 (4)首先利用在第(2)步中得到的cuts离散化TE,然后利 本文把数据集的4/5(3 681个对象)作为TR,数据集的1/5 (920个对象)作为TE,在TE中有572封用户感兴趣的信息(正 常邮件),348封用户不感兴趣的信息(垃圾邮件)。在训练阶段 输出的是割集和决策规则,据此对含有920个对象的阿进行 过滤,结果如表1所示。 表l基于DTRST模型的实验结果ZR (4/5,3 681个对象) 用第(3)步得到的规则对陋中的对象进行匹配和判断,这样, 就在基于决策粗糙集理论的基础之上完成了对陋中的对象 的过滤。 令b 为正区域的极限(即2.2节中的卢),b,为负区域的极 限(即2-3里的6)。下面的算法描述了如何预测一条信息在正 区域、负区域还是边界区域。 算法Filter(D/s—TE,RUL,A3l,A32)。 /*Dis—TE是指离散化之后的TE.RUL指在第(3)步中得到的规则。 可以看出.基于本文的过滤模型,在572封用户感兴趣的 邮件中,有510封被划分为用户感兴趣的邮件,有6封被划分 为用户不感兴趣的邮件,56封被认为是用户可能感兴趣,也可 能不感兴趣的邮件。基于相同情况.使用朴素贝叶斯分类方法, 结果如表2所示。在572封用户感兴趣的邮件中,有544封被划 分为用户感兴趣的邮件,有28封被划分为用户不感兴趣的邮件。 实验中,使用DTRS模型有6条用户感兴趣的信息被划分 为用户不感兴趣的信息,而使用朴素贝叶斯模型有28条用户 感兴趣的信息被划分为用户不感兴趣的信息。由此可见,在相 (下转194页) ReZ()指对象 属于用户感兴趣的信息的相关度。CER 指判定 为用 户感兴趣的信息的规则总数。 , Lik ,Unlike, e+一 /*Like、Unlike、Maybe分别代表用户感兴 趣的信息、用户不感兴趣的信息和可能感兴趣的信息,初始化均为空 集 }, A3l 、32---0.2; 维普资讯 http://www.cqvip.com 194 2007,43(7) Computer En ̄neenng and、Applications计算机工程与应用 成较少的候选频繁访问模式。经过算法分析和实验验证本算 法具有一定的实用价值。(收稿日期:2006年7月) ,图l给出了基于不同的最小支持度阈值。两个算法各自的 运行时间。当最小支持度阈值很高时,GITC算法的性能不够理 想。当最小支持度阈值小于7%时,可以看出GITC算法一直比 类Apfiofi算法优越。随着支持度的减小,用类Ap ori算法挖 参考文献: 【l】韩家炜,盂小峰,王静,等.Web挖掘研究[J】.计算机研究与发展, 2001,38(4):305-314. 掘所用的时间呈现不断上升的趋势,而GITC算法却有很平稳 的时间性能。当最小支持度阈值偏小时本算法表现出很好的性 能,这正好和算法特点分析的结果相吻合。同时由实验结果推 知:与类Apfiofi算法相比。用GITC算法一次统计出所有支持 【2】欧阳一鸣,汪曦东,郭骏,等.Web使用挖掘数据预处理中的会话构 造[J】.计算机工程与应用,2005,41(25):148—151. 数对应的最大访问模式集。然后再查询出所需要的挖掘结果将 会更高效。 [3】Cooley R,Mobasher B,Srivas ̄va LOata preparation for mining World Wide Web browsing patterns[J].Knowledge and Information Systems, 1999,l(1). [4】陈敏,欧阳一鸣,刘红樱.Web挖掘中基于RD_Apriori算法发现用 户频繁访问模式[J】.微电子学与计算机,2005,22(5):4—7. 【5】欧阳一鸣,陈敏,刘红樱,等.Web挖掘中发现用户访问模式算法的 改进与分析[J】.模式识别与人工智能,2005,18(6):728—734. [6】Wang Xi-dong,Ouyang Yi—ming,Hu Xue—gang,et a1.Discovery of user frequent access patterns on Web usage mining[C]//Proceedings of the 8th International Conference on Computer Supported Co— 支持度,% operative Work in Design,2004:765—769. 图l运行时间比较图 【7】Chen Ming-syan,Jong SooPark,Yu P S.Data mining for traversal patterns in a Web environment.1996 IEEE. 7结束语 与类Apfiofi算法相比,本文提出的GITC算法的主要特 点是: 【8】王培吉,王培静,白金牛.关联规则挖掘的一种改进算法[J】.包头钢 铁学院学报,2003,22(1):86—89. 【9】徐健辉.生成频繁项集的逻辑“与”运算算法[J】.计算机应用,2004, 24(11):88-90. (1)GITC算法只要扫描原始事务数据库两次:一次扫描原 始数据库生成所有的候选频繁访问模式.一次扫描原始数据库 来统计各个候选频繁访问模式的支持度计数; (2)当用户设置的最小支持度阈值偏小时,GITC算法会生 【lO】周焕银,张永,蔺鹏.一种不产生候选项挖掘频繁项集的新算法[J】. 计算机工程与应用,2004,4o(15):182—185. 【ll】白石磊,毛雪岷,王儒敬,等.一种快速挖掘频繁项目集算法[J】.模 式识别与人工智能,20o3,16(4):465--469. (上接187页) 表2基于朴素贝叶斯算法的实验结果豫 (4/5,3 681个对象) 参考文献: 【l】Sahami M.A Bayesin approach tao filtering Junk E—mail[C]//Learn— ing for Text Categorization:Papem from the 1998 Workshop.AAAI Technical Report WS一98-05,1998. 【2】Cristininia N.An introduction to Support Vector Machines and other kernel-based learning methods[M].Cambridge:Cambridge University Press.2oo2. 【3】Yao Y Y,Wang S K M.A decision—theoretic framework for appro- 同情况下.使用基于决策粗糙集理论的过滤模型会有较少的用 户感兴趣的信息(非垃圾邮件)被划分为用户不感兴趣的信息 (垃圾邮件)。因此,可以得出结论:一般情况下DTRS模型要优 于Naive Bayes算法。 综上所述,本文提出的基于决策粗糙集理论的信息过滤模 型是有效的。 ximating concepts[J】.International Journal of Man—machine Studies, 1992,37(6):793-809. [41 Yao Y Y.Iformatnion granulation and approximation in a decision— heorettic model of roUsh sets,oUgh-neurro computing:a way to coin- puting with words[M].Heidelberg:Physica—Verlag,2002. 【5】Pawlak Z.RotIsh sets[J].International Journal of Computer and In- formation Sciences,1982,ll:341-356. 5结论 本文提出了基于决策粗糙集理论信息过滤模型.将接收到 的信息划分为三类——用户感兴趣的信息、用户不感兴趣的信 息和用户可能感兴趣的信息。实验结果表明基于决策粗糙集理 [6】陆汝钤.知识科学与计算科学【M】.北京:清华大学出版社,2003. 【7】Pal S,Skowron A.Roush fuzzy hybridization:a new trend in deci— sion-making[M].is.1.】:Spring ̄,1999. 【8】Aleksander H.Discernibility and roUsh sets in medicine[D].Norway: Department of Computer and Information Science,Norwegin Unia— 论的信息过滤模型能够降低将用户感兴趣的信息划分为用户 不感兴趣的信息的错误率。在以后的工作中,可以结合信息过 versity of Science and Technology,1999. 【9】Skowron A,Son N.Boolean reasoning scheme with some applications in data mining[C]//LNAI 1704:Discovery PKDD’99,Plague,Czech Republic.Berlin:Spn‘nger Verlag。1999:107-115. 滤的其它技术,进一步提高信息过滤的准确性。 (收稿日期:2006年8月)