TDC是预先指定的距离极限值,它根据不同的应用取不 同的值,可以通过多次试验得到。当会话和已有簇的最短距 离超过TDC时,意味着发现了一个新的浏览兴趣,因此要创 建一个新簇 当一个会话和几个簇的距离都少于TDC时。说 明会话表现出了交叉兴趣,可以综合考虑这几个簇的兴趣,对 用户进行个性化服务。 实时聚类牺牲了部分准确性来换取聚类的速度,以便能 在线为用户提供个性化服务。因此,为了提高聚类的准确性, 系统还需要周期性用其它经典的聚类算法(如BIRCH算法 ・ 等)进行重聚类,然后在此基础上,再运用实时聚类算法,实现 对在线用户的服务。 3 -T o,478 489 v.11.i olt. 0.32 v,' ̄o 3.4算法改进 模型的复杂度与Web页面基数有密切关系:页面越多,矩 阵的计算就越复杂,矩阵稀疏性也越严重。我们对算法进行 改进,就是只对作为训练集的日志中记录的页面进行编号,而 不是对整个网站的页面进行编号。这样可以有效降低聚类时 的页面基数,改善算法的效率。因为8O%的用户主要是访问 了2O%的页面。对用户访问到而系统没有进行编号的页面, 把它们都赋予编号0 因为这种情况下系统生成的簇,是不含 该页面的,所以该页面编号为0和有一个实际编号在进行计 算时是没有区别的。 4实验系统的检测 我们用VC++6.0在Windows 2000 Advance Server平台上 实现了本文的系统,实验的硬件平台为内存128 M的赛扬 666PC机,数据源为暨南大学研究生部服务器连续7O天的日 志文件。经过我们的系统处理,原来683 M的日志文件精简 为23.7M,大约为原来数据量的3.5%。预处理后的文件有579 295条记录,消耗时间137秒。会话识别花费56秒,一共识别 会话1l9 422个。 这说明我们预处理的策略是有效的。实验过程中发现实 时聚类算法的TDC取值为1时,对用户的预测效果比较好,如 表1所示。表2是本系统与Markov模型的正确率的比较,由 表2可以看出,在用于预测的页面数较少的情况下,本系统比 Markov模型的性能提升较大。说明本系统较能适应用户的短 期浏览变化。 5结束语 传统的Web个性化技术大多采用静态的方法,这不利于 反映用户的浏览兴趣变化,对用户个性化服务的效果不是很 好。本课题在研究了当前的一些个性化技术后,利用Web使 英文摘要书写要求 1.内容要求 (1)摘要应包含4要素,即研究问题的目的,解决此问题的方 法,产生了什么样的结果,得到的结论是什么。字数限定在150.200 字左右(太长或太短都不好)。 (3)不要对论文成果做评论,尤其是自我评价,也不要说别人 所做工作的不足。 2.翻译要求 (1)采用被动语态,用第三人称,不用“We”等第一人称作主语; 用过去时态叙述作者工作,用现在时态叙述结论。 (2)尽量用短句子,动词尽可能靠近主语。 (3)尽量用词义清楚并为人熟知的词,不用自己无把握的难词; 可省去不必要的词语,诸如副词、形容词、“Inthispaper”等 一(2)尽量不用或少用背景信息和研究此问题的历史知识介绍,论 文中谈及的未来计划小纳入摘要,引言中出现的内容不要写入摘要。 1157—
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- yrrf.cn 版权所有 赣ICP备2024042794号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务