您好,欢迎来到意榕旅游网。
搜索
您的当前位置:首页基于电子商务的个性化推荐系统研究

基于电子商务的个性化推荐系统研究

来源:意榕旅游网
总第261期 计算机与数字工程 Vo1.39 No.7 2011年第7期 Computer&Digital Engineering 93 基于电子商务的个性化推荐系统研究 李京” 姜卫。 张跟鹏 宋世延 (青岛大学信息工程学院” 青岛 266071)(海军工程大学电子工程学院 武汉430033) 摘要在电子商务环境中,实现个性化服务,理解用户兴趣就成了提供个性化服务的关键任务。因此,建立用户兴趣 模型和构建推荐库就成为个性化推荐系统的实现基础。论文通过网络爬虫获取到相关的网页,进行预处理后,采用SvM (支持向量机)分类文档建立推荐库。通过对用户访问路径、搜索关键字等分析,获取用户兴趣,采用向量空间模型表示用户 兴趣,利用机器学习构建用户兴趣模型。在推荐库和用户兴趣模型的基础上,加入推荐引擎,实现了基于电子商务的个性化 推荐系统。 关键词电子商务;个性化;推荐系统;SVM;VSM 中图分类号TP393 Research on Personalized Recommendation System in E—commerce Li Jing Jiang Wei Zhang Genpengz Song Shiyanz (Department of Information Engineering,Qingdao University1’,Qingdao 266071) (Eletronic Engineering College,Naval of Engineering ̄ ,Wuhan 430033) Abstract In e-commerce environment,in order to realize personalized service,understanding customer interest iS criti— cal for providing personalized service.Therefore,establishing user interest model and building recommend library has become implementation base for personalized recommendation system.The paper obtains related web pages through web crawler,u— sing SVM(Support Vector Machine)classify document after pretreatment SO that establish recommended library.Though an— alyzing user access path and search keywords,etc.the paper obtain user’S interest,and using vector space model figure user’S interest,and build user interest model using machine study.Based on the recommendation library and user interest model,the paper added recommendation engine,achieved a personalized recommendation system based on e-commerce. Key Words e-commerce,personalization,recommendation system,SVM,VSM Class Number TP393 1 引言 务运行的主要模式,也是新经济涵义下的一种主要 经济方式。通过电子商务平台,人们可以享受到足 计算机和通讯技术的结合产生了互联网技术, 不出户选购商品的快乐和方便。但是,随着电子商 在信息时代的今天,互联网技术给人类的经济和生 务平台交易规模的扩大,人们通过浏览器无法在短 活带来了深刻的影响[1]。在互联网技术背景下,产 时间内浏览所有商品,并且也缺少现实交易中促销 生了一种新型的商业交易形式,这就是电子商务。 人员的精心导购,从而使得人们面临“信息超载”的 从某种意义上讲,它是IT技术和商务运行结合而 问题[2]。信息超载是指网站为用户提供的商品信 产生的一种商务交易过程,是21世纪市场经济商 息量过多,导致其难以迅速找到所需商品,并且在 收稿日期:2011年1月5日,修回日期:2011年2月8日 基金项目:山东省自然科学基金项目(编号:ZR2009GQ008)资助。 作者简介:李京,女,硕士,讲师,研究方向:电子商务,数据挖掘,信息系统。姜卫,男,硕士,副教授,研究方向:计算机 网络与分布式系统。张跟鹏,男,硕士,副教授,研究方向:计算机网络,数据库应用。宋世延,男,研究方向:计算机系 统结构。 94 李京等:基于电子商务的个性化推荐系统研究 第39卷 这之前难免会浏览大量不相关信息,从而很容易使 用户产生疲劳直至失去购物兴趣甚至离开。基于 上述情况,电子商务网站面临着一个严峻的问题: 在用户浏览网站时,如何向其推荐合适的商品,从 而克服信息超载带来的不利影响? 基于电子商务的个性化推荐系统就是解决信 息超载问题的一种工具。针对电子商务,个性化推 荐系统指电子商务网站向客户提供商品信息和建 议,直接与用户交互,模拟商店销售人员向用户提 供商品推荐,帮助用户找到所需商品,从而JUb ̄,N完 成购买过程l3]。作为一个高效的电子商务个性化 系统,应该具有以下特点: 1)推荐产品的针对性 个性化推荐系统要能够了解和跟踪用户的偏 好、兴趣和需求,为用户提供满足其个性需求的各 类产品,排除不相关信息的干扰,为用户提供一对 一营销的个性化产品信息服务。 2)推荐产品的时效性 推荐系统推荐产品的客户是数以千万计的,面 对大量用户的产品信息需求,推荐系统要能够保证 信息的时效性,实现及时的、适当的信息反馈。 3)推荐的准确性和智能性 提供个性化产品服务的服务器可以提高数据 传送的准确性和权威性,并且使推荐更加智能化, 对用户需求的准确把握可以让用户感觉他们是唯 一的。 2个性化推荐系统的体系结构 2.1系统体系结构 个性化推荐系统采用B/S模式进行设计。服 务器端拥有用户兴趣模型库和推荐库,通过用户的 访问日志和行为路径等,构建用户兴趣模型库,并 向推荐库发送请求;推荐库接受模型库的数据请 求,按照用户兴趣模型计算推荐信息,最后对客户 端响应结果。系统体系结构如图1所示。 2.2系统的主要功能 基于电子商务的个性化推荐系统的主要功能 如下: 1)网页提取 该组件通过网络爬虫从网络上提取相关的网 页信息并进行下载,下载后将其存储于服务器上, 这些页面经过预处理后,用于建立推荐库。 2)特征分析 该组件用于分析从网上下载得到的页面,提取 鲁 申访问日志l昌网页提取J申 I 鲴蛔 国I、兴、—趣—模 —型—,库—一\ l国 J推 ——荐 库—/} l 图1个性化推荐系统体系结构图 关键特征,使用SVM对文档进行分类(聚类),把 网页特征和分类结果存储在推荐库里。 3)行为记录 该组件记录用户的访问日期和行为路径。 4)兴趣建模 通过收集到的用户信息对用户兴趣建模,生成 用户兴趣模型。 5)信息推荐 该组件充当推荐引擎的功能,按照用户的访问 路径和兴趣模型寻找下一个最有可能被访问的网 页文档,从而按照关键字将推荐库中相关联的网页 呈现给用户。 3 系统关键模块分析 3.1推荐库的设计与实现 3.1.1 网页提取 推荐系统通过网络爬虫来获取网页,该网络爬 虫以一个URI 地址为起点,先把这个地址加入队 列,然后启动一个下载线程,从队列中取出URL, 下载这个页面,并分析页面中所有的链接,把所有 的分析出的URI 加入队列中,每个下载线程从 URL中取出一个地址,进行下载。 3。1.2 网页预处理 为了能够对获取到的页面进行分析,提取特 征,必须对这些页面进行预处理,即先进行清洗,以 去除无用信息,仅保留表达页面内容的信息。清洗 程序的主要任务是提取网页中的内容信息,把广 告、相关链接、热门链接等信息以及html标签信息 去除,只留下内容正文的文字信息。具体清洗过程 为:页面html的布局主要是通过(frame?标签、(ta— ble)标签和<div?标签实现的,html的每一块的内 容都在一个或嵌套于多个(frame?、(table?或(div? 之中,程序可利用这点对页面首先分块,分块以后, 2011年第7期 计算机与数字工程 去除导航块,连接块等无用块。经分析无用块具有 的特征,经过统计多个页面的情况,本文程序限定 满足一些特征的块才为有用块。然后再除去 (script)(/script)块和html标签即可获得内容块 的文本。 3.1_3建立文档模型 通过建立文档的向量空间模型,由用户浏览 的网页特征向量或用户兴趣向量和推荐库中文档 的特征向量进行运算,以计算其和库中文档的相 似度,从而选择相似的文档,推荐给用户E43。向量 空间模型是建立文档模型的常用方法,在计算文 档相关度上有较好的效果,所以本文使用向量空 间模型(Vector Space Model,VSM)E53来对文档进 行建模。在该模型中,文档空间被看作是由一组 关键词向量所组成的向量空间,每个文档d表示 为一个规范化特征向量V( )一((k , ( )), …,( ,训 ( )),…,(k , ( ))),其中k (i===1, …,72)为第i个关键词,叫 ( )为关键词k 在文档 d中的权重,关键词的权重表示它们在文档中的 重要程度。k ,k:,…,k 可以是文档中出现的全 部关键词,也可以是经过选词处理后的关键词。 关键词k 在文档d中的权重7A2i( )有多种计算方 法,其中最常用的是TF-IDF算法E ,其经典计算 公式: / ( )一£ ( )log( 、,‘i ) 其中,tfi( )为关键词k 在文档d中出现的次数, N为所有文档的数目,ni为出现关键词k 的文档数 目。在处理网页时,对于出现在网页不同位置的关 键词还应赋予不同的权重[ q]。 在进行网页特征提取时,其主要任务是读人清 洗后的文本,进行分词,使用向量空间模型对文档 进行建模并保存文档模型。 3.1.4分类文档 在分类技术上,常用的方法有:建立决策树分 类器、贝叶斯分类器[9]、基于规则的分类器、支持向 量机(SVM)、k最近邻分类器等[1。 ̄n]。论文采用 SVME 叫。]进行文本分类,SVM在文本分类上有很 好的应用效果。针对所获取到的html文档,采用 SVM技术进行分类的流程如图2所示。 HTML文档H清洗程序H页面文本内容 标注分类的文档HSVM分类程 图2 SVM分类文档流程 3.2用户兴趣模型的设计与实现 3.2.1 用户兴趣的收集 用户的登录、浏览记录以及用户的访问行为都 记录在Web服务器上的日志文件中。通过分析这 些日志文件可以获取用户已浏览过的页面集合以 及浏览这些页面的时间长度,从而可以提取用户的 兴趣。 3.2.2用户兴趣的表示 获取用户兴趣之后,就需要采用适当的方式来 表示所获取的用户兴趣。这里本文采用了基于向 量空间模型的表示方法。向量空间模型是目前为 止最流行的用户模型表示方法。该方法用一个,z 维特征向量来表示用户模型((C ,7.U ),…,(C , "LU ),…,(c ,叫 )),其中C (i一1,…, )为第i个关 键词,训 为关键词C 的权重,权重可取布尔值和实 数值,分别表示了用户是否对某个概念感兴趣以及 感兴趣的程度。 基于向量空间模型的表示方法能够反映不同 概念在用户模型中的重要程度,而且方便了使用标 准向量运算来进行后续阶段的项目匹配任务[1 。 3.2.3 用户兴趣模型的表示 用户兴趣模型采用树形结构表示。在用户兴 趣模型的树形结构中,每个节点的存储结构定义 为:节点(节点名,权重),其中节点名为兴趣主题名 或特征词,权值表示用户对兴趣主题或特征词的偏 好程度。 每个用户都有一个树形的用户兴趣模型,按用 户名存储在用户兴趣库中。这种树形的存储方式 可以按用户名遍历兴趣模型,取得该用户的所有兴 趣主题和特征词,同时也便于用户兴趣模型的更新 与扩展。 用户对某个主题的兴趣可以描述成一个二元 组:(主题名,权值)。同一个用户感兴趣的所有主 题的集合构成该用户的兴趣主题集。某个主题包 含的特征词集合构成该兴趣主题的兴趣特征词集, 用户所感兴趣的兴趣主题包含的特征词集合构成 该用户的兴趣特征词集。因此,根据上述分析,可 以运用VSM法对用户兴趣进行向量化,具体说明 如下: 1)说明1:用户兴趣Hobby一{(H C ),…, (He,Ci),…,(H , )) 其中H 一( , )(1 )是一个二元组,表 示用户兴趣节点,t 为用户感兴趣的主题,砌 为兴 趣主题t 的权值,G是属于主题t 的兴趣特征词 李京等:基于电子商务的个性化推荐系统研究 第39卷 集。 2)说明2:用户兴趣主题t的特征词节点为二 元组L (c, ),f∈C , 为特征词C在用户兴趣主题 t中的权值。 3)说明3:U( )一(H ),H 一,H ,)),其 中t ∈T, 为用户感兴趣的主题总数。 3.2.4用户兴趣模型的建立 用户初次登录网站时,也希望能够像老用户一 样得到网站的兴趣模型的指导,实现个性化的推 荐。因此,在用户刚开始使用系统时,需要用户对 兴趣模型进行初始化。本文充分利用现有的兴趣 信息,建立初始用户兴趣模型,使得用户在初次使 用系统时,就能得到网站的指导与帮助。用户初次 使用该系统时,需要进行注册,除了需要注册一些 个人基本信息之外,还要进行一系列的兴趣主题选 择,即对用户兴趣模型进行定制。 网站将提供兴趣主题的树形控件供用户进行 层层递进选择,该选择过程实际上就是从兴趣辅助 主题词表中得到一个用户兴趣子树。由于在兴趣 辅助主题词表中的特征词数量很大,因此在设计的 过程中并没有将其用树形控件展开,而仅仅是对兴 趣辅助主题词表中的两层主题进行了展开,并要求 用户在选定兴趣主题时,必须要选到第二层兴趣主 题。对于用户选定的最底层的兴趣主题的权重在 初始化时本研究将设定一个常量叫,表示用户对该 主题的偏好程度。而对于其它父类兴趣主题的权 值则按照一定的方法进行自下而上的计算。 用户的兴趣和信息需求在一定时间内具有相 对的稳定性,但又不是一成不变的。当用户兴趣及 信息需求发生改变时,便需要对已有用户模型进行 相应的优化和更新。本文采用机器学习的方式自 动更新,如图3所示。 图3机器学习的用户兴趣模型自动更新 在该更新过程中,引入机器学习技术的目的在 于跟踪用户行为、学习用户兴趣,利用来自用户的 反馈信息通过机器学习作用于用户兴趣模型,有助 于提高信息收集的针对性和准确性。 4推荐系统的实现 有了前面介绍的推荐库和用户兴趣模型后,实 现个性化推荐系统需要做的就是利用推荐引擎完 成与推荐库和用户兴趣模型的交互。当客户登录 到电子商务平台进行选购商品的时候,系统就会记 录用户的选择路径,根据得到的路径与用户兴趣模 型中的数据进行分析,捕获用户下一个将要访问的 页面。通过该页面上的关键词,就会与推荐库中的 推荐文档建立联系,将与这些关键字相关的网页文 档推荐给客户。整个推荐流程如图4所示。 客户 用户兴趣模型 推荐库 登录电子商务平台1) ● 浏览商品 )一 路径分析) ● (获取兴趣网 + (找出关键字)__ 展示推荐信息) 结束 图4推荐流程图 J皇E 爿 口 在电子商务发展的今天,人们对商品信息的追 求日趋个性化,个性化的产品推荐成为研究者研究 的热点。论文采用B/S模式对电子商务个性化推 荐系统进行架构,进而分别设计推荐库和用户兴趣 模型库,最后在此基础上实现了电子商务个性化推 荐系统。 参考文献 Eli张宽海,张渡.网上支付结算与电子商务[M].重庆:重 庆大学出版社,2O04:312 [2]Borchers A,Herlocker J,Konstan J,et a1.Ganging up on Information Overload[J].Computer,1998,31(4): 106~108 1-3]Resnick P,Varian HR.Recommender systems EJ]. Communications of the ACM,1997,40(3):56~58 [4]邵秀丽,等.用户个性化推荐系统的设计与实现[J].计 算机工程与设计,2009,30(20):4681 ̄4685 E5]Salton G,Wang A,Yang C S.A vector space model for automatic indexing[J].Communication of the ACM,1975,18(11):613~620 [6]Salton G,Buckle B.Term-weighting approaches in an— 2011年第7期 计算机与数字工程 97 tomatic text retrieval[J].Information Processing and [10]Jiawei Han,Micheline Kamber.数据挖掘概念与技术 Management,1988,24(5):5l3~523 [M].范明,孟小峰,译.北京:机械工业出版社,2007: [7]宋斌,方小璐.基于网页特征的TF1DF改进算法[J]. 488 微计算机应用,2002,23(1):18 ̄20 [11]卢苇,彭雅.几种常用文本分类方法性能比较与分析 [8]初建崇,刘培玉,王卫玲.Web文档中词语权重汁算方 口].湖南大学学报,2007,34(6):67 ̄69 法的改进[J].计算机工程与应用,2007,43(19):l92~ [12]Cristianini N.支持向量机导论[M].李国正,王猛,曾 194 华军,译.北京:电子工业出版社,2004:163 [9]MeCallum A,Nigam K.A Comparison of Event Mod- [-13]刘秀松.基于改进的SVM文本分类建模[J].情报理 els for Naive Bayes Text c1assification[J].AAA卜98 论与实践,2007,30(6):841 ̄843 Workshop on Learning for Text Categorization,Madi— [14]吴丽花,刘鲁.个性化推荐系统用户建模技术综述 son。1998:41~48 [J].情报学报,2006,25(1):55 ̄61 (上接第66页) 在等检查间隔期的情况下,通过在不同状态到 r2]L.R.Rabiner.A tutorial on hidden Markov models 达故障状态的步数和检查间隔期,我们可以由式 and selected applications in speech recognition[J].Pro— (9)计算得到系统在不同状态到达故障的期望时 ceedings of the IEEE,1989,77(2):257 ̄286 间,即剩余寿命。不同状态下的剩余寿命如图5所 [3]H.M.Ertunc,K.A Loparo.A decision fusion algo— 示(Tl—O.67)。 rithm for tool wear condition monitoring in drilling[J]. International Journal of Machine Tools and Manufac- 当识别出装备到达某个状态时,通过模型可以 ture,2001,41:1347 ̄1362 得到装备到达故障状态的期望时间,由Tf我们可 [4]Jie Ying,Kirubar ̄an T.A hidden Markov-based algo— 以制定相应的维修计划,提前准备好维修人力和维 rithm for fault diagnosis with partial and imperfect tests 修资源,提高维修活动的效率。 [J].IEEE Trans On System Man and Cybernetics, 4 结语 2000,30(4):463 ̄473 [5]胡海峰,安茂春,秦国军,等.基于隐半Markov模型的 对于在使用过程中性能逐渐退化且退化状态 故障诊断和故障预测方法研究[J].兵工学报,2009(1) 可测量的系统,PHM可以充分利用检测手段得到 [6]Blimes,J.A A gentle tutorial of the EM algorithm 的状态信息,分析系统所处的状态,并依据退化状 and its application to parameter estimation for Gaussian 态制定相应的维修策略。与传统的定期维修相比, mixture and hidden Markov models[J].Technical Re— port,University of Berkeley,1998 采用这种维修策略不仅能够有效预防功能故障的 [7]Lee J M,Kim S J,Hwang Y,et a1.Diagnosis of me— 发生,还可降低系统的运行和维修成本。本文研究 chanical fault signals using continuous Hidden Markov 了基于马尔可夫过程的健康评估问题,运用马尔可 model[J].Journal of Sound and Vibration,2004,27 夫模型方法,将部件系统退化过程描述为有限状态 (6):1065 ̄1080 转移过程,建立了基于马尔可夫的健康状态评估模 [83 J.M.van Noortwijk.A survey of the application of 型,对PHM系统进行评估并对剩余寿命进行预 gamma processes in maintenance[J].Reliability Engi— 测,最后进行了案例分析,验证了模型的可行性。 neering and System Safety,2007 [9]贾希胜.以可靠性为中心的维修决策模型[M].北京: 参考文献 国防工业出版社,2007:102 ̄120 [1]曾声奎,Michael G.Pecht,吴际.故障预测与健康管理 [1O]Liporace,L.A Maximum likelihood estimation for (PHM)技术的现状与发展[J].航空学报,2005,26(5): multivariate observations of Markov sources[J]. 626~633 IEEE Trans.Inf0rrn.Theory,1982,IT_28:729~738 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- yrrf.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务