第29卷第10期 科技通报 Vo1.29 No.10 2013年10月 BULLE HN 0F SCIENCE AND TECHN0LOGY 0ct.20l3 数据挖掘技术在网络舆情预测中的应用 蒋玉婷 (江苏海事职业技术学院信息工程系,南京21 1 170) 摘要:提出一种数据挖掘技术的网络舆情组合预测模型。首先利用灰色模型GM模型对网络舆情进行 预测,然后采用BP神经网络对GM模型预测结果进行修正,同时采有粒子群算法优化BP神经网络参数, 最后采用某网络某热门话题对模型进行仿真实验。仿真结果表明,本文模型可以准确预测网络舆情变 化趋势,提高了网络舆情预测精度。 关键词:网络舆情;灰色模型;BP神经网络;粒子群优化算法;数据挖掘技术 中图分类号:TP183 文献标识码:A 文章编号:1001—7119(2013)10—0073—03 Internet Pubic Opinion Prediction Model Based on Data Mining J/ang Yuting (Department of Information Engineering,Jiangsu Maritime Vocational and Technical College,Nanjing 21 1 170,China) Abstract:The combination of network public opinion presents a data mining mode1.First carries on the forecast to the network of public opinion by using grey model GM model,then uses BP neural network to predict the result of GM model is modified,and adopts the particle swarm algorithm to optimize BP neural network parameters,the simulation experiment on a network model is a hot topic.The simulation results show that,the model can accurately predict the network public opinion trends,improve the prediction accuracy of network public opinion. Key words:network public opinion;grey model;BP neural network;particle swarm optimization algorithm;data mining 针对网络舆情预测问题,国内学者提出了大量的 1 灰色模型和BP神经网络概述 研究方法,主要包括线性预测方法和非线性预测方法}J_, 线性预测方法主要有自回归移动平均、指数平滑等模 1.1灰色模型 型。这些算法参数设置少,易实现,但是它们均是基于 在诸多的灰色模型中,以灰色系统中单序列一阶 网络舆情线性建模,与网络舆情变化特点不一致,预测 线性微分方程模型GM0,1)模型最为常用。 准确性差[2-51。非线性预测方法是基于数据挖掘技术进 行建模,主要有隐马尔可夫、灰色模型、神经网络和支 (1)设有原始数据序列 ,n为数据个数。 。】= (1), (2),…, n)] (1) 持向量机等,网络舆情预测准确性得以提高嘲。但这些 (2)对原始数据序列累加以便弱化随机序列的波 非线性算法存在各自不足,如灰色模型对随机波动性 动性和随机性,得到新数据序列: 较大的数据拟合效果较差;神经网络网络结构复杂、要 : ”(1), ”(2),…, ”(n)】 (2) 求样本大,易出现过拟合缺陷;支持向量机训练时间 长,速度慢,参数确定没有统一标准。为此,一些学者将 式中, ’( ):∑ (n),t=1, n=l 各种数据挖掘技术组合在一起,出现灰色马尔可夫的 (3)建立相应的微分方程模型为: 网络舆情等组合模型,预测结果明显优于单一数据挖 掘算法。 氅 + )d :M (3) 式中,。为发展系数; 为灰色作用量。 收稿日期:2012一l1—22 作者简介:蒋玉婷(1981一),女,南京人,硕士,讲师,研究方向:计算机软件,计算机应用,数据挖掘等。 4 科技表1某网络热门事件的收集数据 Table l A network popular event collect data 赣A攫 棠攥 输出謦 图1 BP神经网络结构图 Fig.1 BP neural network structure 鬣 1 6 1l l6 2l 26 对间 图2数据趋势曲线图 Fig.2 Data trend chart 只要求出参数0, ,就可以计算出 m“),进一步可 以得到 的未来预测值。 (4)用累加生成数据构造累加矩阵日与常数项向量 %,即: = (2), (3),…, (Ⅳ)r (5)用最小二乘法对灰参数求解 通报 第29卷 【 J =( ) 曰 (6) (6)该微分方程的解为: (抖1)= 。 (1 u ]e一+ (7) @ (7)累减还原得到: 。 (£+1)= t’(£+1)— (£):(1一e一 (1)一— 】e一 (8) n 1.2 BP神经网络 设 ,X2,…,X 为BP神经网络输入向量,y ,l,:,…, y 为输出值,∞ 和∞ 为为权值,典型的BP神经网络拓 扑结构图如图1所示。 当BP神经网络输入和输出节点数分别为 和m时, 其反映几个自变量与m个因变量之间映射关系。采用粒 子群算法优化B脐申经网络参数。 2 网络舆情预测模型的构建 2.1网络舆情数据的预处理 (1)数据聚类。原始网络舆情数据是一种凌乱、无 序的信息,需要采用聚类算法对其进行构造,成为有序 的信息。设网络舆情数据聚类后形成的任意类别聚类 的纯度定义为: P(S ): 1 max(n:) (9) 几 式中,n:是属于预定义类i且被分配到第厂个聚类的 文档个数;n,r为第 个聚类类别中的文档个数。 那么,网络舆情数据的总聚类纯度为: purity= P(s ) (10) (2)热点获取。网络热点话题是指以网络为传播媒 介,被一定人群广泛、持续关注,并能够反映网络舆论 状况的信息集合。网络热点话题可被量化地表示为多 维向量: P=( , :,…, f; , …, st,S …,so) (11) 式中, 表示热点词语, 表示核心标题,S 表示 网络来源。 采用基于流量内容中热点词语的相关度计算所的 算法,利用基于高密度连接区域的密度聚类方法得到 热点词语簇,结合热点词语相关的网页标题及网络来 源信息,得出网络热点话题。 (3)数据聚合。数据聚合目的是收集到有关某组织 基于各个不同变量的信息,用它来收集基于热点话题 的离散时间序列。时间序列每个时刻的值是到当前时 刻为止网络上所有关于某个热点话题的帖子及其回复 的总量。 第l0期 蒋玉婷.数据挖掘技术在网络舆情预测中的应用 测试囊 图3 GM模型的预测结果 Fig.3 GM model predicted results 图4 GM—PSO—BPNN的预测结果 Fig.4GM—PSO—BPNN prediction results 2.2 GM—PSO—BPNN的网络舆情预测过程 GM模型适用于对近似指数增长、数据相对较少的 数据序列进行预测。利用GM—PSO—BPNN对网络舆情 进行预测过程为: (1)首先收集网络舆隋历史数据,并对其进行预处理。 c2)对网络舆惰 亍 泡累加,生威屎加 : I】= ”(1), ”(2),…, ”(n)】 (12) 式中, ”(z)=∑ (n)。 n;1 (3)采用归一化方法对生成的数据进行缩放,将它 们变换到[0,1】之间,具体归一化公式为: 一 — max( )--堡 min( ) (1 3) 式中,Xi x1分别为转换前后的值,min(x)和max(x)分 别代表示网络舆情数据的最小值和最大值。 f4)建立网络舆情的GM预测模型,并对测试样本 进行预测,将GM预测值进行“累减还原”运算,得到网 络舆情预测值。 (5)计算GM模型预测值与实际值的残差s(o,( ),得 到: 。 (£) ∞(t)-x(。’(£) (14) (6)将残差训练样本输入到BPNN网络训练,并采 用粒子群算法优化其参数,建立网络舆情预测模型,并 获得残差的预测值。 (7)将BPNN的残差预测值与GM模型预测结果进 行融事,得到网络舆情最终预测结果。 3仿真实验 3.1数据来源 对网络某热门话题30天数据进行收集,然后对其 进行预处理,得到相应的时间序列,具体见表1。网络数 据趋势曲线如图2所示。 3.2灰色模型的拟合结果 将前2o+数作为训练集输入到GM模型中,用后lO 个数据进行预测,得到预测结果如图4所示。从图3可 知,GM模型可以对网络舆情数据进行较好地预测,可 以总体把握网络舆情变化趋势,但是预测精度有待进 一步提高,因而采用PSO—BP神经网络对其预测结果进 行修正。 3.3 PSO—BP神经网络对GM模型预测结果进行 修正 采用GM模型的预测残差输入到BP神经网络进行 学习,并采用粒子群算法对BP神经网络初始权值和阈 值进行优化,得到预测结果如图4所示。 从图4fil知,相对于GM模型,GM—PSO—BPNN模型 的预测精度有所提高,这表明GM—PSO—BPNN综合了 GM模型和BP神经网络的优势,可以深入挖掘网络舆 情数据之间的变化规律,是一种有效、高精度的网络舆 情预测模型。 4结束语 本研究将多种数据挖掘技术组合在一起,提出一 种基于数据挖掘技术的网络舆情组合预测模型。仿真 验证了GM—PSO—BPNN用于网络舆情预测的有效性。 参考文献: [1】 钱爱兵.基于主题的网络舆情分析模型及其实现【J】.现 代图书情报技术,2008,4:49—55. [2】 黄文玲,李锐锋.BBS传播的舆论引导[J】.武汉理工大学 学报:社会科学版,2005,18(3):417—420. 【3】 蒋凡,高俊波,张敏,等.BBS中主题发现原型系统的设计 与实现[J】.计算机工程与应用,2005,41(31):151—153. [4] 张程,陈自郁,古平,等.基于DoM树结构的Blog网页自动 识别[J].计算机应用研究,2008,25(5):1489—1491. 【5] 程辉,刘云.基于时间序列的网络舆情预测模型[J】.网际 网路技术学刊,2008,9(5):429—432.