您好,欢迎来到意榕旅游网。
搜索
您的当前位置:首页内容分析技术在网络舆情智能检测中的应用

内容分析技术在网络舆情智能检测中的应用

来源:意榕旅游网
、l 匐 似 内容分析技术在网络舆情智能检测中的应用 Content analysis of public opinion in the intelligent network detection 杨秋平 YANG Qiu—ping (东莞理工学院网络与教育技术中心,东莞523808) 摘要:目前,网络舆情越来越引起人们的关注,特别是部门对网络是突发事件、重大事件的网络 发帖、新闻跟帖等关注。基于此目前已经有网络舆情检测方面的系统出现。本文首先对现有 的网络舆情检测系统进行概述,分析其不足,并重点介绍了构建“网络舆情智能检测与分析系 统”涉及的内容分析技术应用。 关键词:智能检测与分析;网络舆情;数据挖掘;内容分析 中图分类号:TN91 5 文献标识码:A 文章编号:1 009—01 34(2011)3(下)-0053-03 Doi:1 0.3969/3.issn.1 009-01 34.2011.3(下).20 0引言 随着互联网的快速发展,网络媒体作为一种 新的信息传播形式,已深入人们的日常生活。网 络言论活跃已达到前所未有的程度,不论是对国 家的讨论,还是针对国内或国际的重大事件, 都能马上形成网上,这种网络来表达观点、 的把握所需的信息,提高决策效率,启迪决策思维。 3)系统能提供各种舆情的趋势分析信息给决 策者。 1.2经济效益分析 目前,由于互联网的日益普及,各种舆情的 不断涌现,好的、坏的都有。部门、大型机 传播思想产生压力,达到任何部门、机构都 无法忽视的地步。 构、社会企业等都希望能尽早识别不良倾向的、 带有煽动或甚至含有社会危害的言论,或者是获 取落实、制度实施效果等信息。这些需要揭 网络舆情通过BBS论坛、博客、新闻跟贴、 转贴等形式对现实生活中某些热点、焦点问题等 进行反应,其中不乏较强影响力、倾向性的言论 和观点。如果引导不善,负面的网络舆情将对社 会公共安全形成较大威胁。对相关部门来说, 如何加强对网络的及时监测、有效引导,以 示了系统建设在带来巨大的社会价值的同时带来 巨大的经济效益。 2同类系统现状 基于目前的网络现状,为数不多的网络舆情 监测系统基本上是采用关键词搜索进行舆情信息 检测,由于关键词搜索的查全率和查准率都不高, 因此网络舆情监测的效果不够理想,更是无法自动 发现新的舆情点。 及对网络危机的积极化解,对维护社会稳定、 促进国家发展具有重要的现实意义,也是创建和 谐社会的应有内涵。 1 系统价值 1.1社会效益分析 网络舆情智能监测与分析系统利用数据挖掘 技术实现对网络舆情的统计分析,并以此作为网 络舆情监测的管理的依据。具体作用表现在以下 几个方面: 部分网络舆情检测系统只是在企业内部使用, 无法适用于部门等大型机构,部分系统采用 的算法效率低,不能快速对数据进行处理,因而 无法满足超大网络环境下的舆情检测与分析,无 法做到自学习成长,没有类似知识库的自动累积 处理功能,必须人工协助处理。基于此种情况, 1)系统向决策者提供客观、准确的舆情信息, 有利于决策者做出正确的决策。 提出创建 网络舆情智能检测与分析系统 项目来 解决这些问题…。 2)系统向决策者提供系统的、高效的、综合 的、全面的舆情信息,便于决策者全面的、正确 收稿日期:2011-02-22 3网络舆情智能检测与分析系统 该系统核心部分包括信息获取、信息处理、 作者简介:杨秋平(1963~),男,湖南汨罗人,高级工程师,硕士,主要从事计算机网络、计算机应用方面研究。 第33卷第3期2011-3(下) I53】 、l生 訇 化 前端信息展现几个部分。实现从网页获取数据, 利用数据挖掘技术对数据进行清洗、提炼、分析 总结,最终形成决策信息并存入数据库中,提供 灵活的前端查询机制,把信息传递给决策人员。 网络舆情智能检测与分析系统实现以下目标: 1)对热点话题、敏感话题识别。2)实现倾向性分 析。3)实现对舆情主题的跟踪。4)自动形成舆情 摘要。5)形成趋势分析报告。6)自动识别突发事 件及发展趋势。7)对敏感内容实现预警。8)提供 舆情分析统计报告提供决策支持。 该系统最重要的就是实现对网络舆情网页内 容的分析技术。下面就着重就此技术的应用进行 研究和总结。 4核心技术研究 在网络舆情检测与分析系统构建时,一个重 要的方面就是实现对网络舆情的内容进行深入分 析。下面将对此技术的应用方法进行深入探讨。 该技术涉及到以下几个方面,分析单位的制 定、设计分析维度、抽取数据建立样本、量化处 理、信度分析、统计处理。 4.1分析单位设置 分析单位是指在内容分析法中描述或解释研 究对象时,所使用的最小、最基本单位。当分析 单位比较大时,常常需要选择一些与其有关的中、 小层次的分析单位来加以描述、说明和解释。选 择分析单位与具体的研究目标、研究总体密切相 关,并以它们作为确定和选择的基础。 在网络舆情智能检测与分析系统中,我们把 采集典型的舆情内容作为分析单位,如采集单词 或单个符号、主题、人物以及意义的词组、 句子、段落乃至整篇web文档都可以作为分析单 元。对于复杂的舆情可以采取多个分析单元。这 些内容将用于系统进行计算机进行机器学习 。 4.2设计维度体系 分析的维度,又称分析的类目,是根据研究 需要而设计的将资料内容进行分类的项目和标准。 设计分析维度、类别有两种基本方法,一是采用 现成的分析维度系统,二是研究者根据研究目标 自行设计。第一种方法:先让两人根据同一标准, 编录同样用途的维度、类别,然后计算两者 之间的信度,并据此共同讨论标准,再进行编录, 直到对分析维度系统有基本一致的理解为止。最 【54】 第33卷第3期2011-3(下) 后,还需要让两者用该系统编录几个新的材料, 并计算评分者的信度,如果结果满意,则可用此 编录其余的材料。第二种方法:首先熟悉、分析 有关材料,并在此基础上制定初步的分析维度, 然后对其进行试用,了解其可行性、适用性与合 理性,之后再进行修订、试用,直至发展出客观 性较强的分析维度为止。分析维度必须有明确的 操作定义。 在设计分析维度过程我们坚持以下基本原则: 1)分类必须完全、彻底、能适合于所有分析 材料,使所有分析单位都可归入相应的类别,不 能出现无处可归的现象。 2)在分类中,应当使用同一个分类标准,即 只能从众多属性中选取一个作为分类依据。 3)分类的层次必须明确,逐级展开,不能越 级和出现层次混淆的现象。 4)分析类别(维度)必须在进行具体评判记 录前事先确定。 5)在设计分析维度时应考虑如何对内容分析 结果进行定量分析,即考虑到使结果适合数据处 理的问题,以便计算机来处理。 4.3抽样处理 抽样工作包括两个方面的内容:一是界定总 体,二是从总体中抽取有代表性的样本。内容分 析法常用的三种抽样方式是:来源取样、日期抽 样、分析单位取样。 4.4量化处理 量化处理是把样本从形式上转化为数据化形 式的过程,包括作评判记录和进行信度分析两部 分内容。 评判记录是根据已确定的分析维度(类目)和 分析单位对样本中的信息作分类记录,登记下每 一个分析单位中分析维度(类目)是否存在和出现 的频率。要做好评判记录工作,需要注意以下几 个方面: 1)按照分析维度(类目)用量化方式记录研 究对象在各分析维度(类目)的量化数据(例如, 有、无、数字形式、百分比)。 2)采用事先设计好的易于统计分析的评判记 录表记录。先把每一分析维度的情况逐一登记下 来,然后再做出总计。 3)相同分析维度的评判必须有两个以上的评 判员分别做出记录,以便进行信度检验。评判记 I 录的结果必须是数字形式。 甸 似 研究目标进行比较,得出关于研究对象的趋势或 特征、或异同点等方面的结论。 量化与统计是舆情内容分析中的重要步骤。 4)在根据类目出现频数进行判断记录时,不 要忽略基数。 4.5可信度分析 内容分析法的可信度指两个或两个以上的研 究者按照相同的分析维度,对同一材料进行评判 我们应用类目、等距和等比三种尺度将舆情内容 量化编码,转换成计算机能识别的符号进行统计。 利用频数、平均数、百分比、众数、中位数等描 结果的一致性程度,它是保证内容分析结果可靠 性、客观性的重要指标。 内容分析法的信度分析的基本过程: 1)对评判者进行培训; 述性统计技术,结合方差分析、卡方分析、相关 分析、回归分析等推断性统计技术。在得到量化 数据之后,对这些数据进行合理的解释和分析, 最后形成舆情分析的结论。 2)由两个或两个以上的评判者,按照相同的 分析维度,对同一材料进行评判分析; 5结束语 本文先介绍了目前网络现状、同时就同类分 析产品的不足进行了描述。另外着重从网络舆情 智能检测构建涉及的核心技术算法进行描述。 3)对他们各自的评判结果使用信度公式进行 信度系数计算; 4)根据评判与计算结果修订分析维度(即评 判系统)或对评判者进行培训; 5)重复评判过程,直至Ⅱ取得可接受的信度为止。 参考文献: [1】J.Han and M.Kamber Morgan Kaufmann.韩家炜译.数据 挖掘:概念与技术.计算机工程与应用,2000:PI34—167. [2】威滕,弗兰克.数据挖掘实用机器学习技术(原书第2版). 计算机科学丛书,2006,P86—91. 『3】西格兰.集体智慧编程.计算机科学丛书. 4.6统计处理 对评比判结果(所获得数据)进行统计处理。 描述各分析维度(类目)特征及相互关系,并根据 {岛‘ 竞‘ 翕● . 岛 岛‘{盘‘ 翕Ir 竞‘. 岛‘ 函‘ 岛‘ 翕} 矗 竞‘ 出‘ 霸} 翕} 竞 岛‘{禹‘{高‘ 是I 【上接第52页】 表1仿真结果 码书训练算法 SOM using transform vector quantizati0n….IEEE Trans PSNR 30.60 初始码书算法 随机抽取法 Commun,1987,35(5):352—359. 【3]Nasrabadi N M,King R A.Image coding using vector quantization:a review[J].IEEE Trans Commun,1988, 均值排序法 随机抽取法 FSoM 31.5O 3O.96 32.17 36(8):957—97 1. [4】Gafiychuk V V,Datsko B Izmaylova J.Analysis of data 均值排序法 clusters obtained by self-organizing methods[J】.Physical— 4结束语 本文在训练集随机抽取法的基础上提出了一 Statistical Mechanics and Its Applications,2004,341(10): 547—555. 种新的初始码书的获取方法——均值排序法,并 将其应用到SOM和FSOM的矢量量化中。它的图 像恢复质量比训练集随机抽取法高。 【5】Nasrabadi N M,Feng Vector quantization of images based upon the Kohonen self-organizating feature maps[C] ||ProIntjointConf NeuralNetworks,SanDiego.CA.Is.n , 1988,1:101—108. 参考文献: [11 Buzo A,Gray A H,Gray R M,et a1.Speech Coding based upon vector quantization【J1.IEEE Trans Acoust Speech Signal Processing,1980,28(10):562—574. [2]Nasrabadi N M,King R A.A new image coding technique 【6】Linde Y,Buzo A,Gray R M.An algorithm for vector quantizer design[J].IEEE Trans Commun,l980,28(1): 84—95. [7]黎洪松.一种新的自组织神经网络算法 .北京师范大学 学报(自然科学版),2005年10月,第41卷,第5期:496—498. 第33卷第3期2011-3(下) I551 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- yrrf.cn 版权所有 赣ICP备2024042794号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务