陈博1马秀峰2(1.曲阜师范大学传媒学院 山东日照 276826)(2.曲阜师范大学继续教育学院山东曲阜273165)摘 要:[目的/意义]旨在对今后我国LDA模型研究提供指导。[方法/过程]利用文本挖掘方法及可视化研究工具 Citespace,对CNKI数据库中2009—2019年发表的有关LDA模型研究的357篇CSSCI期刊论文,从发表年份、作者、作者机构及
关键词等几个方面进行计量分析。[结果/结论]我国LDA模型研究在近10年一直呈现岀上升趋势,处于发展阶段,在未来仍 有较大的发展空间;国内研究人员及团队的研究较为分散,没有形成较大的合著网络并且在研究主题上过于单一;研究大多集 中在算法和模型的开发上,较少涉及在线文本数据方面的应用研究,但随着互联网技术的发展社会网络分析逐渐成为研究热 点,过多集中于模型和算法上的状况有所好转;大数据与LDA模型进一步融合将是未来的发展方向。关键词:LDA模型;热点主题;研究现状;Citespace中图分类号:G350 文献标识码:A doi:10.3969/j .issn.1005-8095.2020.11.019Visualization Analysis of the Status Quo of Researches on LDA Model in ChinaChen Bo1 Ma Xiufeng2(1. School of Communication, Qufu Normal University, Rizhao Shandong 276826)(2. School of Continuing Education, Qufu Normal University, Qufu Shandong 273165)Abstract: [ Purpose/significance ] The paper is to provide guidance for the future LDA model research in China. [ Method/
process ] The paper uses text mining method and visualization tool Citespace to make a biblimetric analysis of 357 CSSCI articles on LDA
model published in CNKI database in 2009—2019 from the aspects of publication year, author, author institution and keywords. [ Result/conclusion ] The LDA model research in China has been showing an upward trend in recent ten years, is in the development stage,
and there is still a large space for development in the future. The research of domestic researchers and teams is relatively scattered, and
there is no large-scale coauthored network, and the research topic is too single. Most of the research focuses on the development of algorithms and models, less on the application of online text data, how-ever, with the development of Internet technology, social network analysis has gradually become a research hotspot, and the situation of too much focus on models and algorithms has been improved. Fur
ther integration of big data and LDA models will be the future development direction.Keywords:LDA model; hot topic; research status; Citespace
0引言题结构的途径之一,LDA模型作为一种对文本信息
进行语义抽取的主题模型,为科研人员进行文本主
随着互联网技术的发展,互联网上的数据呈指
数式增长,科研人员如何从这些海量文献中全面、快
题挖掘提供了一种新方法。LDA模型广泛应用于文
本信息检索[2]、主题发现和演化⑶、图像处理[4]、聚
速、准确地识别出研究主题,并探索其演化趋势,一 直以来都是情报学的研究重点茁。而文本挖掘技术
类⑸、推荐系统⑷、过滤系统⑴、预测系统⑻、资源
是帮助科研人员从海量非结构化文献中发现新兴主 标识[9]等诸多领域。国内学者对LDA模型进行了
收稿日期:2020-03-26*本文系国家社会科学基金一般项目“面向知识流分析的中文文本主题生成模型构建及应用研究”(项目编号:18BTQ069)成 果。作者简介:陈博(1993—),男,2019级硕士研究生,研究方向为图书馆知识服务;马秀峰(1963—),男,硕士,教授,研究方向为图
书馆知识服务。1282020 年 11 月陈博等:国内LDA模型研究现状可视化分析第11期(总277期)比较深入的研究,已取得了较为丰富的研究成果。 为了厘清国内LDA模型研究的发展脉络,本文对中
Citespace中能够识别和分析。1.2研究方法国知网(CNKI)期刊数据库中CSSCI期刊论文的发 本文采用科学文献计量的方法, 使用文本挖掘及 可视化研究工具Citespace绘制科学知识图谱,展示
表年份、作者、作者机构及关键词等进行计量分析, 并形成可视化图谱,直观清晰地展现出国内LDA模
型当前的研究现状,以期对今后我国LDA模型的研 究提供指导。LDA模型研究中各个知识单元之间的关联,从论文作 者、机构、关键词等维度进行可视化分析,发现国内 LDA模型研究的演进历程、热点主题及发展趋势。2研究结果及分析1研究设计1.1 数据来源本文的文献数据样本来源于中国知网(CNKI) 期刊数据库。检索主题设置为“LDA”或“LDA模 型”或“LDA主题模型”或“主题模型”,来源类别选
2.1 描述性统计2.1.1 研究论文年度分布一个学科或领域的文献数量在不同时间段的分
布在一定程度上可以反映出这个学科的发展速度及
其当前所处的发展阶段,帮助我们能够从整体上把
为“CSSCI”进行检索,时间设置为2009—2019年,检
索时间截至2019年11月22日,共检索到358篇相
握国内LDA模型研究的发展脉络[10]o本文选取
2009—2019年国内有关LDA模型的357篇CSSCI
关文献,剔除通知、报告等无关样本后,最终确定357 篇为有效论文。将这357篇论文从中国知网中导出
并保存,文件格式为Refworks,方便数据导入
期刊论文进行年度发文量统计,绘制了图1所示的 折线图。+发表Affifi势图1国内LDA模型研究论文年度分布图从图1可知,近10年国内LDA模型的相关研 究一直呈上升趋势,特别是在2016—2017年间增长
2.1.2 研究论文来源期刊及学科分布通过对文献来源期刊进行分析,可以发现相关
率较高,增长速度较快,2017—2018年间增长速度稍 有趋缓,但在2019年又有了较大的提升。整体来
研究主题的学科范围,以有利于研究者确定自己的 研究方向[11]o LDA模型作为一种挖掘文本主题的
看,国内LDA模型的研究呈上升趋势,仍处于持续 发展的过程中。这也从侧面说明了研究人员利用 LDA模型对文本信息进行挖掘,发现其中主题演化
趋势仍然处于不断发展过程中,对文本主题的研究 也将一直是研究人员研究的主要内容。 今后如何更
模型工具,通过对其来源期刊及学科范围进行统计, 不仅有利于研究者确定自己的研究方向,也能帮助
我们了解LDA模型广泛应用到哪些领域,对其当前 使用情况及使用范围有更清晰的了解。通过对样本
论文进行期刊来源统计发现,排名前五位的期刊依 次是《数据分析与知识发现》(75篇)、《图书情报工
好地扩展LDA模型,使其更有针对性地应用到文本 挖掘研究中,仍需要研究人员投入其中进行研究,并 使其逐步走向理性。作》(49篇)、《情报科学》(38篇)、《情报理论与实 践》(37篇)、《情报杂志》(34篇),占总发文量的1292020 年 11 月情报探索第 11 期(总 277 期)73.07%,如图2所示。■■■ MII8M5F■ ttlBft*■ ta«TM■ ■代 fan■■■ ■«««*■ flSR■■■■18■ ■«««« ■电■■ MMV«MRiM4oni U4
■ BKtlieia识■
■■ BUtMUUR▲ 1/2 ▼图2国内LDA模型研究论文来源期刊分布通过进一步对样本进行学科范围内的统计发 现,发文量排名前五位的学科领域依次是计算机 内对于LDA模型的研究主要集中在计算机和图书 情报档案领域。但随着学科交叉渗透,学科的主题
(121篇)、图书情报档案(116篇)、新闻传播(52 篇)、科学学与科技管理(18篇)、社会(10篇),占总
结构会变得越来越复杂,学科的主题揭示也越发困
难,如何清晰有效地揭示学科主题,让LDA模型研 究主题更加有效,也是研究者在应用模型过程中需
要解决的问题。发文量的 83.65%, 如图 3 所示。 从样本论文期刊分 布图和样本论文学科分布图的集中度,可以看出,国
图3国内LDA模型研究论文学科分布图2.1.3 研究论文机构分布武汉大学(57篇)、南京理工大学(22篇)、中国科学
对发文机构进行统计可以帮助我们了解学术研 究的核心机构和前沿阵地。通过对样本论文的发文院大学(19篇)、华中师范大学(17篇)、北京工业大
学(14篇)和南京大学发文量(14篇),占总发文量图4国内LDA模型研究论文机构分布图1302020 年 11 月陈博等:国内LDA模型研究现状可视化分析第11期(总277期)从图4可知,国内LDA模型研究论文发文量排 名靠前的机构基本上都是图书情报学科发展比较好
的大学。其中武汉大学以较为领先的优势排在发文
我们了解该领域的核心科研团队及研究主题,对把 握该领域的发展状况具有重要的意义。利用Citespace对样本论文进行合著者网络分析和聚类,
量第一名,可见武汉大学是目前国内LDA模型研究 比较核心的机构。每个类别以出现频次较高的关键词进行标注,便可
以得到发文量较高的研究团队及研究主题,如图5
所示。2.2作者合作网络对相关论文的作者合作网络进行分析可以帮助
图5国内LDA模型研究文献合著者网络图从图5可以看出,目前国内对LDA模型研究排 名前五的研究团队分别是李湘东团队、王曰芬团队、
行时间线程的可视化分析,如图6所示,可以帮助研 究者从时间维度上把握LDA模型研究团队及相应
马静团队、唐小波团队、黄莉团队;但研究团队间的 合作不够密切,没有形成较大的合著网络,并且通过
出现频次较高的关键词进行标注只得到“文本分类”
主题的转移或变化。从图6可以看出,科研人员对 LDA模型的文本分类研究主要集中在2014—2017 年,在研究主题上同样存在研究相对单一的情况。一个标签;虽然LDA模型在对文本信息进行语义抽 取、主题发现和主题演化等方面具有广泛应用,但目
前国内研究团队对其研究的主题还比较单一。由于LDA模型具有良好的扩展性,能够根据不 同情况需要对模型进行扩展延伸,国内学者虽然对
LDA模型进行了深入研究,但主要还是将LDA模型 应用到文本信息的挖掘上。应用到音频、视频、图像
等信息形式上的研究也有不少,但还未形成规模。
随着5G时代的到来,以视频和音频形式呈现给用户
的短视频和播客也迅速升温,因此,如何利用LDA 模型从视频、音频中挖掘蕴含其中的主题,并且做到 对用户进行精准推荐,有待研究团队进一步扩展研
究主题,并在研究中扩大其应用范围;另外,学科间 交叉渗透情况的深入伴随着主题挖掘的难度将进一
图6国内LDA模型研究文献作者主题时间线程图2.3关键词分析2.3.1 高频关键词分析对 LDA 模型研究论文的关键词进行统计分析, 能够发现LDA模型研究的核心内容和热点主题。
步加大,加强研究团队间的合作以及不同领域的研 究团队间的合作也是有效获取主题的途径。此外, 利用 Citespace 对研究团队及研究主题进本文对国内LDA模型研究论文的关键词进行统计
分析,选取了词频大于 2 的关键词, 利用 Citespace 对
其进行中心度计算,如表1所示。从表1可以看出,
1312020 年 11 月情报探索第11期(总277期)在除去搜索的关键词主题模型、LDA、LDA模型及
LDA主题模型后,排在前面的依次是主题演化、微 博、文本挖掘、文本分类、网络舆情、主题挖掘、主题
2.3.2 共词分析共词分析法属于内容分析法的一种,通常用来 分析某一学科或研究领域内不同专业词汇在同一篇 文章里的共现情况,其共现频次和关联程度呈正相
发现、社会网络等词汇,基本上反映了 LDA模型研 究的核心主题。表1国内LDA模型研究文献关键词词频中心度表关,能够反映出该学科或领域的研究热点和发展趋
势[12]o为了反映各个关键词之间的核心主题,本文 对关键词进行了共现分析,如图7所示。节点年轮
序号关键词频次/次98中心度首次出现年份2012201212主题模型0.75LDALDA 模型LDA 主题模型主题演化微博644725181512120.500.453201320152014201220162014的厚度和相应时间段内关键词数量成正比,节点之 间连线的粗细能够帮助我们理解不同主题之间关联
456789100.300.050.010.070.130.080.07的强度,节点与节点之间连接的趋势和所处位置也 能够反应关键词的发展趋势以及研究热点的态势。 从图7可以看出,除了节点较大的几个关键词节点
文本挖掘文本分类网络舆情主题挖掘992015201520142016外,从节点间连线的发展态势上判断“社会网络分
析”“知识结构””话题演化” “词向量”等连线较粗且 发展态势呈现向外延展的词也是近年来新出现的研
1112主题发现社会网络80.060.077究热点。__ \"Ft*.可懸主題潮礦酵W旳
J5布斯采恪—洋醮型/a主题模型
业知识流S!扁甜会斎殛_* -fntan馳度主题抽取酬究那点主■识踌—.科学文歐、一1牲会网络分析3MA图7国内LDA模型研究论文关键词共现网络图谱在国内LDA模型研究论文高频关键词共现网 络细化图谱(见图8)中,共现频次较高的节点会自
“大数据”概念从2008年8月明确提出到如今
动聚成一团,表示关键词之间的联系比较密切,共同 反映同一个主题,关键词之间连线的粗细反映关键
已逐渐渗透到各行各业,甚至在2020年新型冠状肺
炎疫情期间,新闻中能明确看到“大数据”找人、“大
词共现的强弱,“研究趋势” “框架理论” “社会化标
签” “ WI-LDA” “语义分析” “科学前沿” “大数据”等
数据”追踪等关键词出现,可见与“大数据”相结合 是未来各行业、各领域的发展方向。崔金栋等[13]基
关键词与主题模型有着较强的联系;“吉布斯采样” “关联规则” “卷积神经网络” “文本分类” “词向量”
于大数据融合 LDA 主题模型探索微博信息推荐方
法,提升了前端数据查全率和数据处理效率,推荐精
“大数据”等关键词与LDA模型有着较强的联系; “微博”“文本聚类” “政策文本” “专利主题分析” “k-mean” “主题提取”“大数据”等关键词与LDA有
极强的联系。从图8可以看出,3个关键词“主题模
准度。钱旦敏等[14]基于LDA主题模型结合大数据 对信息服务文献主题提取与演变进行了研究。综上,在大数据的背景下,我们需要面对的是海 量的非结构化的数据,而这些数据不仅仅是文本,还 有视频、音频、图像等。如何将LDA模型与大数据型” “ LDA模型” “LDA”都与“大数据”有较强的联1322020 年 11 月陈博等:国内LDA模型研究现状可视化分析第11期(总277期)图8国内LDA模型研究论文高频关键词共现网络细化图谱相结合,从非结构化的数据中挖掘出蕴含其中的主 题及其主题演化越来越受关注。在大数据背景下, 国内LDA模型的研究也在不断扩大其在应用方面 的范围,因为大数据不仅仅包括文本数据,还有音频
数据、视频数据、图像数据,结合LDA本身良好的扩 展性,可以进行推荐系统应用研究、预测应用研究、 过滤应用研究、图像处理应用研究等,进一步开发
型”4个关键词从时间维度上呈现逐渐发展的过程。
在2016年出现“大数据”概念后,LDA模型研究范 围扩展到了社会网络分析。图9中同样值得让人注意的关键词是“情感分 析”。所谓“情感分析”就是通过识别和提取给定的
文本语义的取向,从而判断用户的情感信息[15]o “情感分析”最早出现在对电影评论文本情感倾向性
LDA 模型在应用方面的价值, 既是 LDA 模型未来发 展趋势,也是使其不断走向理性的方向。2.3.3关键词热点时区分析关键词热点时区分析图是用来展现一个学科或 领域的关键词在不同时段上的分布和变化情况,能
分类的研究中[16],随着互联网技术和数据挖掘技术
的快速发展,关于情感分析的研究成果不断涌现,并
呈现出一定的研究主题和发展趋势,对情感分析的 应用也从电影行业更多地被应用到电商行业,电商 在面对用户群体时更希望对用户做到精准服务,并 且将自身对用户的关注焦点放到了用户需求上,而
够帮助我们从时间维度上把握LDA模型研究的热
点主题变化趋势[12]o这对有效把握某个领域的发
展状况与趋势具有重要意义。国内LDA模型研究 论文关键词热点时区如图9所示。从图9可以看
出,LDA模型研究的关键词在不同时段的发展过程, 本文“ LDA ”“主题模型”“ LDA模型” “LDA主题模
通过扩展LDA模型可以更有效地实现情感分析,能 够更准确地定位用户并把握用户情感变得极为重
要,从时区图中也能看出这一关键词在整个LDA模 型发展中呈现出的一种发展态势。图9国内LDA模型研究论文关键词热点时区图1332020 年 11 月情报探索第11期(总277期)3研究总结为了厘清国内LDA模型研究的发展脉络,本文
以CNKI收录的2009—2019年(检索时间为2019年 11月22日)的357篇CSSCI期刊论文为数据源,采
用科学文献计量研究方法,使用Citespace对国内 LDA模型研究的相关论文进行了知识图谱分析,研
究结论为:(1)通过论文的数量统计发现,近10年国
内LDA模型的相关研究一直呈上升趋势,特别是在 2016—2017年间增长率较高,增长速度较快,目前处
于发展阶段,在未来仍有较大增长的空间。此外,相
关研究多集中在计算机、图书情报领域,说明LDA 模型在信息学、图书馆学等社会科学研究中也起到
了重要作用,研究机构也多集中在图书情报学科实
力较强的院校机构,如武汉大学、南京理工大学、华
中师范大学、中国科学院大学等。(2)通过作者合作
网络可以发现,目前相关作者和研究团队对LDA模
型的研究较为分散,没有形成整体上较大的合作合
著网络,并且研究团队在研究主题内容上相对单一。(3)通过对关键词进行高频关键词分析、共现分析和
热点时区分析,可以发现LDA模型研究在不同阶段 有不同的研究重点,研究重点也呈现出一种逐渐生
长的状态。从关键词共现分析、热点时区分析结合 作者合作网络来看,可以进一步发现,国内对于LDA 模型的研究大多集中在开发新的模型和算法上,较
少涉及在线文本数据方面的应用。(4)大数据与
LDA 模型的进一步融合是未来的发展方向。参考文献[1] 马秀敏.中国典型管理期刊文献主题发现与演化 分析[D].大连:大连理工大学,2011.[2]
唐晓波,房小可.基于文本聚类与LDA相融合的
微博主题检索模型研究[J].情报理论与实践,2013,36(8):13485-90.[3] 吴查科,王树义.基于LDA的国内图书馆学研究
主题发现及演化研究[J].新世纪图书馆,2019(7) :90-96.[4]
曾培龙.基于概率主题模型的图像场景分类研究
[D].桂林:广西师范大学,2015.[5] 宿青.基于LDA模型的聚类检索应用[J].中国新 通信,2017:19(5) :39-40.[6] 卢盛祺,管连,金敏,等.LDA模型在网络视频推 荐中的应用[J].微型机与应用,2016,35(11) :74-79.[7] 寇晓淮,程华.基于主题模型的垃圾邮件过滤系统 的设计与实现[J].电信科学,2017,33(11) :73-82.[8] 张小平,周雪忠,黄厚宽,等.一种改进的LDA主 题模型[J].北京交通大学学报,2010,34(2):111-114.[9]
胡秀丽.基于VSM和LDA模型相结合的微博话
题漂移检测[J].兰州理工大学学报,2015,41(5):104-109.[ 10] CHEN C C, TSENG Y D. Quality evaluation of
product reviews using an information quality framework [ J] . Decision Support Systems,2011,50( 4) :755-68.[11] 胡德华,种乐熹.国内外学科馆员研究的可视化分 析与比较[J].图书馆理论与实践,2015(6) :36-41.[12] 冯亚飞,胡昌平,李霜双.国内学术资源研究的知
识图谱与热点主题[J].情报科学,2019,37(10) :3-7,19.[13] 崔金栋,杜文强,关杨.基于大数据与LDA融合
的微博信息推荐方法研究[J].情报科学,2018,36(9):27-
31,76.[14] 钱旦敏,郑建明.基于LDA主题模型的信息服务
文献主题提取与演变研究[J].数字图书馆论坛,2019(10):
16-22.[15] 何伟林,谢红玲,奉国和.潜在狄利克雷分布模型
研究综述[J].信息资源管理学报,2018,8(1) :55-64.[16]
周建,刘炎宝,刘佳佳.情感分析研究的知识结构
及热点前沿探析[J].情报学报,2020,39(1):111-124.
因篇幅问题不能全部显示,请点此查看更多更全内容