数字图书馆-技甫平台 浅议数字图书馆知识发现系统中的用户画像 ——以天津图书馆为例 刘 速(天津图书馆) 摘 要:本文分析了数字图书馆知识发现系统中用户画像的概念、特性及作用。以天津图书馆为例,从数据来 源、数据采集、信息识别、模型搭建等方面就用户画像的构建进行详细阐述,并提出可视化统计描述、多维度 交叉分析、用户关系图谱等用户画像分析方法。 关键词:用户画像;数字图书馆;知识发现;天津图书馆 中图分类号:G250.76 文献标志码:A 文章编号:1005--8214(2017)06—0l03—04 The Persona in Digital Library Knowledge Discovery System ——-TakingTianjin Library as an Example LiuSu Abstract:This paper analyses the concept,characteristics and functions of personas in digital library knowledge discovery system. Taking Ti蚰jin library as an example,the paper elaborates the construction of persona from four aspects of sources of date,data as- quisition,information identiicatfion and model building.It suggests the analysis approach of visual statistical description,muhidi- mensional cross analysis and user relationship graph. Keywords:Persona;Digitla Library;Knowledge Discovery;Tianjin Library 数字图书馆知识发现系统是数字图书馆个性化 1 数字图书馆知识发现系统中用户画像的概念、特 性及作用 1.1用户画像的概念 信息服务的实现手段之一,其通过挖掘信息资源与 用户的内在关系,来揭示未被完全发现或利用的模 式和规律,满足用户的知识信息需求。在云计算和 用户画像源于人类对自我诉求的探究。随着大数 大数据理论发展趋势下,数字图书馆服务逐渐向集 中、开放的网络平台转移,这就为大规模收集用户 数据、开展以用户为中心的知识发现系统研究提供 了可能。图书馆期待着在海量用户数据中发现有价 值的信息和知识,并提供深层次的知识服务。与之 相对应的,用户画像作为近年来不断成熟的数据分 据技术的应用发展,人们更注重其实际用途,将其作 为一种勾画目标用户、联系用户诉求与设计方向的有 效工具。_2]交互设计之父Alan Cooper最早提出了这 一概念,他认为用户画像是真实用户的虚拟代表,是 用户画像的应用领域非常广泛,如电子商务、社 建立在一系列真实数据之上的目标用户模型。[3] 交网络、金融等很多行业,都对用户画像形成了独特 析工具,已在许多领域实现成功应用。用户画像通 过对用户数据的挖掘提炼,尽可能全面细致地抽出 一的理解和认识。结合天津图书馆已有实践,笔者仅从 数字图书馆知识发现系统研究角度对其概念进行阐 个用户的信息全貌,帮助解决如何将数据转化为 价值的问题。|1]由此,借助用户画像实现用户的精 准分析,就成为数字图书馆知识发现系统的重要研 究内容。 述。用户画像通过全面收集用户使用数字图书馆过程 中产生的信息数据,精准刻画出用户个体或群体的信 息全貌,从而规划和描述用户获取知识的方式和规 [基金项目]本文系文化部科技创新项目“数字图书馆知识发现系统研究”(项目编号:2014kjcxxm05)研究成果之一。 1 03 数字图书馆-技带平台 律,实现深层次的知识发现与服务。 1.2用户画像的特性 读习惯等进行群体特征剖析,从而在与知识发现技术 相结合的基础上形成统计描述、对人群流动趋势和行 为特征进行聚类分析、对用户问的知识信息需求进行 关联分析等。 2数字图书馆知识发现系统中用户画像的构建 2.1 用户画像的数据来源 (1)动态性。用户画像产生于用户信息,而用户 信息由静态信息和动态信息两部分组成。在数字图书 馆知识发现系统中,静态信息,如姓名、年龄、ID (读者证号)等主要涉及用户属性特征,相对稳定; 动态信息,如点击、阅读、下载等会随行为发生而持 用户画像来自于丰富、大量的用户数据,而数 续累加,用户在系统中的每次行为都会使现有的用户 画像丧失时效性。此外,用户也会受环境、心理、需 求等因素影响,改变其行为方式。这些因素都决定了 用户画像是实时动态变化的。 (2)时空局限性。用户画像的动态性使其不可避 免地具有时空局限性。在时间上,其对于时效性非常 敏感,某一时刻的用户画像对该时刻的知识发现最为 有效,距离时间越远,画像精准度越低,参考价值也 越差。在空间上,不同的应用领域有着不同的侧重 点。如果说营销领域的用户画像侧重用户的消费习 惯,数字图书馆知识发现领域的用户画像则重在发掘 用户获取利用知识、信息的特征和规律,因此,需针 对领域特点建立相应功能的用户画像。 (3)知识性。在利用数字图书馆过程中,用户为 了得到解决问题或指导决策的知识而产生了如检索方 法、查询步骤、资源选择等行为信息,这些信息中恰 恰蕴含了许多资源获取的知识和经验。图书馆通过对 大量行为信息进行清洗、筛选、建立用户画像,能够 实现其中经验、方法、手段及规律的抽象化总结,并 以可视化方式被用户共享,由此,就使得用户画像具 有较强的知识性。 1.3用户画像的作用 (1)推动知识服务。推动知识服务是用户画像 在数字图书馆知识发现系统中作用的最直接体现。 用户画像以用户信息数据为核心,通过分析用户的 基础信息、阅读行为和兴趣偏好,描绘其特征画像, 能够在一定程度上对用户获取知识的方式和规律作 出解释、评价和可视化的关联显示,体现知识点与 知识点、知识点与用户、用户与用户之间的相互关 系,方便用户更好地掌握和利用,有效提升知识服 务的质量。 (2)辅助数据挖掘。辅助数据挖掘是用户画像的 重要作用。在知识发现过程中建立用户画像,能够实 现对用户的深度分析,明确哪些用户需要知识和信 息,哪些用户具有潜在的信息需求,并根据用户的文 化程度、知识背景、年龄层次、职业、学科领域、阅 1 04 据内容越全面,形成的画像就越精准。数字图书馆 的用户数据主要涉及以下两个方面:①图书馆管理 系统的注册、借阅等实名数据;②网站系统、数字 资源服务系统的登录、阅读、下载等行为数据,以 及微信、APP等移动平台的访问、续借、咨询等行 为数据。然而,这些数据通常存储在多套服务系统 中,各系统管理相对独立,数据间也无关联,在构 建用户画像之前,首先要实现各服务系统间的数据 整合。结合现有服务内容,天津图书馆对ALEPH、 微信、网站、一码通等系统中的数据进行串联,由 注册数据分析出用户属性数据,由借阅数据、检索 数据、阅览数据等分析出用户行为数据,用户属性 数据和行为数据则共同构成了用户画像的主要数据 来源(见图1)。 图l跨系统的用户画像数据整合 2.2用户画像的数据采集 用户画像数据由结构化、半结构化和非结构化的 数据组成。研究表明,图书馆大数据的采集具有数据 海量、来源广泛的特点,半结构化与非结构化数据占 大数据总量的85%以上。_4 其中,结构化数据主要是 注册数据、借阅数据等,相对容易采集。而半结构化 和非结构化数据则由浏览、点击等行为数据组成,需 要为此建立有效的采集方式。经过多次论证,天津图 书馆确定了对两大类型数据进行分别采集的方案。对 于结构化数据主要采用系统导入方式;对于半结构化 和非结构化数据则通过JAVA Script语言编写采集程 序,以免安装、免插件的方式,在不影响用户正常使 用的前提下,实现跨平台、跨系统的数据采集并发送 至受理程序。 数字图书馆-技 平台 2.3用户画像的信息识别 信息识别是用户画像构建的重要内容,其核心工 作就是给用户贴“标签”。标签通常是人为规定的高 度精炼的特征标识,如年龄、性别、地域、用户偏好 等,最后将所有标签综合起来,就可以勾勒出该用户 的“画像”。 根据知识发现系统特点,以及数据整 合、采集、预处理后的分析结果,天津图书馆从用户 属性、行为属性、资源属性、阅读偏好等维度对用户 画像进行标签化的识别。其中,用户属性主要是对用 户基础特征的描述,如用户ID(读者证号)、姓名、 性别、年龄、职业、IP地址等,用于识别用户身份和 构成群体画像;行为属性是对用户的页面操作、登录 操作、检索操作、阅览操作等行为作出的描述;兴趣 偏好用来反映用户的潜在特征,是由检索、阅览及下 载的资源内容、资源来源、资源类别等分析得出;资 源属性包括与资源内容相关的属性、与资源责任者及 其所属机构相关的属性、与资源分类相关的属性以及 与资源来源相关的属性。上述维度再与时间、数据维 图2用户画像的框架模型 像开启了一个以用户为核心牵引的数据呈现模式。沿 着可视化的路线,不同维度的标签代表了大量的信息 和记录,从抽象到细节逐步体现画像数据结构。同 时,考虑到用户画像的动态性和局限性,还应根据用 度进行组合,就初步形成了多级标签、多级分类的用 户画像标签体系。 2.4用户画像的模型搭建 户行为累加以及需求、偏好的变化,不断完善和修正 现有画像。 在跨系统数据整合、分类数据采集、标签体系 形成基础上,可进一步进行用户画像框架模型的搭 建。如图2所示,数字图书馆知识发现系统中用户 画像的实现过程可分为三层,即资源层、数据采集 层和数据挖掘层。资源层是用户画像的供给平台, 在数据串联整合的同时对数据来源进行有效组织。 数据采集层是用户画像的基础,通过多种方式采集 敬攥挖撇 用户属性和行为数据,并有序存储到原始数据库中, [ [ / l 兰!!璺 !! j 1 画圃 同时收集用户交互界面的反馈信息,对用户行为数 据的采集形成补充。数据挖掘层是构建用户画像的 核心,利用数据清洗、集成、变换、归约等预处理 技术,初步完成标签建模和用户识别、建立用户个 体画像,再通过数据挖掘算法完善标签模型、建立 匡 圃/厂 \ ID=TJLDO0000253***/’ ’。。‘访目。弧I∞次 。。 。’’。。’ 。 ’。 。 ’’ 。。。‘。一 \ \ / /匝 匦 亟 用户群体画像和关系图谱,最终将分析结果以可视 化方式展示给用户。 3数字图书馆知识发现系统中用户画像的分析 3.1 基于画像的可视化统计描述 图3 用户个体画像示例 相较于用户个体画像,用户群体画像针对的不再 是单个用户,而是分析、呈现一群用户的特征。根据 用户的属性信息,可以从年龄、性别、职称、星座、 职业对用户群体进行画像分析。 3.2基于画像的多维度交叉分析 对用户画像进行全面的分析判断,并以直方图、 雷达图等方式作出可视化统计描述,是图书馆挖掘画 像数据价值,精确、动态分析用户的知识结构和行为 模式的重要手段。图3是由天津图书馆用户数据所形 在知识发现系统用户画像研究中,单纯从用户 属性维度进行群体特征分析存在一定局限性。一是 用户属性多为静态数据,欠缺实时性;其二是基于 成的个体画像示例。不同于以往的统计分析,用户画 1 05 数字图书馆・技带平台 用户属性的群体画像往往过于简单、粗糙,很难在 其中发现隐藏的规律和特征。因此,在用户属性画 口 E 像基础上,还需结合行为属性、资源属性、时间、 数据等维度,对用户群体作交叉分析,如获悉人群 流动趋势、了解细分行为特征分布情况等。人群流 动趋势是反映数字图书馆服务的重要内容。结合行为 属性、时间等维度,图书馆可将用户划分为活跃用 户、沉默用户、流失用户、回流用户四类,通过观测 各群体活跃程度的变化来判断其可能流失性,进而获 悉服务效果和用户粘性,或利用个性化服务手段作出 提前干预以增强用户群体的忠诚度和活跃等级。 如图4所示,将年龄作为人群划分标准,通过行 为细分,了解各年龄段人群的行为特征,评估各群体 在网站、微信、数字资源等服务中的价值等级,并根 据其所呈现出的不同使用习惯和兴趣偏好提供更具针 对性的知识服务。 图5基于画像分析的用户关系图谱 用的不断深入,必将在知识发现中扮演更加重要的角 色,而如何与百度、腾讯、阿里等服务商实现用户数 据的流动共享,也将成为提升数字图书馆知识发现效 果的重要内容。 团 弛 [参考文献] 璐 驻彩 彩 __ 『 _ [1]牛温佳.用户网络行为画像[M].北京:电子工 业出版社.2016. 崩历 ‘ [翻 工丁】l ∥t [2]张哲.基于微博数据的用户画像系统的设计与实 |1 1 ■l 1 现[D]。武汉:华中科技大学,2015. 口21. ̄mPll 口n—咿月HI 口n碰嘲P■ J,,一瓣 拐0积÷ 船璐A l\ [3]张小可,等.贝叶斯网络在用户画像构建中的研 究[J].移动通信,2016(22):22—26. [4]马晓亭.基于情景大数据的图书馆个性化服务推 荐系统研究[J].现代情报,2016(4):90—94. 】■■即 O ∞∞ Ⅷ m Ⅲ IIII,l 洲^—l 口n州 臣P■ 图4不同年龄用户群体的细分行为特征分析 3.3基于画像的用户关系图谱 [5]曾鸿,昊苏倪.基于微博的大数据用户画像与精 准营销[J].现代经济信息,2016(16):306— 308. 数字图书馆知识发现是一种知识的组织和流动过 程。其中,用户及用户之间的知识获取和传递则发挥 着重要作用,用户在利用知识的同时也成为传播知 识、分享信息的有效载体。基于已经形成的画像分析 结果在用户间建立知识关联和交互,就成为运用用户 画像实现知识发现的关键。如图5所示,在对用户个 体或群体作出的精准刻画和描述基础上,结合知识发 现技术,图书馆可以在具有相似知识需求、兴趣偏 好、使用习惯和活跃程度的用户间建立多重关联,形 成基于画像分析的用户关系图谱,以揭示深层次的价 值规律。 [作者简介]刘速(1984一),男,情报学硕士,天津 图书馆馆员,研究方向:数字图书馆知识发现。 [收稿日期]2017—03—23 [责任编辑]菊秋芳 作为大数据时代的产物,用户画像为数字图书馆 知识发现提供了更多的发展空间和可能。通过对海量 数据的挖掘分析,用户画像尽可能全面、细致地提炼 出用户的信息全貌,从而把存储在图书馆中的数据转 化为潜力巨大的知识和价值。随着用户画像研究与应 1 06