第27卷第1期 中文信息学报 Vo1.27,NO.1 2013年1月 JOURNAL oF CHINESE INFoRMATION PROCESSING Jan.,2013 文章编号:1003—0077(2013)01—0007—08 一种基于搭配的中文词汇语义相似度计算方法 王石 ,曹存根 ,裴亚军。,夏飞 (1.中国科学院计算技术研究所智能信息处理重点实验室,北京100190; 2.中国科学院大学,北京100049;3.全国科学技术名词审定委员会,北京100717) 摘 要:词汇间的语义相似度计算在自然语言处理相关的许多应用中有基础作用。该文提出了一种新的计算方 法,具有高效实用、准确率较高的特点。该方法从传统的分布相似度假设“相似的词汇出现在相似的上下文中”出 发,提出不再采用词汇在句子中的邻接词,而是采用词汇在二词名词短语中的搭配词作为其上下文,将更能体现词 汇的语义特征,可取得更好的计算结果。在自动构建大规模二词名词短语的基础上,首先基于tf idf构造直接和间 接搭配词向量,然后通过计算搭配词向量间的余弦距离得到词汇间的语义相似度。为了便于与相关方法比较,构 建了基于人工评分的中文词汇语义相似度基准测试集,在该测试集中的名、动、形容词中,方法分别得到了0.703、 0.509,0.700的相关系数,及100 的覆盖率。 关键词:语义相似度;词汇搭配;相似度基准测试集 中图分类号:TP391 文献标识码:A A Collocation—based Method for Semantic Similarity Measure for Chinese Words WANG Shi ,CAO Cungen ,PEI Yajun。,XIA Fei ’ (1.Key Laboratory of Intelligent Information Processing,Institute of Computing Technology, Chinese Academy of Sciences,Beijing 100190,China; 2.University of Chinese Academy of Sciences,Beijing 100049,China; 3.China National Committee for Terms in Sciences and Technologies,Beijing 100717,China) Abstract:The word similarity measure plays a basic role in many NI P related applications.In this paper,we propose a novel and practical method for this purpose with acceptable precision.Guided by the classic distribution hypothesis that“similar words occur in similar contexts”.we suggest the collocations in tWO—word noun phrases can serve as better contexts than the adjacent words because the former are more semantic related.By using automatic built large—scale noun phrases,we firstly construct tf—idf weighted words vectors containing direct and indirect colloca— tions,and then take their cosine distances as desired semantic similarities.In order to compare with related approa ches。we manually design a benchmark test set.On the benchmark test set,the proposed method achieves the eorre— lation coefficients of 0.703,0.509,and 0.700 on nouns,verbs,and adjectives,respectively,at a coverage 100 . Key words:semantic similarity,word collocation,similarity benchmark set 度,前者是基于认知分类学的相似度,后者是基于主 1 引言 题的相似度 。例如,“网球”与“排球”具有较高的 语义相似度,因为两者具有相近的认知属性;而“网 词汇间的相似度分为语义相似度和分布相似 球”与“网球拍”的语义相似度较低,但具有较高的分 收稿日期:2011-05—03定稿日期:2011-08—16 基金项目:国家自然科学基金资助项目(60573063,60573064,60773059,610350O4);国家863计划资助项目(20¨。7AA01z325); 国家社科基金重点资助项目(10AYY003)。 作者简介:王石(1981一),男,博士,助理研究员,主要研究方向为知识获取,中文信息处理;曹存根(1964一),研究员,博 士生导师,主要研究方向为大规模知识获取与管理;裴亚军(1976--),男,博士,副编审,主要研究方向为语言学和术语学。 8 中文信息学报 布相似度,因为两者较多地共现在相同文档中。 本文仅专注于词汇问的语义相似度计算。词汇 问的语义相似是词汇间的一种基本的语义关系,但 很难明确定义。文献[2]中给出的一个典型示例是, 与“方法(method)”有较高语义相似度的词包括“技 术(technique,0.169)”、“步骤(procedure,0.095)”、 “手段(means,0.086)”、“策略(strategy,0.074)” 等(对原文示例进行了翻译,括号中的第一个值为英 文原词,第二个值为相似度)。词汇间的语义相似度 计算是很多应用的基础。以信息检索为例,如果一 个用户通过关键字“知识获取+方法”进行检索,那 么结果也应当包含“知识获取+技术”的文档,这可 以通过利用语义相似的词汇实现。另外,词汇的语 义相似度计算还对机器翻译 、本体学习 】、浅层语 义分析 等产生积极作用。 本文提 了一种基于二词名词短语的中文词汇 语义相似度计算方法,该方法对传统分布相似度假 设“相似的词汇出现在相似的上下文环境中”进行了 扩展,提出利用词汇在二词名词短语中的搭配词,而 非传统的句子中的邻接词作为词汇的上下文的方 法。其动机在于,相较于邻接词,搭配词更能体现词 汇的语义特征。方法采用了基于tf—idf的权重计算 方法构建搭配词向量,然后通过计算向量问的余弦 距离来获得语义相似度。由于目前汉语中没有比较 词汇相似度效果的基准测试集,本文借鉴英文基准 测试集[_6 类似的方法,给出了基于人丁评分的中文 基准测试集。在该测试集中的名、动、形容词中,本 文提出的方法分别达到了0.703、0.509、0.700的相 关系数,且覆盖率均达1.()(]。 2 相关工作 目前存在两种词汇相似度计算方法,即基于语 义词典的方法和基于语料库的方法。前者往往依赖 于已有的语义分类词典,而后者基于分布假设“相似 的词汇 现在相似的上下文环境中”。 基于语义词典的方法通常依赖语义词典。一般 来说,语义词典将词汇按照语义类别组织在树状层 次结构中。在英语中,许多学者基于WordNet【_7 做 了大量的丁作,基本思想是利用树中两个词间基于 上下位的路径长度作为这两者相似度的一种度量。 文献[8]提出,在类似于WordNet的语义词典中,两 个词汇间的语义距离正比于两者问的上下位路径长 度。文献[9]在此基础上定义了一种词汇相似度计 算方法。 文献[1O l1]除r考虑路径长度之外,还考虑_, 路径上词汇的特异性,若一个词的深度越低,那么其 特异性越大,权重越高。文献[12]基于相似的思想 提出了新的计算方法。文献[13]除去考虑L下位父 系之外,还考虑部分整体关系和同义 反义关系。 在汉语中,文献[3]提出了基于《知网》(How Net)的词汇相似度计算方法。与WordNet不同,知 网采用了1 500多个义原,通过一种知识描述语言来 对每个概念进行描述。方法将两个词汇的整体相似 度分解成多个义原对相似度的组合,对于义原对的 相似度计算,采用根据HowNet中上下位关系得到 的语义距离的方法。 语义词典的构造耗时费力,基于语义词典的}亩J 汇相似度汁算方法受限于收词规模,冈此近年来研 究者们关注基于语料库的方法。分布假设“相似的 词汇 现在相似的上下文环境中”是该类方法的基 础。词汇的上下文中并不直接包含词、『厂的语义信 息,而是仅仅体现r词汇间的分布规律,[大1此该类 法面临的主要问题是如何跨越从分布相似到语义棚 似的差距[1 2]。文献[2]系统介绍了从利用分布卡¨ 似假设计算词汇间语义相似度的理论和方法。丈献 [141则采用了一种利用语义受限的上下文矩阵,i1 算词汇相似度的方法。 两种方法均有不足之处,基于语义词典的词 相似度计算方法受限于词典的规模;而对于基于 料库的方法而言,一方面因上下文中含大量与词汇 语义无关的噪声词汇,影响准确率;另一方面需要人 规模的语料及全文匹配算法,算法效率较低。 3 方法 3.1 基本思想 本文提出_『利刚一种新的基于}面]汇 二词名例 短语l}】的搭配词来计算词汇的语义相似度的方法. 方法基于下面直观似设。 假设1(相似词汇的相似搭配假设) 语义相似 的同汇在二词名词短语中有相似的搭配词。 之所以利用二词名词短语中的搭配词作为上F 文,而不是用词汇在大规模语料中的邻接词,是 丁 以下两点考虑。 1)词汇在二词名词短语中的搭配同能反映其 某方面的语义性质。例如,“塑料 n杯子 n”、“砖/n 1期 王石等:一种基于搭配的中文词汇语义相似度计算方法 9 房子/n”、“木头/n桌子/n”等体现了人造物的材质 信息,“沉稳/a青年/n”、“残暴/a杀手/n”、“聪明/a 宝宝/n”等体现了人物的性格特征,“安置/v场所/ n”、素,即存在<叫 ,W >∈S,< 1,,叫 >ES,<W , W >一<叫1,,叫2 >八 ≠ <W,*>一{<W,W > l<叫,W >E S),<*,叫>一{<W ,叫>J<W , “搬运/v系统/n”、“美容/v中 t ̄,/n”等体现了场 2)较之基于语料库的词汇上下文,从二词名词 叫>ES}分别是S中以W为前缀和后缀的名词短 语。记l<W,*>l和I<*,W>1分别为S中以W 为首/尾的名词短语数量,l W ,W:l为S中<W , W >的数量。 基于假设1和以上定义,下面给出基于词汇在 二词名词短语中的直接搭配的词汇相似度算法。算 法的基本思想是首先将词汇的搭配词构造成中文实 所的功能,等等。 短语集合中构造词汇上下文具有更高的抽取和计算 效率。 3.2 算法描述 算法的关键在于如何量化词汇的搭配词向量, 词空间中的向量,然后通过计算向量间的余弦距离 来计算相似度。算法首先构造了词汇的搭配词向量 (步骤1、2),该向量是一个实数向量,元素值表示搭 配词的重要程度。借鉴信息检索中的思想,用tf_ 以及如何计算搭配词向量间的相似度。从构建搭配 词向量的角度,算法分为利用直接搭配词和利用间 接搭配词的方法。 3.2.1基于直接搭配词的方法 记二词名词短语有重集S一{<叫 ,73) >I 1≤i idf_1 值作为其量化指标。然后通过计算搭配向量 的余弦距离作为词汇的相似度,并需要两个词汇的公 共搭配词达到一定规模,以消除偶然性(步骤3、4)。 ≤ },其中W ,W 为中文词汇。S可含有重复元 算法1 基于二词名词短语互接捂配的词汇语义相似度度量算法 输入:S,词对< , > 输出:z, 基于二词名词短语集中直接搭配的相似度sim (z, ) 步骤: 1.给定中文实词向量< ,W ,…,W >,词 在S中的左直接搭配向量L(w)=<∞gfj_,wgtL2,…,wgtL">是一个 维 实数向量,元素wgtL为词W 在W的所有左搭配词中的重要程度:' r0 if<W ,W> < , > 弋 2.同步骤1,W在S中的右直接搭配向量R( )一r0 g( ×如g( si毗c 一 ) e if<W,W z>∈<W, > ’ wgtR,wgt ̄R,Z…,wgtn"> 1 两者左直接搭配向量的余弦距离,即 ) e ㈤ 3.记sim ( , )为z, 基于左直接搭配词的相似度,若35",Y共同的左搭配词数小于阈值0,则sier (z, )一一1;否则为 4.同步骤3,计算z, 基于右直接搭配词的相似度sier (z, )。若z,.y共同右搭配词数目小于参数0,则sier (z, )一 1;否则, si‰c 一 ㈩ 5. im ( , )一 (4) 在实验中,我们取最小公共搭配词数量阈值 一的交集只有“时间”,但实际上“快餐/餐/茶”,和“阳 光/日光/时光”分别非常相似。现在重新审视假设 100,这可以减小因搭配词过少带来的偶然性错 误,但也导致很多词对因公共搭配词较少而没有办 法计算相似度。以“正午/中午”为例,其右搭配词为 <正午{快餐,烈日,时光,时间,阳光,…)>、 <中午{茶,日光,餐,时间,班机,…)>。搭配词 1,如果首先计算得到“快餐/餐/茶”,和“阳光/日光/ 时光”分别是相似的,那么就可以将它们看作是相似 的公共搭配词,进而得到“正午/中午”是相似的。基 于这个想法,我们进一步提出了基于词汇间接搭配 10 中文信息学报 的词汇语义相似度算法,以解决因公共搭配词较少 所带来的部分词汇无法计算的问题。 3.2.2基于间接搭配词的方法 先计算搭配词间的相似度,这显然是一个递归的过 程,需要多次的迭代。 对任意两个词 ,W,,记两者基于是次迭代搭 配词的相似度为sier (叫 ,叫 ),下面给 的算法计 基于间接搭配词的相似度度量算法是基于直接 搭配词方法的改进,区别在于在构造词汇的搭配词 向量时,向量元素不是搭配词,而是一组彼此相似的 词所组成的词簇。因此,在构造搭配词向量时,要首 算两者第k十1次迭代的相似度。算法2基本思路 与算法l类似。 算法2基于二词名词短语间接搭配词的词汇语义相似度度量算法 输入:S,SIM 一{sim ( ,wj)),词对<z, > 输出:sier女十1( , ) 步骤: 1.记sier々(z)一{ I sim (z,z )> )为与 基于k次迭代搭配相似的词集; 2.给定词簇向量< ̄simk(w ),sim (w2),…,sim ( )>,词 在S中的 +1次左搭配词簇向量 (nt)一 , wgt}.,…, g瑾>是一个1l"维实数向量,元素wgt}.为词簇sim (u, )在 的所有左搭配词簇中的重要程度,取值为 r0 if(V ∈sim (ZU ),< ,W > ,*。) wg&一 l<sim ( ), >i l <*, >l <【S sim ( ),*> )else 、 (6) £ >,其中 <* 3.同步骤2,得到 在S中的右搭配词向量R (sim (∞))一<wgt ̄,wgtn,…,e f 0 if(V 7.U ∈sim (w ),<w ,u- 1 ×log( ) e 用这两个模型从生语料中识别名词短语。 4.2基准测试集构建 4.sim c… (n )计算与算法1第3/4/5步相同。 算法2在一定程度上解决了算法1中因公共搭 配词较少带来的问题,缺点在于迭代中m现的错误 会在下一次迭代中扩散。如在前面“正午/中午”的 例子中,若错误得到“快餐”和“班机”有较高相似度, 那么在下一次迭代中,“正午”和“中午”的公共搭配 英语的语义相似度度量常用的基准测试集勾 Miller Charles测试集。1987年,文献[1 7]挑选r 65对英语词汇并进行了人T打分作为相似度计算 词中将包含两者的公共搭配词簇,引起错误。一方 面,随着迭代的进行,这些错误将逐步积累,影响准 确率;另一方面,随着迭代的进行,越来越多的搭配 的测试集,后来文献[6]从这65对词中选 3()对重 新进行相似度评分,此后研究英语词汇相似度计算 词将会减少搭配词较少带来的偶然性,这将有助于 提高相似度度量准确率。在下面的实验中将可以看 到,当迭代次数达到一定值时,方法将在准确率上达 方法大都以这30对词语作为标准测试用例,称为 Miller Charles测试集。汉语中还没有类似的基准 测试集,为了便于评价词汇相似度汁算方法存『11义 中的效果,我们借鉴Miller—Charles测试集的构造 方法,手T构建了一个基准测试集。 到一个峰值,过多或过少均会导致准确率的下降。 4 试验 4.1 基于大规模生语料的二词名词短语集构建 4.2.1 测试同对选择 我们精心地挑选名词对30对,动词、形容}亩]各 2()对,在挑选的过程中考虑到两个挑选标准。 1)分布均匀性:挑选的词对应该尽可能地均 我们利用文献[16]中的方法,从大规模生语料 匀的分布于多个认知领域; 中抽取二词名词短语集合。文献[1 6]所提方法是完 全自动的,首先利用词汇 句法模式(如“<NP> 2)相似均匀性:挑选的词对应该在相似程度 上均匀分布。 ‘ <是>[一]<个1种><NP>”),从生语料中抽取 大量的名词短语作为训练集,然后用该训练集训练 名词短语的概率句法模型和语义构造模型,并先后 以动词为例,从认知上动词可分为状态动词、变 化动词、感知动词等15类 J,对每一类,我们精心 挑选1~3个词,总共得到2O对。这2O埘词语义按 l期 王石等:一种基于搭配的中文词汇语义相似度计算方法 相似度大小分为3组,第一组相似度很大,共7对, 主要是同义、近义词,例如,“抚摸”与“触摸”,“发明” 与“创造”;第二组相似度一般,也有7对,由同属一 类的动词构成,例如,“刮风”与“下雨”均属气象动 词,“担心”与“放心”均属情感心理动词;第三组相似 度较小,共6对,由分属两个不同类的动词构成,例 表1 基于搭配的词汇语义相似度度量实验结果 (sim 表示人工评分值) (a)名词 议Jl W2 Slm Slm1 Slmz slm3 S1m4 宝石 珠宝 珠宝 珠宝 玻璃 正午 8.92 O.155 O.367 0.353 O.421 4.85 0.076 O.137 O.188 O.232 O.15 0.004 0.O07 0.011 0.014 如,“衰老”和“告诉”分属变化动词和通信动词,“鞠 躬”与“听见”分属身体动作动词和感知动词。 在名词词对的挑选中,在保证上述两个标准外, 我们还参考了Miller—Charles测试集的构成。 4.2.2相似度人工评分 正午 猫 猫 墓地 墓地 土丘 中午 狗 苹果 坟场 土丘 海岸 9.62 5.85 —1 O.23 O.3O1 O.383 O.398 0.371 0.467 o.538 O.46 O.O69 O.129 0.181 O.228 9.65 5.OO 2.46 一l 一1 O.244 O.257 O.51 O.O52 0.19 O.2O1 借鉴文献[17]的方法,我们设计了如下的人工 评分方法。 1)评分采用1O分制,0分表示完全不相似,lO 分表示完全相似; 0.034 O.O62 O.O86 O.1O6 2)寻找一组评分者;我们借助于中国科学院计 算技术研究所大规模知识获取课题组的15个硕士 研究生和1O个博士研究生; 男孩 小伙 男人 母亲 8.15 0.056 O.1 2.62 0.09 0.136 O.167 O.165 0.228 O.282 3)评分者分两次进行评分,两次评分间隔 15天; 男人 工作 森林 林地 苹果 香蕉 森林 手机 1.31 O.O16 O.O31 0.043 0.055 8.19 O.1O3 O.177 O.236 O.285 5.69 0.148 O.255 0.336 0.401 O.O8 0.056 O.1O5 0.151 O.19 4)从评分者中,去掉两次评分的一致性小于 0.8的评分者。文献[17]发现同一评分者在两周前 后对同一组词对进行评分时,相关系数在0.85左 右。因此若某评分者在两次评分中的相关系数过多 医院 诊所 中国 中国 8.58 O.115 O.191 O.247 O.293 地小于该值,则可认为其是无效评分者; 5)取所有评分者两次评分的均值,作为最终人 工相似度评分。 联合国 4.92 O.064 O.109 0.145 O.174 公鸡 1.15 0.019 O.O35 0.049 O.O61 8.OO O.253 O.383 0.469 0.531 5.23 O.184 O.2O5 0.392 0.459 0.15 0.109 O.195 O.265 O.323 8.23 0.098 O.169 0.225 O.27 汽车 轿车 汽车 飞机 汽车 医院 绳 线 基于以上步骤得到最终的中文词汇语义相似度 基准测试集,具体见表1。 4.3试验结果 基于本文提出方法的词汇相似度实验中, ISl一2 184 635,e一100,T)一0.9,表1(a)/(b)/(c)分 别给出了我们的方法在基准测试集名词、动词、形容 词上的结果。评测指标包括:(1)相关系数:算法 结果与人工评测结果的相关系数;(2)覆盖率:即能 处理的词汇比例。 教师 科学家 5.31 0.118 O.2O5 0.273 O.329 胳膊 绳 手机 电话 O.23 0.009 O.O17 0.025 0.033 8.04 0.229 O.37 0.466 O.536 电话 电视 风 椅子 4.85 O.155 O.167 0.353 O.421 O.O8 0.035 O.O65 0.091 O.114 图1给出了基于实体搭配方法的词汇相似度计 算方法结果与搭配迭代次数的关系。 椅子 凳子 7.69 —1 O.298 0.453 O.446 房子 桌子 电影 邮票 3.54 0.071 O.13 0.179 O.222 O.77 O.O96 O.O72 0.234 O.286 从实验结果中发现,相关系数在第2次迭代时 达到最高值,然后出现下降,这是因为在每次迭代中 错误的相似词汇不断累加造成的。另外,名词和形 容词的相关系数较高,动词较低,这是因为在名词短 相关系数 覆盖率 1 1 0.636 0,703 0.641 0.665 0.9 1 1 1 l2 中文信息学报 201 3 1 (b)动词 ZUI ZU2 S11TI, S1m isiN2 s1m:i sin1矗 L 7"6'2 (c)形容浏 S1m Slml S1m9 s1m S11T1 抚摸 鞠躬 抚摸 忧虑 触摸 微笑 担心 担心 8.62 4.31 1.46 9.81 l 一l 一l 一】 一1 一1 l —1 —1 一1 —1 l —1 高尚 高尚 聪明 聪明 老 高兴 红 红 崇高 寒冷 机智 年轻 粉红 粉红 绿 9.12 O.119 0.1 92 0.242 0.278 3.85 0.15 9.04 0.0l 9 0.036 0.052 0.067 0.006 0.0l2 0.()l 7 0.023 0.025 0.146 0.063 0.078 O.172 0.099 0.1 23 O O () 0.233 O.271 0.299 担心 鞠躬 放心 听见 4.85 O.31 —1 —1 O.179 O.21 2 0.238 —1 一l l 7.54 0.04 0.92 O 体会 感觉 购买 购买 8.62 O 5.31 0.15 O.21 5 0.256 0.301 0.162 O.193 0.217 —1 0.05 0.07l 8.46 0.043 0.073 0.096 0.1 1j 7.92 0.11 9 0.1 9 0.238 0.272 销售 刮风 O —1 高尚 高兴 蓖 陡峭 外心 厚 0.15 9.62 5.62 0.0()4 ().009 0.013 0.01 7 0.02 0.038 0.055 0.07 考虑 刮风 思考 下雨 9.()0 5.77 —1 —1 0.285 O.323 0.35 —1 1 0.1 5 0.025 0.047 0.067 0.085 思考 fa】候 1.23 —1 O O O 年轻 冷 炎热 炎热 初级 重 凉 下燥 好 基础 0.54 8.42 5.69 0.38 8.69 0.027 0.051 0.072 0.091 0.055 0.097 0.1 3 0.1 58 发明 停留 创造 运动 8.96 0.017 0.132 O.O46 0.058 3.54 0 O O 0 0.007 0.114 0.021 0.027 0.01 0.0l 7 0.()22 0.026 0.1 48 0.179 衰老 跑 跑 竞争 通知 告诉 走 跳 创造 告诉 O.23 () 7.54 6.46 2.OO 8.15 —1 一l O 0 O O O.245 0.163 O.21 0.062 0.11 0.227 0.274 0.307 O.28 0.319 0.345 仞级 巨大 陡峭 崎岖 高级 新 崎岖 平坦 7.23 0.3】 8.19 6.O8 0.O82 O.135 0.1 74 0.205 0.043 0.075 0.1 1 —1 0.1 22 0.O04 O.O28 O.Oll 0.0l4 0.1O5 0.136 0.1 89 0.11 9 0.1 58 0.2【)l 属于 存在 相关系数 覆盖率 3.38 l l l 0.063 O.O13 0.345 0.563 0.509 0.467 0.376 0.35 0.7 0.7 0.8 相关系数 覆盖率 l l 0.568 0.700 0.606 0.617 0.9 l l 1 0.4 ——-’、 : / , 一 一—— l: 一一 一 二 —,一 0.3 0.2 。 1 2 3 4 r I 2 3 4 +名词 0.636 0 703 0 64l 0.665 +钇词 +动词 +形容词 0.9 O_35 0.9 l 0 0.7 1.0 l 0 0 7 1.0 l 0 0 8 l 0 一动词 0.563 0.509 0.700 0.467 0.606 0.376 0 61 7 +形容词 0.568 (a)搭配迭代次数v s相关系数 (a)搭配迭代次数V S.覆盖率 图1 基于实体搭配的问汇相似度度量方法性能与迭代次数的关系 语中,形容词和名词的 现频率较高,且往往搭配比 较固定语义的词汇;而动词一方面出现频率较低,另 一面,名词和形容词的覆盖率较高,在第2次迭代时即 可达到1;而动词由于出现频率较低的原[六J,覆盖率 相对较低。 方面其搭配词比较灵活,语义更分散。覆盖率方 1期 王石等:一种基于搭配的中文词汇语义相似度计算方法 13 4.4错误分析 模范,年轻,漂亮,普通,日本,上班族,上海,,完 美,伟大,,伊拉克,意大利,印第安,印度,英格 错误原因仍然主要集中于从分布相似性到语义 兰,英雄,犹太,…},右搭配词包括{本能,房间,怀 相似性的差距。一方面,某些语义相似的词汇不一 抱,灵魂,名字,年纪,年龄,情结,社会,身份,身体, 定具有相似的搭配词。以名词测试集中的“土丘/海 声音,双手,素质,相貌,心灵,信心,形象,性格,眼 岸”为例,两者都是地理实体,具有较高的语义相似 睛,职业,周,…)。因为共同搭配词的很多,因此得 度,然而两者的搭配情况却差异较大。两者tf-idf 到了较高的相似度。 值较大的部分搭配词如下, 基于以上分析,下一步工作将集中于进一步限 <{人工,人造,大,高,小)土丘> 制词汇的搭配词,及采用更好的重要性量化指标,减 <土丘{冢,一角,下面,坟,传说)> 小分布相似到语义相似的差距。 <{大西洋,阳光,河口,阿拉伯,太平洋} 海岸> 4.5与相关方法的比较 <海岸{城市,地区,地形,警卫队,巡逻艇}> 表2给出了本方法与相关方法在名词相似度度 两者没有一个共同的搭配词,究其原因在于相 量上的比较。文献[3]是基于中文语义资源How— 同语义分类的词汇,可能具有不同的组词用法。动 Net的方法;文献[8,10—13]是基于WordNet的方 词中的“通知/告诉”同样具有相同的问题。 法,我们在中文WordNetl1 的基础上进行了实现。 另一方面,某些具有相似搭配词的词不一定是 这些方法基于人工编撰的知识库,可以得到比较高 语义相似的。以名词测试集中的“男人/母亲”为例, 的相关系数。但是,受限于词典规模,这些方法的覆 两者分属不同的语义类别,语义相似度较低,然而搭 盖率都不是很高。对于基于语料库的方法,我们与 配情况却比较一致。两者共同出现的左搭配词包括 文献[14]方法在基准集上进行了比较。 {白领,单身,德国,俄罗斯,非洲,健康,快乐,美国, 表2基于实体搭配的名词语义相似度度量方法比较 人工评分 文献[3] 文献E8] 文献Elo] 文献E11] 文献[12] 文献[13] 文献[14] 本方法 相关系数 O.85O 0.670 O.776 o.827 0.844 O.862 O.823 O.70O 0.703 覆盖率 1 o.86 O.72 o.72 O.72 O.72 O.72 1 1 表3与传统计算方法的特点比较 效率,且准确率也略高。在以上比较的基础上,我们 基于语义 基于语料 本方法 总结了与传统方法相比,本方法所具有的特点,如 词典方法 库方法 表3所示。 最好相关系数 ~O.86 ~o.80 ~0.70 所需资源 语义词典 大规模语 大规模二词 5结论和下一步工作 料库 名词短语集 词汇覆盖率 受限于语义 无 无 词汇间的语义相似度计算是许多应用的基础工 词典规模 作。本文提出了基于二词名词短语搭配的计算方 算法复杂度 低 高 低 法,具有实用的效率和可接受的准确率。方法基于 直观的假设“语义相似的词汇在二词名词短语中有 词汇相似度的人工量化本身也是一个非常困难 相似的搭配词”,提出了采用直接和间接搭配词的算 的问题,文献[17]的实验中表明人工评测的相关系 法,并进行了实验。在人工构建的中文词汇相似度 数也仅在0.85左右。从表2中发现,本方法得到的 基准测试集的名、动、形容词中分别得到了0.703、 相关系数相较于基于语义词典的方法具有一定的劣 0.509、0.700的相关系数,覆盖率达100 。 势,但其优点在于其覆盖率较高,不会受限于语义词 下一步的工作集中于如何进一步词汇的搭 典的规模。而相较于基于语料库的方法,本方法无 配词,利用更好的搭配词权重评测指标,以缩小搭配 需从大规模的语料中获取上下文,因此具有更高的 词的分布相似性与词汇间语义相似性的差距。 14 中艾信息学报 参考文献 [1] Akira Utsumi,Daisuke Suzuki.Word vectors and two kinds of similarity[C]//Proceedings of the COl ING/ ACI on Main Conference Poster Sessions.2006:858 865. [2] Curran J R.From Disfr|buti。nal to Semantic Similarity [D].A dissertation submitted to University of Edin— burgh for the Degree of Doctor of Philosophy.2003. [3] Qun Liu,Sujian I.i.Word similarity computing based on Hownet[c]//Proceedings of Computational I.in— guistics and Chinese I anguage Processing.2002:59— 76. [4] P Buitelaar,P Cimiano,M Grobelnik.Ontology learn ing from text[C] /Proceedings of ECMI /PKDD. 2005. Is] Ting I iu,Wanxiang Che。Sheng I i.Semantic Role Labeling with Maximum Entropy Classifier_J].Jour nal of Software.2007,18(3):565 573. [6] G Miller.W Charles.Contextual correlates of seman tic similarity[C]//Proceedings of Language and Cogni tive Processes.1998. [7] Richardson R,Smeaton A F,Murphy J.Using Word— Net as a Knowledge Base for Measuring Semantic Sim— ilarity Between Words[C]//Proceedings of AICS Con— ference.1994. Es] R Rada。H Mili,E Bicknel1,et a1.Development and application of a metric on semantic nets[(:] /Proceed— ings of IEEE Transactions on Systems Management and Cybernetics.1989,19:1 7-30. [9] Ted Pedersen,Siddharth Patwardhan.Wordnet:simi larity—。measuring the relatedness of concepts[C]//Pro—— ceedings of the 19th National Conference on Artificial Intelligence.2004. [io] I eacock C,Chodorow M.Combining local context and WordNet similarity for word sense identificalion rM].WordNet:An electronic lexica1.1998:265 283. [11] Zhibiao Wu,Martha Palmer.Verbs semantics and lexical selection[c]//Proceedings of the 32nd Annual Meeting on Association for Computational I inguis tics.2003:1 33—138. [12] Yuhua Li,Zuhair A Bandar,David McI ean.An ap proach for measuring semantic similarity between words using muhiple information SOUrCeS[J].IEEE Transactions on Knowledge and Data Engineering. 2OO3,15. [13] I)Q Yang,David MW Powers.Measuring semantic similarity in the taxonomy of wordNet[(、] Pr。ceed ings of the 28th Australasian Conference on Computer Science.2005,102:315-322. [14] Shi Wang,Cungen Cao,Yanan Cao,et a1.Measur ing Taxonomic Similarity between Words Using Re strictive Context Matrices[C]/ Pr。ceedings of 51h Internationa1 Conference on Fuzzy Systems and Knowledge Discovery(FSKD 2008).2008:193 197. [1 5] Ricardo Baeza—Yates,Berthier Ribeiro Neto.Modern Information Retrieval[M].s.1.:ACM Press,1999. [16] Shi Wang,Yanan Cao,Xinyu Cao,et a1.Learning Concepts from Text Based on the Inner—Constructive Mode1.Knowledge Science,Engineering and Man agement[c]//Proceedings of 2nd International Con ference(KSEM 2007).2007. [17] Herbert Rubenstein,John B Goodenough.Contextual Correlates of Synonymy[c]//Proceedings of ACM. 1987,8:131 7 1323. [18j George A Miller.WordNet:A Lexical I)atabase for English[c]//Proceedings of Communications of the ACM(CACM).1 995,Vo1.38:39 4】. [19] 王石,曹存根.WNCT:一种WordNet中概念的自动 翻译方法[J].中文信息学报,2009,23(4):63 70.