基于文本的多媒体检索与基于内容的多媒体检索的比较
【摘要】:随着多媒体信息的不断增长,基于内容的多媒体信息检索技术成为信息检索领域的一个热点。文章在对基于文本的多媒体信息检索和基于内容的多媒体信息检索详细比较分析的基础上,探讨了多媒体信息检索的发展趋势。
【关键词】:多媒体检索;基于文本;基于内容
传统的基于文本的多媒体信息检索已经不能完全满足用户的要求,基于内容的多媒体检索技术成为当前多媒体信息检索的研究热点。因此,对这两种多媒体检索技术进行比较分析,为确定未来多媒体信息检索发展方向提供一定的借鉴。
1. 传统基于文本的多媒体检索
1.1 基于文本的多媒体检索的原理
由于早期信息检索处理的对象只有文本,所以基于文本的多媒体信息检索技术便应运而生,并且仍然是当前最基本、最常用的一种多媒体信息检索方式。这种基于文本的信息检索技术首先对多媒体进行人工分析,并抽取反映该多媒体物理特性(拍摄方式、载体规格和文件大小等)和内容特性(责任者、代表多媒体内容的关键词或主题词等)的文本信息,然后对这些文本信息按照学科领域进行分类,或提取关键字进行文字著录或标引,建立类似于文本文献的标引著录数据库,从而将对多媒体信息的检索转变成对文本信息的检索。在这种检索方式中,通过数据库中的关键字段与多媒体建立链接,从而通过检索数据库中的关键文本字段来获取多媒体信息。这种方式的检索具体可以采用四种途径进行检索:
a) 利用文件扩展名和超文本标识。如图像文件的“.bmp” 、“.gif”、“.tif” 、“.jpg”、视频文件的“.avi”、“.mov” 、“.mpeg”、声音文件的“.wav”、“.mp3” 、“.mid”等。用这种方法只能保证检索到的结果是含有该格式的文件,而检索结果的内容则可能由于文件名的不同而由差别。
b) 将多媒体文件名和文字解说中带有的媒体信息作为关键词。
c) 多媒体所在网页的标题或多媒体数据附近的文本。标题往往能反映网页的内容,通过这些关键词也能得到检索结果。
d) 人工选择或指定的某些多媒体信息内容的关键词。由人工搜集、分类和标引有关多媒体资料,检索时按照既定的类别和关键词搜索所需多媒体信息。这种检索质量和效率都比较高,但费用也较高。
1.2 基于文本的多媒体检索的局限性
基于文本的多媒体信息的检索纯粹是以多媒体信息的外部特征作为检索入口,无法表达和揭示多媒体信息的实质内容和语义信息。归纳起来,基于文本的多媒体信息检索有以下不足:
a) 在使用全文检索技术对多媒体信息进行检索之前,先要对搜集到的所有媒体信息进行人工关键字标引,人工注释要求大量的人力,尤其是大型多媒体信息库;
b) 多媒体信息数据量大,人工注释难以涵盖蕴藏在多媒体数据中所有的内容信息;
c) 多媒体信息制作者的文化背景不同、专业知识迥异,这样使得取自其标题的文本信息与多媒体信息的真实内容不符;
d) 人工注释难以避免对多媒体信息内容描述的主观性;
e) 对于视频和音频等时基媒体的处理,手工处理是完全不可行的,必须用计算机进行实时的内容分析。
2. 基于内容的多媒体检索的原理与特点
2.1 基于内容的多媒体检索的原理
基于内容的多媒体信息检索是根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索,主要是利用多媒体对象的语义、视觉和听觉特征来进行检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、运动,声音中的音调、响度、音色等。基于内容的检索是多媒体研究中的新兴热点,它突破了传统的基于文本检索技术的局限。在组织多媒体信息时,组织者根据媒体的内容特征进行分析,建立基于内容的特征库,并与实际多媒体数据联系起来,这个过程是由系统事先完成的,即在交给用户使用之前,系统已经建立了媒体库和特征库。当用户检索时,系统一方面接受用户规定的图像、视频和音频等内容特征信息(即用户的检索提问),另一方面接受特征信息索引库中的特征信息,然后进行两者之间的匹配,以找出符合用户需求的多媒体信息。
以上检索过程是完全以计算机为中心,因此使得一些检索结果不能完全满足用户的要求,即检索结果中有一些计算机认为是相似的,而人却认为是不相似的,因为计算机视觉技术、智能化水平与人比起来,还相差很远。多媒体信息检索技术的最终用户是人,为了解决这些问题,应该允许用户从检索结果中挑选出一些自己比较满意或不满意的媒体信息,或选择其它特征提取方法和匹配方法进行再次检索,也可以在检索结果中选择某个最相似结果作为进一步检索的示例,因为该结果可能更能表达用户的想法。
2.2 基于内容的多媒体检索的特点
2.2.1 直接从多媒体内容中提取信息线索
基于内容的多媒体信息检索不受传统的基于文本检索的,可直接对图像、视频、音频进行分析,从中提取内容特征,然后利用这些特征建立索引并进行检索,使得检索更加接近媒体对象。多媒体信息的语义描述的特征提取是由计算机自动实现,融合了图像理解、模式识别、计算机视觉、认知科学、人工智能等技术,不需要过多的人工干预,节省了人力。而且利用多媒体自身的特征(如颜色、纹理、音色、音质等)进行检索,具有较强的客观性。
2.2.2 基于内容的检索是一种相似性检索
与常规数据库检索中的精确匹配方法不同,基于内容的检索得到的结果通常是不确定的。基于内容的检索采用近似匹配或局部匹配的方法和技术,逐步求精以获得查询和检索结果。在检索过程中,每次得到的结果是一个集合区域,不断缩小这个区域的范围,直到确定目标。这样,避免了因采用传统检索方法所带来的不确定性。
2.2.3 采用示例查询的提问方式
对一些很难描述其特征的多媒体信息进行查询时,用户可以通过浏览的方式,选择系统提供的实例作为查询条件,然后再通过不断修改实例最终找到匹配目标。
2.2.4 能满足多层次的检索要求[2]
基于内容的多媒体信息检索系统通常由媒体库、特征库和知识库组成。媒体库包含多媒体数据,如文本、图像、视频、音频等;特征库包含用户输入的客观特征和预处理自动提取的内容特征;知识库包含专门和综合性知识,其中的知识表达可以更新和替换,目的是为了将检索限定在一定的领域范围内,这样有利于优化查询和快速匹配。利用这些库可以满足多层次的检索要求。
3.基于内容的多媒体检索与基于文本的多媒体检索的区别
基于内容的多媒体检索区别于传统的基于文本检索,就是直接对多媒体图像、音频、视频内容进行分析,抽取多媒体内容的特征和语义建立索引、进行检索,即利用媒体对象的语义、视觉特征、听觉特征和文本信息来进行检索。这种检索摈弃了传统数据库检索中的精确匹配方法,通过采用相似性匹配的方法获得检索结果。它通过多个属性来逐级描述结果的范围,以不断缩小查询,利用相似性匹配的方式达到逐步求精。同时它还要求对检索结果进行集合,如果不给出则难以达到快速检索和实用的目的,可能出现“似是而非”的结果。检索结果按照相似性从大到小顺序通过查询接口返回给用户。
满足多层次要求是基于内容的检索区别于传统检索最为独特也最为重要的性质,这是基于多媒体对象所带的信息本身具有层次性的特征[1]。
表1:基于文本的和基于内容的多媒体检索的区别
4. 多媒体信息检索的发展趋势
4.1 低层特征与高层语义特征相结合
虽然基于内容的检索相对于基于文本的检索有着明显的优势,但是我们也应该看到,单独采用基于关键词的检索或基于内容的检索,存在两方面的问题:a)用户在采用基于关键词的多媒体技术进行检索时,检索词只是几个关键词,这样很难将用户的需求完全表达清楚,更何况不同用户对同一查询内容所使用的关键词不同,将导致检索结果不同,甚至差异很大;b)多媒体信息表层特征和高层语义之间存在很大差异,表层特征不能真正反映媒体的语义信息。因此,当用户提交一个检索特征进行查询时,系统很难找到用户真正想要寻找的信息。
为了解决以上问题,我们可以结合高层语义特征,即从人类的视觉、听觉和认知理解出发,着眼于多媒体信息中符合人类视觉、听觉和认知概念的部分,将其提取出来作为检索标识。这种检索融入了人们对多媒体信息的语义分析和理解,达到了较深的检索层次,在一定程度上提高了多媒体信息检索的效果。
4.2 引入相关反馈技术
由于媒体语义信息的丰富性和相关判断的主观性,以语义为特征的检索需求和检索结果之间往往难以匹配,特征相似难以保证结果相关。所以,我们可以引入相关反馈技术优化查询。基本思想是:在检索过程中,系统根据用户的查询要求返回检索结果,然后用户对检索结果进行评价和标记,或通过选择一些正确/错误的例子作为反馈信息,系统则根据这些反馈信息进行学习,指导下一轮检索并返回新的查询结果,从而使检索结果逐步接近用户真正的需求。相关反馈是提高系统查询效果的有效方法。
4.3 基于概念的检索
基于概念的检索将对媒体信息的检索提高到基于知识(概念) 的层面,对知识有一定的理解和处理能力,具有智能化、人性化的特征。方法是利用关联规则挖掘技术,自动从文档中导出概念/词语之间相关性及层次关系,构建关联库,再通过关联库,将用户的查询请求以概念的形式进行扩展,然后提交到检索系统,输出查询结果,并按语义库中概念之间的相关性对查询文档进行排序以实现概念检索。概念检索是人工智能和信息检索相结合的一个方面,是实现智能检索的重要方式之一。
4.4 可视化智能检索
信息可视化正在成为信息科学得一种重要的研究分支,可用于更好地理解多
媒体信息的本质,更方便地操纵多媒体信息。多媒体信息的可视化组织与检索的目的是改善现有的多媒体信息利用方法,用视觉化的方法突出地显示用户感兴趣的媒体信息及相关信息。
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- yrrf.cn 版权所有 赣ICP备2024042794号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务