您好,欢迎来到意榕旅游网。
搜索
您的当前位置:首页基于区域特征融合的RGBD显著目标检测

基于区域特征融合的RGBD显著目标检测

来源:意榕旅游网
基于区域特征融合的RGBD显著目标检测

杜杰;吴谨;朱磊

【摘 要】为了对各类自然场景中的显著目标进行检测,本文提出了一种将图像的深度信息引入区域显著性计算的方法,用于目标检测.首先对图像进行多尺度分割得到若干区域,然后对区域多类特征学习构建回归随机森林,采用监督学习的方法赋予每个区域特征显著值,最后采用最小二乘法对多尺度的显著值融合,得到最终的显著图.实验结果表明,本文算法能较准确地定位RGBD图像库中每幅图的显著目标. 【期刊名称】《液晶与显示》 【年(卷),期】2016(031)001 【总页数】7页(P117-123)

【关键词】目标检测;深度信息;区域特征;随机森林;监督学习 【作 者】杜杰;吴谨;朱磊

【作者单位】武汉科技大学信息科学与工程学院,湖北武汉430081;武汉科技大学信息科学与工程学院,湖北武汉430081;武汉科技大学信息科学与工程学院,湖北武汉430081 【正文语种】中 文

【中图分类】TP394.1;TH691.9

视觉注意是人类处理周围环境信息的一种内部特征,该特征能将有限的处理资源快速而准确地分配到显著的视觉区域上。显著目标检测是计算机模仿人类视觉注意机制,提取出人类对图像中感兴趣的目标区域,在目标检测与识别,图像压缩,图像

检索,图像分割等方面,有着广泛的应用[1-2]。

目前模拟视觉注意机制的计算模型主要分为两类:一类是快速的、由数据驱动的自底向上的模型,如Itti在1998年提出的经典Itti模型[3],建立了颜色、亮度、方向3个特征通道,利用中心-邻域对比度算子得到多个尺度的特征图,再将这些图归一化到一个尺度,进行线性叠加得到一幅显著图。文献[4]提出了一种基于全局对比度的显著目标检测方法,通过比较每个区域与图中所有其他的区域来计算全局对比度算子从而得到显著图。文献[5]提出了一种基于区域对比度的方法,将颜色和空间分布特征引入到区域显著值的计算中。另一类则是慢速的、由先验知识指导的自顶向下的模型,其中比较有代表性的是基于辨别显著性的检测方法,将提取的像素块特征聚类作为先验知识来模拟人眼对不同物体的辨别能力[6]。可见现有的许多方法是提取区域的颜色、纹理等低层特征,并由此获得区域间的对比度。在此基础上利用“中心-邻域对比度”原则来计算每个区域的显著值。但是基于局部对比度的方法对于信号的高频部分或噪声过于敏感,而基于全局对比度的方法则对于包含相似前景和背景的图像,检测效果不够理想。针对此不足,DRFI算法[7]则是用对比度向量来表示区域的显著特征,并引入了一个新的区域特征向量来表示图像的背景。

深度信息在人类视觉系统中同样起着重要的作用,它反映了物体和观察者之间的距离,被用于图像显著性检测。Zhang等[8]设计了一种基于多种感知刺激的立体视觉注意算法,用来提取3D视频中的显著区域。Charmaret等[9]提出了一种提取感兴趣区域的算法,用于自适应的3D图像显示。以上的算法都是直接将深度图和2D显著图线性加权,得到最终的显著图。而另一种3D显著性检测的方法,是通过将深度显著图融入传统的2D显著图来实现。Lang等[10]通过在2D和3D图像中进行眼动实验,用以深度显著性分析,从而提出了一种3D显著性检测模型。Ciptadi等[11]用颜色和深度特征设计了一个3D显著性检测模型,应用于图像分

割领域。上述两种方法均是自行定义各显著图的融合权值,缺点是针对不同背景图像中的显著目标,检测结果不够理想。

本文在DRFI算法的基础上,将图像的深度信息引入区域的显著性计算。首先对图像进行多尺度的分割得到若干区域;然后对区域多类特征学习构建回归随机森林分类器,采用监督学习的方法赋予每个区域特征显著值;最后用最小二乘法融合这些多尺度的显著值。

本文的算法是在DRFI算法框架的基础上,将图像的深度信息引入区域显著性计算中。算法包括3个主要步骤:多尺度图像分割,区域显著性计算,多尺度融合。算法框架如图1所示。

首先使用基于图的方法[12]对原RGB图I,进行多尺度图像分割。定义无向图,顶点vi∈V,两个相邻区域的公共边(vi,vj)∈E。该公共边有一个非负的权值,用来衡量这两个区域的不相似性。定义一个区域R⊆V的内部差异性为为该区域最小生成树MST(R,E)的最大权值:

定义两个区域R1,R2⊆V之间的差异性为这两个区域公共边的最小权值: 定义两个区域的最小内部差异性MInt:

其中表示区域R的大小,k是一个常数。阈值函数τ控制两个区域间的内部差异性。当时,这两个区域就可以合并成一个区域。

定义数组S={S1,S2,...,Sm}表示一组m尺度的分割图。每一个分割图Sm是由I分割而成,它包含Km小区域。S1是经过最精确分割得到的,它包含最多的区域,而Sm则是经过最粗略分割得到,它包含最少数量的区域。定义,...,}表示分割图S1中所有的区域。其它的分割图{S2,...,Sm}是基于S1计算出来的,S2是通过合并S1中的区域得到,以此类推,Sm则是通过合并Sm-1中的区域得到的。 分割尺度增多,检测效果会提高,但所需时间亦会增加。综合考虑时间消耗和检测效果,取m=3。

本文引入了图像的区域深度信息,用3种类型的特征来描述每个区域的显著性:区域对比度,区域属性,区域背景对比度。前两种是区域的局部对比度,而背景对比度则是区域的全局对比度。 3.1 区域对比度描述子

首先为每个区域定义一个特征向量v,包括多维的颜色、纹理和深度特征。对于一个区域R∈Sm,分别用vR和vN表示该区域及其邻域的特征向量,则R的区域对比度描述子为diff(vR,vN),如表1所示。特征向量中直方图特征之间计算χ距离:

其中b代表直方图的维度。而其它特征之间计算绝对差值:

其中d代表向量x1和x2中元素的个数。表1定义栏中,ci表示区域对比度每一维的特征。

3.2 区域属性描述子

除了区域对比度,区域的固有属性也需被考虑,它包含形状和几何特征。区域属性描述子如表2所示,pi表示区域属性每一维的特征。形状特征包含了一个区域颜色和纹理的分布,它描述了显著目标和背景的一般属性。几何特征则包含了一个区域的大小和位置,它描述了显著目标和背景的空间分布。 3.3 区域背景对比度描述子

图像的背景判定依赖于整幅图的信息。拥有相似形状特征的区域,在一幅图中可能属于背景,而在其它图中则可能属于显著目标。因此,仅仅使用区域属性特征来判定一个区域属于背景或是显著目标是不够的。

本文提取“背景”,并计算其中每个区域的背景描述子作为参考。图像4条边15像素宽的区域被定义为“背景”区域B,用vB表示背景区域的特征向量。按照“区域对比度描述子”中的特征以及计算方式,计算R的区域背景对比度描述子diff(vR,vB),如表1所示,bi表示背景对比度每一维的特征。

通过区域显著值的计算,每个区域∈Sm都有了一个显著值。对于每一个尺度的分割图,将其中每个区域的显著值都赋予这个区域所包含的所有像素点。这样就能生成m张显著图{Α1,Α2,...,Αm},然后将它们用函数Α=g(Α1,Α2,...,Αm)融合到一起,得到最终的显著图Α。 4.1 随机森林

随机森林是由LeoBreiman在2001年提出来的,它利用重抽样方法从原始样本中抽取多个样本,对每个样本进行决策树建模,然后组合多棵决策树的预测,通过投票得出最终的预测结果。

定义Ip∈Rω×ω×3是以像素点p为中心,大小为ω×ω的图像I中的一个块,xp为块Ip的一个特征向量,决策树,被Θ参数化,它将特征xp分入二元标记中。随机森林是由T棵这样的决策树构成,每一棵树都有一个独立的参数Θι。i决策树叶子节点上的后验分布为,随机森林的输出就是最后的分类标记:

在训练的过程中,每一棵决策树都是从训练数据集随机采样出的子集中,被独立构建的。对于每棵树上的决策节点,特征向量xp中的每一个元素都是从二元测试中被选取的。带有参数θ的分割函数被定义为:

这个函数将当前节点的训练数据集分为两个子集,分给它的两个子节点。在当前分割测试中,找到参数θ来最大化信息增益:

其中:Sj表示节点j上的训练数据集,表示训练数据集分配到左边的子节点,而表示训练数据集被分配到右边的子节点,表示数据集的大小,表示yp的香农熵或基尼不纯度[13]。通过反复分裂一棵树的节点,直到达到叶子节点中训练数据的最小量或者一棵树深度的最大值。每一棵树都要在输入的图像块中被反复评估,直到到达树的一个叶节点。

随机森林的优势在于:其一能够处理高维数据,且不需选择特征,直接将区域的多维特征输入随机森林训练即可;其二能够在训练完成后给出哪些特征比较重要。

随机森林中某个特征x的重要性的计算方法如下:首先对于随机森林中的每一棵决策树,使用相应的袋外数据OOB来计算它的袋外数据误差,记为errOOB1;然后对袋外数据所有样本的特征x随机地加入干扰噪声,这样就能改变样本在特征x处的值,再次计算它的袋外数据误差,记为errOOB2;最后假设随机森林中有N棵决策树,计算特征x的重要性:

若某个特征加入噪声之后,袋外的准确率大幅度降低,则说明这个特征对样本的分类结果影响很大。

决策树越多,训练效果越好,但是所耗时间也越长。综合考虑时间消耗和训练效果,取N=200。

4.2 区域显著性回归器学习

区域显著性的估计量是通过学习一组训练样本获得。在每个尺度上,对分割训练图像而获得的每一个区域R,在人工标记结果图上寻找对应区域G。若G中所含像素的标记有80%属于前景(背景),则R标记为前景(背景),R的标记值a被设为1(0)。训练样本中包含一组已标记的区域R={R1,R2,...,RQ},和对应的标记值Α={a1,a2,...,aQ}。

如前文所述,每个区域都被一个特征向量x描述,向量中包含3种类型的描述子。利用标记的训练样本Ψ={x1,x2,...,xQ}和它们的标记值Α={a1,a2,...,aQ},通过对区域的多类特征的学习来构建标准的回归随机森林,得到区域显著性回归器f,然后在实际检测中利用该分类器对每个区域进行回归分析。该回归器能够自行组合特征,并发现其中较为重要和显著的特征。 4.3 多尺度显著图融合学习

设每个训练图像得到的多尺度显著图为{Α1,Α2,...,Αm},对应的人工标记图为Τ。算法需要通过学习得到一个函数g(Α1,Α2,...,Αm)来将它们融合,得到最终的显著图Α。这个问题在现有的算法中已经有解决的途径,例如条件随机域模型[14]。本

文是用最小二乘的方式,训练多尺度线性融合权重ωm: 那么最终的显著图Α为:

与现有许多算法自行定义融合权值不同,本文是采用学习的方法得到ωm。通过最小二乘法,学习得到与人工标记图差异较小的显著图,赋予它较大的权值,反之与人工标记图差异较大的显著图,则赋予它较小的权值。这样,融合以后的显著图就会更加接近人工标记图,从而满足人类的视觉特性。

RGBD图像库[15]包含1000幅具有深度数据的图片,这些图片是用Kinect设备从不同的场景下拍摄的,包含有办公室、超市、校园、街道等, 比起其他现有的3D图像库,该库数据量大且类型丰富。另外,人工标记结果的生成包括两个步骤:首先由多位测试者对图像中显著的目标进行框选,然后再通过Photoshop等图像编辑软件在框内对目标进行精确的分割。

随机选取RGBD图像库中的500幅图片训练随机森林回归器,剩下的500幅作为测试的数据样本。

从500幅样本中随机选取六幅图片,用本文算法及其它6种较新的算法:DRFI[7]、GBMR[16]、HSD[17]、STD[18]、GS[19]、RARE[20],做对比实验,检测结果如图2所示。

由图2可以看出,本文的算法能够准确地定位原图中的显著目标,显著图较之其他6种方法更加接近人工标记的结果。特别地,与DRFI算法的效果相比,加入了区域深度信息的本文算法,检测结果更加准确,尤其在前景目标和背景的深度距离有一定差别时,该算法能够定位显著区域,并突出前景目标。

用本文方法与上述6种方法分别获得测试样本中的500幅图片的显著图,再对比显著图和Ground truth计算精度和查全率,精度-查全率曲线如图3所示。 由图3可知,用本文的算法进行显著目标检测,精度和查全率明显高于其它6种方法,AUC值为64.54%,说明本文算法具有较好的检测效果。

本文在DRFI算法的基础上,将图像的深度信息加入到包含局部和全局对比度的3种描述子中,进行区域的显著性计算。首先对图像进行多尺度的分割,然后通过对区域多类特征的学习构建回归随机森林,采用监督学习的方法赋予每个区域特征显著值;最后用最小二乘法融合这些多尺度的显著图。实验结果表明,与其他几种算法相比,本文的算法能取得较好的检测效果。

吴谨(1967-),女,安徽芜湖人,教授,博士生导师,主要从事图像处理与模式识别方面的研究。E-mail:****************

朱磊(1982-), 男, 湖北武汉人, 博士, 讲师,主要从事图像处理与机器学习方面的研究。E-mail:**************** 【相关文献】

[1] 张辉,王耀南,周博文,等.医药大输液可见异物自动视觉检测方法及系统研究[J].电子测量与仪器学报,2010,24(2):125-130.

ZHANG H, WANG Y N,ZHOU B W, et al. Research on automatic visual inspection method and system for foreign substances in medicine transfusion liquid[J]. Journal of Electronic Measurement and Instrument,2010,24(2):125-130.(in Chinese)

[2] 张新龙,汪荣贵,张璇,等. 基于视觉区域划分的雾天图像清晰化方法[J].电子测量与仪器学报,2010,24(2):125-130.

ZHANG X L, WANG G R, ZHANG X, et al. Foggy image enhancement based on regions of human visual[J]. Journal of Electronic Measurement and Instrument, 2010,24(2):125-130.(in Chinese)

[3] Itti L, Koch C, Niebu E, et al. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE TPAMI, 1998,20(11):1254-1259.

[4] Cheng M M, Zhang G X, Mitra N J, et al. Global contrast based salient region detection[C]. CVPR, 2011:409-416.

[5] Perazzi F, Krahenuhl P, Pritch Y, et al.Saliency filters: Contrast based filtering for salient region detection[C]. CVPR, 2012:733-740.

[6] LIU G C, LIN Z C, TANG X O, et al. Unsupervised object segmentation with a hybrid graph model[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(5): 910-924.

[7] JIANG H Z, WANG J D, YUAN Z Y, et al. Salient object detection: A discriminative regional feature integration approach[C]. IEEE Conference on CVPR, 2013:208-209. [8] ZHANGY, JIANG G, YU M, et al. Stereoscopic visual attention model for 3d video[C]. Proc.16th Int. Conf. Adv. Multimedia Model., 2010:314-324.

[9] CHAMARET C, GODEFFROY S, LOPEZ P, et al. Adaptive 3D rendering based on region-of-interest[C]. Proc. SPIE, Stereo-scopic Displays and Application XXI, 2010:75240V.

[10] LANG C, NGUYEN T V, KATTI H, et al. Depth matters: Influence of depth cues on visual saliency[C]. ECCV, 2012:101-115.

[11] CIPTADI A, HERMANS T, REHG J M, et al. An in depth view of saliency[C]. BMVC, 2013:1-11.

[12] FELZENSZWALB P F, HUTTENLOCHER D P. Efficient graph-based image segmentation[J]. International Journal of Computer Vision, 2004,59(2):167-184. [13] BREIMAN L, FRIEDMAN J, STONE C J, et al. Classification and regression trees[M]. NY, USA:Chapman and Hall, 1984.

[14] LIU T, YUAN Z, SUN J, et al. Learning to detect a salient object[J]. IEEE Trans. Pattern Anal. Mach. Intell, 2011,33(2):353-367.

[15] PENG H W, LI B, XIONG W H, et al. RGBD salient object detection: A benchmark and algorithms[C]. ECCV, 2014:92-109.

[16] YANG C, ZHANG L H, LU H H ,et al. Saliency detection via graph-based manifold ranking[C]. Computer Vision and Pattern Recognition, 2013:3166-3173.

[17] YAN Q, XU L, SHI J P, et al. Hierarchical saliency detection[C]. IEEE Conference on CVPR, 2013:1155-1162.

[18] WONG A, FERGANI K, ZELEK J S, et al. Statistical textural distinctiveness for salient region detection in nature images[C]. IEEE Conference on CVPR,2013:979-986.

[19] WEI Y, WEN F, ZHU W, et al. Geodesic saliency using background priors[C]. ECCV, 2012:29-42.

[20] MANCAS M, GOSSELIN B, DUTOIT T. RARE: A new bottom-up saliency model[C]. IEEE International Conference on Image Processing (ICIP), 2012:641-644.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- yrrf.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务