您好,欢迎来到意榕旅游网。
搜索
您的当前位置:首页基于Gist特征与CNN的场景分类方法

基于Gist特征与CNN的场景分类方法

来源:意榕旅游网
●一美■ { f o匹^ f^‘dri F D T 洳 文献引用格式:梁雪琦.基于Gist特征与CNN的场景分类方法[J].电视技术,2016,40(11):7—11. LIANG X Q.Method of scene image classification based on Gist descriptor and CNN[J].Video engineering,2016,40 (11):7-11. 中图分类号:TP18 文献标志码:A DOI:10.16280/j.videoe.2016.11.002 基于Gist特征与CNN的场景分类方法 梁雪琦 (太原理工大学信息工程学院,山西晋中030600) 摘要:针对大多数场景分类方法只能学习浅层特征,忽略图像之间的相关结构信息,提出一种基于Gist特征与卷积神经网 络结合的场景图像分类方法。其中Gist特征用于提取场景图像的全局特征,并将其作为深度学习模型的输入,通过逐层 训练卷积神经网络,提取更高层次的特征,并用训练好的卷积神经网络进行分类。实验在O&T室外场景图像数据集和 MNIST手写体数据集上考察了batchsize、卷积核对分类结果的影响,并与DBN,NN,SVM和CART作为分类器的分类结果 进行比较,充分说明了本文方法的有效性。 关键词:Gist特征;特征提取;卷积神经网络;场景分类 Method of scene image classiication based on Gist descriptor and CNN fLIANG Xueqi (College of Information Engineering,Taiyuan University of Technology,Shanxi Jinzhong 030600,China) Abstract:Most of the scene classiifcation methods have a problem which ignoring the structural information related between images leads to they only can learn shallow representations for scene recognition.A method of seene image classiifcation based on Gist de— scriptor and Convolutional Neural Network(CNN)is proposed.Firstly,Gist descriptor,for global scene image feature extraction, is used as the input of deep learning net.Secondly,convolutional neural network is trained by layer-by-layer to extract a higher level of features.Then,the trained convolutional neural network is used as a classiifcation.Finally,experiments on Oliva&Torralba(O&T)outdoor scene image data set and MNIST handwritten data set investigates the influence to classiifcation ae— curacy with batchsize and kernelsize,and the comparison with the classification results of the classiifers,Deep Belief Network (DBN),Neural Network(NN),Support Vector Machine(SVM)and Classiifcation And Regression Tree(CART)on the O&T scene image sets indicates the effectiveness of the method are put forward. Key words:Gist descriptor;feature extraction;convolutional neural network;scene classiifcation 场景分类在计算机视觉领域有广泛的应用,2006 模型设计了一种高效匹配核来度量局部特征问的相似 年召开的首次场景理解研讨会上明确提出“场景分类 性,核化特征匹配过程。以上算法均为利用各种特征 是图像理解的一个新的有前途的研究方向”…。Ulrich 提取方法解决场景分类问题,但特征提取过程有过多 和Nourbakhsh 利用颜色直方图进行场景分类。 主动因素介入,有很大的盲目性。 深度学习是近年发展起来的多层神经网络学习算 数逼近 。其中,卷积神经网络(Convolutional Neural Network,CNN) 是一个典型的深度学习模型。它 是一个深层的神经网络,采用上一层的输出是这一层 Shen_3 等人采用多种特征融合的方法表征图像特征进 (Spatial Pyramid Matching,SPM),利用视觉词汇的空间 行场景分类。Lazebnik 等人提出金字塔匹配模型 法,可通过学习一种深层非线性网络结构,实现复杂函 布局信息实现场景的有效分类。杨昭 在Gist特征中 引入空间信息和RGB颜色信息,并基于词汇包(BOW) 基金项目:国家自然科学基金项目(61450011);山西省自然科学基金项目(2014011018-2);山西省回国留学人员科研资 助项目(2013-033;2015-45) 投稿网址http://www.videoe.cnl《电视技术》第40卷第11期(总第488期) 7 li D IGITA数L字VI视DE频O 更有效的特征。CNN已成功应用于语音识别、手写字 篓 时间域上的采样。CNN是一种多层神经网络,由多个 卷积层和子采样层交替组成,每一层由多个特征图组 的输入的逐层学习的贪婪模型,使其能够学习更高级、 放和扭曲不变形,即局部感受眼、权值共享和空间域或 符识别等领域。但是,CNN对输人数据是局部敏感的, 以像素级的特征作为CNN的输入,提取不到图像的全 成,每个特征图由多个神经单元组成,同一个特征图的 局信息。Gist特征提取算法¨ 是Oliva和Torralba等提 所有神经单元共用一个卷积核(即权重),卷积核代表 出的一种有效的全局特征描述子,提取图像的自然度、 开放度、粗糙度、膨胀度和险峻度描述描述图像的全局 特征。以Gist特征作为CNN的输入,可有效避免深度 种新的思路。 一个特征。 1.2.1 卷积层 卷积层 有如下几个参数:特征图的个数Ⅳ,特征 学习中遇到的难题。二者相结合,能为场景分类提供 图的大小(N ,N ),卷积核(?c , )和步长(S ,S )。一 一个大小为( ,k )的卷积核必须在输人图像的有效区 定义了卷积时卷积核在 轴和Y轴跳多少的像素。输 出特征图大小的定义为 = 本文通过Gist特征提取场景图像的全局特征,用 域内移动,即卷积核必须在输入图像内。步长|s 和s CNN进一步学习更深层次的特征,并在CNN最高层进 行场景分类。全局特征反映了图像的空间布局,过滤 了很多不必要的信息,比原始图像像素具有更强表达 能力。同时,通过CNN的逐层贪婪学习,并在最高层 室外场景图像数据集上的实验表明,本文提出的算法 连接在 与DBN、NN、SVM、CART相比,具有更强的判别性,能 +l; = +1 (4) 参数//,表示层数。在 层的每个特征图最多可 实现特征识别,提高了场景图像的学习性能。在O&T 式中:层的Ⅳ 个特征图。 1.2.2采样层 够更有效地表征室外场景图像的特征,并得到较高的 分辨率。 采样层是对上一层的卷积层进行采样工作,实现 局部平均和子抽样,使特征映射的输出对平移等变换 的敏感度下降 。采样层并不改变特征图的个数,但 1 相关理论 1.1 Gist特征 圮 。 输出的特征图会变小。对卷积层进行采样有很多方 式,包括均值采样、随机采样、最大值采样、重叠采样、 均方采样、归一化采样等。均值采样是对上一层特征 Oliva等提出的Gist特征是一种生物启发式特征, cale X scale, 该特征模拟人的视觉,形成对外部世界的一种空间表 图的相邻小区域进行聚合统计,区域大小为s示,捕获图像中的上下文信息。Gist特征通过多尺度 并取均值。随机采样是对特征图中的元素按照其概率  多方向Gabor滤波器组对场景图像进行滤波,将滤波后 的大小进行选择,即元素值大的被选中的概率也大。的图像划分为4×4的网格,然后各个网格采用离散傅 里叶变换和窗口傅里叶变换提取图像的全局特征信 息。Gabor滤波器组的表达式为 2 基于Gist特征与卷积神经网络的图 像分类方法 本文提出一种基于Gist特征与卷积神经网络的场 G =Kexp[一( +y 2)/2o- “ ]× exp[21Tj(1t ̄oX +Voy。)j 其中 f =XCOS(0 )+ysin(0 { (2) (1) 景图像分类方法。该方法不是将原始图像的像素作为 卷积神经网络的输入,而是采用图像的Gist特征作为 它的输入。 【),, =一xsin(0 )+ycos(0 ) 标准差;0 =1『(i一1)/0f,i=1,2,…,0z,0 为Z尺度下 本文所用图像大小为256 X 256,若图像的像素直 式中:f为滤波器的尺度;K为正常数;19"为高斯函数的 接作为CNN的输入,其维数就是图像的大小,即256 X 256。而CNN的输入采用Gist特征时,用Oliva模型提 的方向总数。滤波后的图像为 F :G :}:, (3) 取Gist特征,每幅图像的Gist特征维数为512 X 1,重新 调整它的行数、列数,即将512 X 1维转化为16 X 32维。 1.2卷积神经网络 比起前一种方法,第二种使得CNN的输入维数大大缩 卷积神经网络是当前语音分析和图像识别领域的 小,减少了可训练参数,从而减小了网络复杂度,节省 研究热点,它融合了3种结构性的方法来实现平移、缩 了计算时间。 8 《电视技术》第40卷第11期(总第488期)J投稿网址http://www.videoe.on 篓 本文构建的卷积神经网络基本结构如图1所示。 层组成。网络中c层为卷积层,卷积层的特征图都由 D T ll_ 上的结果讨论了CNN的结构(batchsize、卷积核)对分 它由一层输入层、两层卷积层、两层采样层和一层输出 类结果的影响,找到各个参数影响分类结果的内在原 因。并通过本文结果与DBN,NN,SVM,CART作为分 不同的卷积核与前一层的特征图卷积得到。s层为采 类器在O&T场景图像集上的分类结果进行比较,来验 样层,它对卷积层的特征图进行子采样,本实验选择的 证本文方法的有效性。 本实验选用两个数据集,即MIT的Oliva&Torralba 10 采样方式是均值采样,输出是指最终的分类结果,输出 3.1数据集 层与输出层前一层之间全连接。 16×32 8@12×28 8@6X 14 16@4×12 16@2 X 6 (O&T)室外场景图像数据集和MNIST手写体数据集。 Oliva&Torralba(O&T)室外场景图像数据集用于验 证基于Gist特征与卷积神经网络的场景图像分类方法 的有效性。该数据集包含海滨、森林、高速公路、城市、 输入 C1层 s1层 C2层s2层输出 高山、乡村、街道和高楼8个类别,每幅大小为256 X 256,共2 688幅。数据集如图2所示。MNIST手写体 数据集用于在进行参数讨论时的对比实验。本实验直 图1 基于Gist特征与卷积神经网络结合的模型 本文提出的方法步骤(伪代码)如下: 方法:基于Gist特征与卷积神经网络结合的场景图像分类方法 输入:图像数据集 输出:分类误差 Step 1:用Oliva模型提取Gist特征; 接用CNN对MNIST手写体数据集进行分类。数据集 包含0~9的10个类别,每个样本被规范化,将数字置 于图像中心,并下采样成28×28的灰度图像,共70 000 个样本。 Step 2:每类抽取150幅图像的Gist特征作为训练数据,其余用 子测试; 3.2场景分类及相关参数讨论 在进行实验时,卷积神经网络选取的卷积核(k , k )和步长5 ,S 在 轴与Y轴的数值一样,故用k 表 Step 3:处理Gist特征,将数据归一化,并调整Gist特征的行数、 列数; 示第n层的卷积核,s 表示第n层的步长。本实验中, 设步长为固定值1。 3.2.1 batchsize的影响 Step 4:参数初始化,包括CNN结构、学习率、batehsize和迭代 次数; Step 5:CNN网络初始化,即对卷积核和权重进行随机初始化, 而对偏置进行全0初始化; Step 6:CNN网络训练 fori=1:迭代次数 foT.-1:numbatches 对于O&T室外场景图像数据集,每类随机抽取 150张图像用于训练,其余用于测试。MNIST手写体数 据集包含60 000个训练样本和10 000个测试样本。保 持其他参数不变,改变batchsize,结果如表1、表2所示。 从表中可以看出,对于同一个数据集,随着batch- size的减小,误差也在减小。程序中,每次挑出batchsize 个样本进行训练,即每次用batchsize个训练样本一起 随机抽取batchsize个训练数据,前向传输计算在当前网络权值 和输入下网络的输出; 反向传输调整权值; 更新权值; end for end for 计算梯度,更新模型参数。本实验数据集数量没有那 么大,如果选取较大的batchsize,很容易收敛到不好的 局部最优点,而减小batchsize的数值,引入更多的随机 性,会跳出局部最优。 3.2.2卷积核参数的影响 Step 7:CNN网络测试,用测试样本和训练好的CNN网络进行 测试; Step 8:输出误差。 卷积核是连接两层神经元互联的重要工具,其大 3 实验分析 数据集进行实验。关于CNN的结构选取目前尚未有 小决定提取局部特征的大小,设置适当的卷积核,对于 为了验证本文方法的有效性,选用O&T室外场景 提高CNN的性能至关重要。 在此实验中,对于O&T室外场景图像数据集,其实 误差1和误差2是指C1、c2 完善的理论依据,本实验用上述模型在Oliva&Torralba 验结果如表3所示。其中,4,8、16时实验的分类误差。 (O&T)室外场景图像数据集和MNIST手写体数据集 层特征图个数分别为7、1投稿网址http://www.videoe.cnI《电视技术》第40卷第11期(总第488期) 9 1 嚼稠熬舞 i f 0 n 4…㈨i 4 D lGlTA数L字VI视DE频O II [C]//Proc. renth 1EEE International Conference on Corn— 算法识别率最高,说明本文算法具有较好的识别能力。 基于Gist特征的CNN分类精度高于输入为像素级的 分类精度。将Gist特征作为网络的输入,有助于过滤 puter Vision,2005.[S.1.]:IEEE,2005:1458-1465. [5]杨昭.高隽,谢昭,等.局部Gist特征 配核的场景分类 [J].中同 象网形学报,2013,18(3):264—270. [6]孙志军,薛磊,许阳明,等.深度学习研究综述[J].计算 不必要的信息,学习到图像的局部特征更有利于图像 的识别。 表5 分类性能比较 方法 Our work C N DBN 机应H{研究,2012,29(8):2806—2810. [7]BENGIO Y,DELALLEAU O.On the expressive power of 正确率/% 82.90 78.36 deep ar(・bite(‘tm’es[C]//Pro(・.Algorithmic Learliitlg rheo— ry.Berlin Heidelberg:Springer,201 1:l8-36. [8]ZHENG Z,IJ Z,NAGAR A。et a1.Compa(・t deep neural networks for device based image( lassiifcation[c]//Prn(・. 20 l 5 IEEE International Conference 011 Muhimedia&Expo Workshops.Turin,Italy:IEEE,2015:1-6. 76.74 73.45 77.34 NN SVM CART 62.72 [9]HE K,ZHANG X,REN S,et a1.Spatial pyrami(1 pooling in deep convolutional networks for visual re(・ognition[J]. 4 小结 本文在对CNN深入研究的基础上,提出了一种基 于Gist特征与卷积神经网络的场景图像分类方法,在 IEEE transa(・tions on pattern analysis&maehine intelli— genee,2015,37(9):1904-19I6. [10]DONG Z.WU Y,PEI M,el a1.Vehi(-le type rlassification using a semisupervised convolutional neural network[J]. IEEE transactions on intelligent transpodatiou s)’stems, 0&T室外场景图像数据集上的实验表明,本文方法能 够很好地对场景图像进行分类。引入深度学习结构, 一20I5(29):2247—2256. 定程度上克服了传统浅层结构算法的局部最优。将 [1 1]SANTANA E,DOCKENDORF K,PRINCIPE J C.1 ̄arn— ing joinl features f0r color and depth images with Convolu一 Gist特征与CNN相结合,使得在逐层提取特征之前,提 前过滤了一部分不必要的特征,减小了网络复杂度,节 省了计算时间。实验深入研究了batchsize与卷积核对 (tonal Neural Netw[)rks fm・obje(・t classification[C]//Proc. 20l5 IEEE International Cont ̄renee oil Acoustics.Speech 分类结果的影响,并在不同的数据集上得到了一致的 结果。实验还与其他分类方法进行了比较,结果证明 本文方法正确率较高。本实验在最经典的Oliva模型 and Signal Processing.2015.[S.1.]:IEEE,2015:I320一 l323. [12]OLIVA A,TORRALBA A.Modeling the shape of the Pile: a holistic representation of the s1)atial envelope[J].1nterna— tional joumal of eompnter vision,2001,42(3):145—175. 上进行实验,在其他的模型上是否也有同样的效果,是 继续研究的方向。 [13]陈三风,梁永生,柳伟,等.雉于全局特征信息的快速 场景识别与分类研究[J].微计算机信息,2010,26 参考文献: (25):41-42. [1]金泰松,李玲玲,李翠华.基于全局优化策略的场景分类 算法[J].模式识别与人1 智能,2013,26(5):440—446+ [2]ULRICH I,NOURBAKHSH I.Appearance—based place recognition for topological 1o( alization[C]//Proc.IEEE In— tel・national Conferenee Oil Roboti(:s and Automation.2000. [14]CIRESAN D,MEIER U,MASCI J,et a1.A committee of neural networks for traffic sign classiifcation[c]//Tile 20 1 l International Joint Conference on Neural Networks,20 1 1. [S.I.]:IEEE,2011:19l8-1921. [15]刘建伟,刘媛,罗雄麟.深度学习研究进展[J].计算机 应用研究,2014,3l(7):192l一1930. [S.I_]:IEEE,2000:1023-1029. [3]SHEN J,SHEPHERD J,NGU A H H.Semantic—sensitive elassiifcatinn for large image libraries[C]//Proc.Proceed— ings of the 1 1 th International Muhimedia Modelling Confer— 作者简介: 梁雪琦(199o一),女,硕士生,主研深度学习、人工智能、 enee,2005.[S.1.]:IEEE,2005:340—345. [4]GRAUMAN K,DARRELL T. the pyramid match kernel: Discriininative classification with sets of image features 大数据等。 责任编辑:薛京 收稿日期:20l6—04_06 投稿网址http://www.videoe.caI《电视技术》第40卷第11期(总第488期) 11 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- yrrf.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务