基于Gist特征与CNN的场景分类方法

来源：意榕旅游网

●一美■　｛　ｆ　ｏ匹＾　ｆ＾‘ｄｒｉ　Ｆ　Ｄ　Ｔ　洳　文献引用格式：梁雪琦．基于Ｇｉｓｔ特征与ＣＮＮ的场景分类方法［Ｊ］．电视技术，２０１６，４０（１１）：７—１１．　ＬＩＡＮＧ　Ｘ　Ｑ．Ｍｅｔｈｏｄ　ｏｆ　ｓｃｅｎｅ　ｉｍａｇｅ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｂａｓｅｄ　ｏｎ　Ｇｉｓｔ　ｄｅｓｃｒｉｐｔｏｒ　ａｎｄ　ＣＮＮ［Ｊ］．Ｖｉｄｅｏ　ｅｎｇｉｎｅｅｒｉｎｇ，２０１６，４０　（１１）：７－１１．　中图分类号：ＴＰ１８　文献标志码：Ａ　ＤＯＩ：１０．１６２８０／ｊ．ｖｉｄｅｏｅ．２０１６．１１．００２　基于Ｇｉｓｔ特征与ＣＮＮ的场景分类方法　梁雪琦　（太原理工大学信息工程学院，山西晋中０３０６００）　摘要：针对大多数场景分类方法只能学习浅层特征，忽略图像之间的相关结构信息，提出一种基于Ｇｉｓｔ特征与卷积神经网　络结合的场景图像分类方法。其中Ｇｉｓｔ特征用于提取场景图像的全局特征，并将其作为深度学习模型的输入，通过逐层　训练卷积神经网络，提取更高层次的特征，并用训练好的卷积神经网络进行分类。实验在Ｏ＆Ｔ室外场景图像数据集和　ＭＮＩＳＴ手写体数据集上考察了ｂａｔｃｈｓｉｚｅ、卷积核对分类结果的影响，并与ＤＢＮ，ＮＮ，ＳＶＭ和ＣＡＲＴ作为分类器的分类结果　进行比较，充分说明了本文方法的有效性。　关键词：Ｇｉｓｔ特征；特征提取；卷积神经网络；场景分类　Ｍｅｔｈｏｄ　ｏｆ　ｓｃｅｎｅ　ｉｍａｇｅ　ｃｌａｓｓｉｉｃａｔｉｏｎ　ｂａｓｅｄ　ｏｎ　Ｇｉｓｔ　ｄｅｓｃｒｉｐｔｏｒ　ａｎｄ　ＣＮＮ　ｆＬＩＡＮＧ　Ｘｕｅｑｉ　（Ｃｏｌｌｅｇｅ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ｔａｉｙｕａｎ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｔｅｃｈｎｏｌｏｇｙ，Ｓｈａｎｘｉ　Ｊｉｎｚｈｏｎｇ　０３０６００，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｍｏｓｔ　ｏｆ　ｔｈｅ　ｓｃｅｎｅ　ｃｌａｓｓｉｉｆｃａｔｉｏｎ　ｍｅｔｈｏｄｓ　ｈａｖｅ　ａ　ｐｒｏｂｌｅｍ　ｗｈｉｃｈ　ｉｇｎｏｒｉｎｇ　ｔｈｅ　ｓｔｒｕｃｔｕｒａｌ　ｉｎｆｏｒｍａｔｉｏｎ　ｒｅｌａｔｅｄ　ｂｅｔｗｅｅｎ　ｉｍａｇｅｓ　ｌｅａｄｓ　ｔｏ　ｔｈｅｙ　ｏｎｌｙ　ｃａｎ　ｌｅａｒｎ　ｓｈａｌｌｏｗ　ｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ　ｆｏｒ　ｓｃｅｎｅ　ｒｅｃｏｇｎｉｔｉｏｎ．Ａ　ｍｅｔｈｏｄ　ｏｆ　ｓｅｅｎｅ　ｉｍａｇｅ　ｃｌａｓｓｉｉｆｃａｔｉｏｎ　ｂａｓｅｄ　ｏｎ　Ｇｉｓｔ　ｄｅ—　ｓｃｒｉｐｔｏｒ　ａｎｄ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ（ＣＮＮ）ｉｓ　ｐｒｏｐｏｓｅｄ．Ｆｉｒｓｔｌｙ，Ｇｉｓｔ　ｄｅｓｃｒｉｐｔｏｒ，ｆｏｒ　ｇｌｏｂａｌ　ｓｃｅｎｅ　ｉｍａｇｅ　ｆｅａｔｕｒｅ　ｅｘｔｒａｃｔｉｏｎ，　ｉｓ　ｕｓｅｄ　ａｓ　ｔｈｅ　ｉｎｐｕｔ　ｏｆ　ｄｅｅｐ　ｌｅａｒｎｉｎｇ　ｎｅｔ．Ｓｅｃｏｎｄｌｙ，ｃｏｎｖｏｌｕｔｉｏｎａｌ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋ　ｉｓ　ｔｒａｉｎｅｄ　ｂｙ　ｌａｙｅｒ－ｂｙ－ｌａｙｅｒ　ｔｏ　ｅｘｔｒａｃｔ　ａ　ｈｉｇｈｅｒ　ｌｅｖｅｌ　ｏｆ　ｆｅａｔｕｒｅｓ．Ｔｈｅｎ，ｔｈｅ　ｔｒａｉｎｅｄ　ｃｏｎｖｏｌｕｔｉｏｎａｌ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋ　ｉｓ　ｕｓｅｄ　ａｓ　ａ　ｃｌａｓｓｉｉｆｃａｔｉｏｎ．Ｆｉｎａｌｌｙ，ｅｘｐｅｒｉｍｅｎｔｓ　ｏｎ　Ｏｌｉｖａ＆Ｔｏｒｒａｌｂａ（Ｏ＆Ｔ）ｏｕｔｄｏｏｒ　ｓｃｅｎｅ　ｉｍａｇｅ　ｄａｔａ　ｓｅｔ　ａｎｄ　ＭＮＩＳＴ　ｈａｎｄｗｒｉｔｔｅｎ　ｄａｔａ　ｓｅｔ　ｉｎｖｅｓｔｉｇａｔｅｓ　ｔｈｅ　ｉｎｆｌｕｅｎｃｅ　ｔｏ　ｃｌａｓｓｉｉｆｃａｔｉｏｎ　ａｅ—　ｃｕｒａｃｙ　ｗｉｔｈ　ｂａｔｃｈｓｉｚｅ　ａｎｄ　ｋｅｒｎｅｌｓｉｚｅ，ａｎｄ　ｔｈｅ　ｃｏｍｐａｒｉｓｏｎ　ｗｉｔｈ　ｔｈｅ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｒｅｓｕｌｔｓ　ｏｆ　ｔｈｅ　ｃｌａｓｓｉｉｆｅｒｓ，Ｄｅｅｐ　Ｂｅｌｉｅｆ　Ｎｅｔｗｏｒｋ　（ＤＢＮ），Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ（ＮＮ），Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ（ＳＶＭ）ａｎｄ　Ｃｌａｓｓｉｉｆｃａｔｉｏｎ　Ａｎｄ　Ｒｅｇｒｅｓｓｉｏｎ　Ｔｒｅｅ（ＣＡＲＴ）ｏｎ　ｔｈｅ　Ｏ＆Ｔ　ｓｃｅｎｅ　ｉｍａｇｅ　ｓｅｔｓ　ｉｎｄｉｃａｔｅｓ　ｔｈｅ　ｅｆｆｅｃｔｉｖｅｎｅｓｓ　ｏｆ　ｔｈｅ　ｍｅｔｈｏｄ　ａｒｅ　ｐｕｔ　ｆｏｒｗａｒｄ．　Ｋｅｙ　ｗｏｒｄｓ：Ｇｉｓｔ　ｄｅｓｃｒｉｐｔｏｒ；ｆｅａｔｕｒｅ　ｅｘｔｒａｃｔｉｏｎ；ｃｏｎｖｏｌｕｔｉｏｎａｌ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋ；ｓｃｅｎｅ　ｃｌａｓｓｉｉｆｃａｔｉｏｎ　场景分类在计算机视觉领域有广泛的应用，２００６　模型设计了一种高效匹配核来度量局部特征问的相似　年召开的首次场景理解研讨会上明确提出“场景分类　性，核化特征匹配过程。以上算法均为利用各种特征　是图像理解的一个新的有前途的研究方向”…。Ｕｌｒｉｃｈ　提取方法解决场景分类问题，但特征提取过程有过多　和Ｎｏｕｒｂａｋｈｓｈ　利用颜色直方图进行场景分类。　主动因素介入，有很大的盲目性。　深度学习是近年发展起来的多层神经网络学习算　数逼近　。其中，卷积神经网络（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ，ＣＮＮ）　是一个典型的深度学习模型。它　是一个深层的神经网络，采用上一层的输出是这一层　Ｓｈｅｎ＿３　等人采用多种特征融合的方法表征图像特征进　（Ｓｐａｔｉａｌ　Ｐｙｒａｍｉｄ　Ｍａｔｃｈｉｎｇ，ＳＰＭ），利用视觉词汇的空间　行场景分类。Ｌａｚｅｂｎｉｋ　等人提出金字塔匹配模型　法，可通过学习一种深层非线性网络结构，实现复杂函　布局信息实现场景的有效分类。杨昭　在Ｇｉｓｔ特征中　引入空间信息和ＲＧＢ颜色信息，并基于词汇包（ＢＯＷ）　基金项目：国家自然科学基金项目（６１４５００１１）；山西省自然科学基金项目（２０１４０１１０１８－２）；山西省回国留学人员科研资　助项目（２０１３－０３３；２０１５－４５）　投稿网址ｈｔｔｐ：／／ｗｗｗ．ｖｉｄｅｏｅ．ｃｎｌ《电视技术》第４０卷第１１期（总第４８８期）　７　ｌｉ　Ｄ　ＩＧＩＴＡ数Ｌ字ＶＩ视ＤＥ频Ｏ　更有效的特征。ＣＮＮ已成功应用于语音识别、手写字　篓　时间域上的采样。ＣＮＮ是一种多层神经网络，由多个　卷积层和子采样层交替组成，每一层由多个特征图组　的输入的逐层学习的贪婪模型，使其能够学习更高级、　放和扭曲不变形，即局部感受眼、权值共享和空间域或　符识别等领域。但是，ＣＮＮ对输人数据是局部敏感的，　以像素级的特征作为ＣＮＮ的输入，提取不到图像的全　成，每个特征图由多个神经单元组成，同一个特征图的　局信息。Ｇｉｓｔ特征提取算法¨　是Ｏｌｉｖａ和Ｔｏｒｒａｌｂａ等提　所有神经单元共用一个卷积核（即权重），卷积核代表　出的一种有效的全局特征描述子，提取图像的自然度、　开放度、粗糙度、膨胀度和险峻度描述描述图像的全局　特征。以Ｇｉｓｔ特征作为ＣＮＮ的输入，可有效避免深度　种新的思路。　一个特征。　１．２．１　卷积层　卷积层　有如下几个参数：特征图的个数Ⅳ，特征　学习中遇到的难题。二者相结合，能为场景分类提供　图的大小（Ｎ　，Ｎ　），卷积核（？ｃ　，　）和步长（Ｓ　，Ｓ　）。一　一个大小为（　，ｋ　）的卷积核必须在输人图像的有效区　定义了卷积时卷积核在　轴和Ｙ轴跳多少的像素。输　出特征图大小的定义为　＝　本文通过Ｇｉｓｔ特征提取场景图像的全局特征，用　域内移动，即卷积核必须在输入图像内。步长｜ｓ　和ｓ　ＣＮＮ进一步学习更深层次的特征，并在ＣＮＮ最高层进　行场景分类。全局特征反映了图像的空间布局，过滤　了很多不必要的信息，比原始图像像素具有更强表达　能力。同时，通过ＣＮＮ的逐层贪婪学习，并在最高层　室外场景图像数据集上的实验表明，本文提出的算法　连接在　与ＤＢＮ、ＮＮ、ＳＶＭ、ＣＡＲＴ相比，具有更强的判别性，能　＋ｌ；　＝　＋１　（４）　参数／／，表示层数。在　层的每个特征图最多可　实现特征识别，提高了场景图像的学习性能。在Ｏ＆Ｔ　式中：层的Ⅳ　个特征图。　１．２．２采样层　够更有效地表征室外场景图像的特征，并得到较高的　分辨率。　采样层是对上一层的卷积层进行采样工作，实现　局部平均和子抽样，使特征映射的输出对平移等变换　的敏感度下降　。采样层并不改变特征图的个数，但　１　相关理论　１．１　Ｇｉｓｔ特征　圮　。　输出的特征图会变小。对卷积层进行采样有很多方　式，包括均值采样、随机采样、最大值采样、重叠采样、　均方采样、归一化采样等。均值采样是对上一层特征　Ｏｌｉｖａ等提出的Ｇｉｓｔ特征是一种生物启发式特征，　ｃａｌｅ　Ｘ　ｓｃａｌｅ，　该特征模拟人的视觉，形成对外部世界的一种空间表　图的相邻小区域进行聚合统计，区域大小为ｓ示，捕获图像中的上下文信息。Ｇｉｓｔ特征通过多尺度　并取均值。随机采样是对特征图中的元素按照其概率　　多方向Ｇａｂｏｒ滤波器组对场景图像进行滤波，将滤波后　的大小进行选择，即元素值大的被选中的概率也大。的图像划分为４×４的网格，然后各个网格采用离散傅　里叶变换和窗口傅里叶变换提取图像的全局特征信　息。Ｇａｂｏｒ滤波器组的表达式为　２　基于Ｇｉｓｔ特征与卷积神经网络的图　像分类方法　本文提出一种基于Ｇｉｓｔ特征与卷积神经网络的场　Ｇ　＝Ｋｅｘｐ［一（　＋ｙ　２）／２ｏ－　“　］×　ｅｘｐ［２１Ｔｊ（１ｔ￣ｏＸ　＋Ｖｏｙ。）ｊ　其中　ｆ　＝ＸＣＯＳ（０　）＋ｙｓｉｎ（０　｛　（２）　（１）　景图像分类方法。该方法不是将原始图像的像素作为　卷积神经网络的输入，而是采用图像的Ｇｉｓｔ特征作为　它的输入。　【），，　＝一ｘｓｉｎ（０　）＋ｙｃｏｓ（０　）　标准差；０　＝１『（ｉ一１）／０ｆ，ｉ＝１，２，…，０ｚ，０　为Ｚ尺度下　本文所用图像大小为２５６　Ｘ　２５６，若图像的像素直　式中：ｆ为滤波器的尺度；Ｋ为正常数；１９＂为高斯函数的　接作为ＣＮＮ的输入，其维数就是图像的大小，即２５６　Ｘ　２５６。而ＣＮＮ的输入采用Ｇｉｓｔ特征时，用Ｏｌｉｖａ模型提　的方向总数。滤波后的图像为　Ｆ　：Ｇ　：｝：，　（３）　取Ｇｉｓｔ特征，每幅图像的Ｇｉｓｔ特征维数为５１２　Ｘ　１，重新　调整它的行数、列数，即将５１２　Ｘ　１维转化为１６　Ｘ　３２维。　１．２卷积神经网络　比起前一种方法，第二种使得ＣＮＮ的输入维数大大缩　卷积神经网络是当前语音分析和图像识别领域的　小，减少了可训练参数，从而减小了网络复杂度，节省　研究热点，它融合了３种结构性的方法来实现平移、缩　了计算时间。　８　《电视技术》第４０卷第１１期（总第４８８期）Ｊ投稿网址ｈｔｔｐ：／／ｗｗｗ．ｖｉｄｅｏｅ．ｏｎ　篓　本文构建的卷积神经网络基本结构如图１所示。　层组成。网络中ｃ层为卷积层，卷积层的特征图都由　Ｄ　Ｔ　ｌｌ＿　上的结果讨论了ＣＮＮ的结构（ｂａｔｃｈｓｉｚｅ、卷积核）对分　它由一层输入层、两层卷积层、两层采样层和一层输出　类结果的影响，找到各个参数影响分类结果的内在原　因。并通过本文结果与ＤＢＮ，ＮＮ，ＳＶＭ，ＣＡＲＴ作为分　不同的卷积核与前一层的特征图卷积得到。ｓ层为采　类器在Ｏ＆Ｔ场景图像集上的分类结果进行比较，来验　样层，它对卷积层的特征图进行子采样，本实验选择的　证本文方法的有效性。　本实验选用两个数据集，即ＭＩＴ的Ｏｌｉｖａ＆Ｔｏｒｒａｌｂａ　１０　采样方式是均值采样，输出是指最终的分类结果，输出　３．１数据集　层与输出层前一层之间全连接。　１６×３２　８＠１２×２８　８＠６Ｘ　１４　１６＠４×１２　１６＠２　Ｘ　６　（Ｏ＆Ｔ）室外场景图像数据集和ＭＮＩＳＴ手写体数据集。　Ｏｌｉｖａ＆Ｔｏｒｒａｌｂａ（Ｏ＆Ｔ）室外场景图像数据集用于验　证基于Ｇｉｓｔ特征与卷积神经网络的场景图像分类方法　的有效性。该数据集包含海滨、森林、高速公路、城市、　输入　Ｃ１层　ｓ１层　Ｃ２层ｓ２层输出　高山、乡村、街道和高楼８个类别，每幅大小为２５６　Ｘ　２５６，共２　６８８幅。数据集如图２所示。ＭＮＩＳＴ手写体　数据集用于在进行参数讨论时的对比实验。本实验直　图１　基于Ｇｉｓｔ特征与卷积神经网络结合的模型　本文提出的方法步骤（伪代码）如下：　方法：基于Ｇｉｓｔ特征与卷积神经网络结合的场景图像分类方法　输入：图像数据集　输出：分类误差　Ｓｔｅｐ　１：用Ｏｌｉｖａ模型提取Ｇｉｓｔ特征；　接用ＣＮＮ对ＭＮＩＳＴ手写体数据集进行分类。数据集　包含０～９的１０个类别，每个样本被规范化，将数字置　于图像中心，并下采样成２８×２８的灰度图像，共７０　０００　个样本。　Ｓｔｅｐ　２：每类抽取１５０幅图像的Ｇｉｓｔ特征作为训练数据，其余用　子测试；　３．２场景分类及相关参数讨论　在进行实验时，卷积神经网络选取的卷积核（ｋ　，　ｋ　）和步长５　，Ｓ　在　轴与Ｙ轴的数值一样，故用ｋ　表　Ｓｔｅｐ　３：处理Ｇｉｓｔ特征，将数据归一化，并调整Ｇｉｓｔ特征的行数、　列数；　示第ｎ层的卷积核，ｓ　表示第ｎ层的步长。本实验中，　设步长为固定值１。　３．２．１　ｂａｔｃｈｓｉｚｅ的影响　Ｓｔｅｐ　４：参数初始化，包括ＣＮＮ结构、学习率、ｂａｔｅｈｓｉｚｅ和迭代　次数；　Ｓｔｅｐ　５：ＣＮＮ网络初始化，即对卷积核和权重进行随机初始化，　而对偏置进行全０初始化；　Ｓｔｅｐ　６：ＣＮＮ网络训练　ｆｏｒｉ＝１：迭代次数　ｆｏＴ．－１：ｎｕｍｂａｔｃｈｅｓ　对于Ｏ＆Ｔ室外场景图像数据集，每类随机抽取　１５０张图像用于训练，其余用于测试。ＭＮＩＳＴ手写体数　据集包含６０　０００个训练样本和１０　０００个测试样本。保　持其他参数不变，改变ｂａｔｃｈｓｉｚｅ，结果如表１、表２所示。　从表中可以看出，对于同一个数据集，随着ｂａｔｃｈ－　ｓｉｚｅ的减小，误差也在减小。程序中，每次挑出ｂａｔｃｈｓｉｚｅ　个样本进行训练，即每次用ｂａｔｃｈｓｉｚｅ个训练样本一起　随机抽取ｂａｔｃｈｓｉｚｅ个训练数据，前向传输计算在当前网络权值　和输入下网络的输出；　反向传输调整权值；　更新权值；　ｅｎｄ　ｆｏｒ　ｅｎｄ　ｆｏｒ　计算梯度，更新模型参数。本实验数据集数量没有那　么大，如果选取较大的ｂａｔｃｈｓｉｚｅ，很容易收敛到不好的　局部最优点，而减小ｂａｔｃｈｓｉｚｅ的数值，引入更多的随机　性，会跳出局部最优。　３．２．２卷积核参数的影响　Ｓｔｅｐ　７：ＣＮＮ网络测试，用测试样本和训练好的ＣＮＮ网络进行　测试；　Ｓｔｅｐ　８：输出误差。　卷积核是连接两层神经元互联的重要工具，其大　３　实验分析　数据集进行实验。关于ＣＮＮ的结构选取目前尚未有　小决定提取局部特征的大小，设置适当的卷积核，对于　为了验证本文方法的有效性，选用Ｏ＆Ｔ室外场景　提高ＣＮＮ的性能至关重要。　在此实验中，对于Ｏ＆Ｔ室外场景图像数据集，其实　误差１和误差２是指Ｃ１、ｃ２　完善的理论依据，本实验用上述模型在Ｏｌｉｖａ＆Ｔｏｒｒａｌｂａ　验结果如表３所示。其中，４，８、１６时实验的分类误差。　（Ｏ＆Ｔ）室外场景图像数据集和ＭＮＩＳＴ手写体数据集　层特征图个数分别为７、１投稿网址ｈｔｔｐ：／／ｗｗｗ．ｖｉｄｅｏｅ．ｃｎＩ《电视技术》第４０卷第１１期（总第４８８期）　９　１　嚼稠熬舞　ｉ　ｆ　０　ｎ　４…㈨ｉ　４　Ｄ　ｌＧｌＴＡ数Ｌ字ＶＩ视ＤＥ频Ｏ　ＩＩ　［Ｃ］／／Ｐｒｏｃ．　ｒｅｎｔｈ　１ＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｏｒｎ—　算法识别率最高，说明本文算法具有较好的识别能力。　基于Ｇｉｓｔ特征的ＣＮＮ分类精度高于输入为像素级的　分类精度。将Ｇｉｓｔ特征作为网络的输入，有助于过滤　ｐｕｔｅｒ　Ｖｉｓｉｏｎ，２００５．［Ｓ．１．］：ＩＥＥＥ，２００５：１４５８－１４６５．　［５］杨昭．高隽，谢昭，等．局部Ｇｉｓｔ特征　配核的场景分类　［Ｊ］．中同　象网形学报，２０１３，１８（３）：２６４—２７０．　［６］孙志军，薛磊，许阳明，等．深度学习研究综述［Ｊ］．计算　不必要的信息，学习到图像的局部特征更有利于图像　的识别。　表５　分类性能比较　方法　Ｏｕｒ　ｗｏｒｋ　Ｃ　Ｎ　ＤＢＮ　机应Ｈ｛研究，２０１２，２９（８）：２８０６—２８１０．　［７］ＢＥＮＧＩＯ　Ｙ，ＤＥＬＡＬＬＥＡＵ　Ｏ．Ｏｎ　ｔｈｅ　ｅｘｐｒｅｓｓｉｖｅ　ｐｏｗｅｒ　ｏｆ　正确率／％　８２．９０　７８．３６　ｄｅｅｐ　ａｒ（・ｂｉｔｅ（‘ｔｍ’ｅｓ［Ｃ］／／Ｐｒｏ（・．Ａｌｇｏｒｉｔｈｍｉｃ　Ｌｅａｒｌｉｉｔｌｇ　ｒｈｅｏ—　ｒｙ．Ｂｅｒｌｉｎ　Ｈｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ，２０１　１：ｌ８－３６．　［８］ＺＨＥＮＧ　Ｚ，ＩＪ　Ｚ，ＮＡＧＡＲ　Ａ。ｅｔ　ａ１．Ｃｏｍｐａ（・ｔ　ｄｅｅｐ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋｓ　ｆｏｒ　ｄｅｖｉｃｅ　ｂａｓｅｄ　ｉｍａｇｅ（　ｌａｓｓｉｉｆｃａｔｉｏｎ［ｃ］／／Ｐｒｎ（・．　２０　ｌ　５　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　０１１　Ｍｕｈｉｍｅｄｉａ＆Ｅｘｐｏ　Ｗｏｒｋｓｈｏｐｓ．Ｔｕｒｉｎ，Ｉｔａｌｙ：ＩＥＥＥ，２０１５：１－６．　７６．７４　７３．４５　７７．３４　ＮＮ　ＳＶＭ　ＣＡＲＴ　６２．７２　［９］ＨＥ　Ｋ，ＺＨＡＮＧ　Ｘ，ＲＥＮ　Ｓ，ｅｔ　ａ１．Ｓｐａｔｉａｌ　ｐｙｒａｍｉ（１　ｐｏｏｌｉｎｇ　ｉｎ　ｄｅｅｐ　ｃｏｎｖｏｌｕｔｉｏｎａｌ　ｎｅｔｗｏｒｋｓ　ｆｏｒ　ｖｉｓｕａｌ　ｒｅ（・ｏｇｎｉｔｉｏｎ［Ｊ］．　４　小结　本文在对ＣＮＮ深入研究的基础上，提出了一种基　于Ｇｉｓｔ特征与卷积神经网络的场景图像分类方法，在　ＩＥＥＥ　ｔｒａｎｓａ（・ｔｉｏｎｓ　ｏｎ　ｐａｔｔｅｒｎ　ａｎａｌｙｓｉｓ＆ｍａｅｈｉｎｅ　ｉｎｔｅｌｌｉ—　ｇｅｎｅｅ，２０１５，３７（９）：１９０４－１９Ｉ６．　［１０］ＤＯＮＧ　Ｚ．ＷＵ　Ｙ，ＰＥＩ　Ｍ，ｅｌ　ａ１．Ｖｅｈｉ（－ｌｅ　ｔｙｐｅ　ｒｌａｓｓｉｆｉｃａｔｉｏｎ　ｕｓｉｎｇ　ａ　ｓｅｍｉｓｕｐｅｒｖｉｓｅｄ　ｃｏｎｖｏｌｕｔｉｏｎａｌ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋ［Ｊ］．　ＩＥＥＥ　ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　ｉｎｔｅｌｌｉｇｅｎｔ　ｔｒａｎｓｐｏｄａｔｉｏｕ　ｓ）’ｓｔｅｍｓ，　０＆Ｔ室外场景图像数据集上的实验表明，本文方法能　够很好地对场景图像进行分类。引入深度学习结构，　一２０Ｉ５（２９）：２２４７—２２５６．　定程度上克服了传统浅层结构算法的局部最优。将　［１　１］ＳＡＮＴＡＮＡ　Ｅ，ＤＯＣＫＥＮＤＯＲＦ　Ｋ，ＰＲＩＮＣＩＰＥ　Ｊ　Ｃ．１￣ａｒｎ—　ｉｎｇ　ｊｏｉｎｌ　ｆｅａｔｕｒｅｓ　ｆ０ｒ　ｃｏｌｏｒ　ａｎｄ　ｄｅｐｔｈ　ｉｍａｇｅｓ　ｗｉｔｈ　Ｃｏｎｖｏｌｕ一　Ｇｉｓｔ特征与ＣＮＮ相结合，使得在逐层提取特征之前，提　前过滤了一部分不必要的特征，减小了网络复杂度，节　省了计算时间。实验深入研究了ｂａｔｃｈｓｉｚｅ与卷积核对　（ｔｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗ［）ｒｋｓ　ｆｍ・ｏｂｊｅ（・ｔ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｃ］／／Ｐｒｏｃ．　２０ｌ５　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｔ￣ｒｅｎｅｅ　ｏｉｌ　Ａｃｏｕｓｔｉｃｓ．Ｓｐｅｅｃｈ　分类结果的影响，并在不同的数据集上得到了一致的　结果。实验还与其他分类方法进行了比较，结果证明　本文方法正确率较高。本实验在最经典的Ｏｌｉｖａ模型　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ．２０１５．［Ｓ．１．］：ＩＥＥＥ，２０１５：Ｉ３２０一　ｌ３２３．　［１２］ＯＬＩＶＡ　Ａ，ＴＯＲＲＡＬＢＡ　Ａ．Ｍｏｄｅｌｉｎｇ　ｔｈｅ　ｓｈａｐｅ　ｏｆ　ｔｈｅ　Ｐｉｌｅ：　ａ　ｈｏｌｉｓｔｉｃ　ｒｅｐｒｅｓｅｎｔａｔｉｏｎ　ｏｆ　ｔｈｅ　ｓ１）ａｔｉａｌ　ｅｎｖｅｌｏｐｅ［Ｊ］．１ｎｔｅｒｎａ—　ｔｉｏｎａｌ　ｊｏｕｍａｌ　ｏｆ　ｅｏｍｐｎｔｅｒ　ｖｉｓｉｏｎ，２００１，４２（３）：１４５—１７５．　上进行实验，在其他的模型上是否也有同样的效果，是　继续研究的方向。　［１３］陈三风，梁永生，柳伟，等．雉于全局特征信息的快速　场景识别与分类研究［Ｊ］．微计算机信息，２０１０，２６　参考文献：　（２５）：４１－４２．　［１］金泰松，李玲玲，李翠华．基于全局优化策略的场景分类　算法［Ｊ］．模式识别与人１　智能，２０１３，２６（５）：４４０—４４６＋　［２］ＵＬＲＩＣＨ　Ｉ，ＮＯＵＲＢＡＫＨＳＨ　Ｉ．Ａｐｐｅａｒａｎｃｅ—ｂａｓｅｄ　ｐｌａｃｅ　ｒｅｃｏｇｎｉｔｉｏｎ　ｆｏｒ　ｔｏｐｏｌｏｇｉｃａｌ　１ｏ（　ａｌｉｚａｔｉｏｎ［Ｃ］／／Ｐｒｏｃ．ＩＥＥＥ　Ｉｎ—　ｔｅｌ・ｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｅｅ　Ｏｉｌ　Ｒｏｂｏｔｉ（：ｓ　ａｎｄ　Ａｕｔｏｍａｔｉｏｎ．２０００．　［１４］ＣＩＲＥＳＡＮ　Ｄ，ＭＥＩＥＲ　Ｕ，ＭＡＳＣＩ　Ｊ，ｅｔ　ａ１．Ａ　ｃｏｍｍｉｔｔｅｅ　ｏｆ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋｓ　ｆｏｒ　ｔｒａｆｆｉｃ　ｓｉｇｎ　ｃｌａｓｓｉｉｆｃａｔｉｏｎ［ｃ］／／Ｔｉｌｅ　２０　１　ｌ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｊｏｉｎｔ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ，２０　１　１．　［Ｓ．Ｉ．］：ＩＥＥＥ，２０１１：１９ｌ８－１９２１．　［１５］刘建伟，刘媛，罗雄麟．深度学习研究进展［Ｊ］．计算机　应用研究，２０１４，３ｌ（７）：１９２ｌ一１９３０．　［Ｓ．Ｉ＿］：ＩＥＥＥ，２０００：１０２３－１０２９．　［３］ＳＨＥＮ　Ｊ，ＳＨＥＰＨＥＲＤ　Ｊ，ＮＧＵ　Ａ　Ｈ　Ｈ．Ｓｅｍａｎｔｉｃ—ｓｅｎｓｉｔｉｖｅ　ｅｌａｓｓｉｉｆｃａｔｉｎｎ　ｆｏｒ　ｌａｒｇｅ　ｉｍａｇｅ　ｌｉｂｒａｒｉｅｓ［Ｃ］／／Ｐｒｏｃ．Ｐｒｏｃｅｅｄ—　ｉｎｇｓ　ｏｆ　ｔｈｅ　１　１　ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｍｕｈｉｍｅｄｉａ　Ｍｏｄｅｌｌｉｎｇ　Ｃｏｎｆｅｒ—　作者简介：　梁雪琦（１９９ｏ一），女，硕士生，主研深度学习、人工智能、　ｅｎｅｅ，２００５．［Ｓ．１．］：ＩＥＥＥ，２００５：３４０—３４５．　［４］ＧＲＡＵＭＡＮ　Ｋ，ＤＡＲＲＥＬＬ　Ｔ．　ｔｈｅ　ｐｙｒａｍｉｄ　ｍａｔｃｈ　ｋｅｒｎｅｌ：　Ｄｉｓｃｒｉｉｎｉｎａｔｉｖｅ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｗｉｔｈ　ｓｅｔｓ　ｏｆ　ｉｍａｇｅ　ｆｅａｔｕｒｅｓ　大数据等。　责任编辑：薛京　收稿日期：２０ｌ６—０４＿０６　投稿网址ｈｔｔｐ：／／ｗｗｗ．ｖｉｄｅｏｅ．ｃａＩ《电视技术》第４０卷第１１期（总第４８８期）　１１　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文