. 36 JoURNAL oF JIANGSU UNIVERSITY(Natural Science Edition、 _ doi:10.3969/j.issn.1671—7775.2015.02.013 深度学习的研究与发展 张建明,詹智财,成科扬,詹永照 (江苏大学计算机科学与通信工程学院,江苏镇江212013) 摘要:针对以往浅层学习对特征表达能力不足和特征维度过多导致的维数灾难等现象,深度学习 通过所特有的层次结构和其能够从低等级特征中提取高等级特征很好地解决了这些问题,并给人 工智能带来了新的希望.首先介绍了深度学习的发展历程,并介绍了基于restircted boltzmann ma— chines(RBM)、auto encoder(AE)和convolutional neural networks(CNN)的deep belief networks (DBN)、deep bolmmann machine(DBM)和stacked auto encoders(SAE)等深度模型.其次,对近几年 深度学习在语音识别、计算机视觉、自然语言处理以及信息检索等方面的应用的介绍,说明了深度 学习结构在相比较于其他结构的优越性和在不同任务上更好的适应性.最后通过对现有的深度学 习在在线学习能力、大数据上和深度结构模型的改进上的思考和总结,展望了今后深度学习的发展 方向. 关键词:浅层学习;深度学习;层次结构;人工智能;机器学习 中图分类号:TP301 文献标志码:A 文章编号:1671—7775(2015)02—0191—10 引文格式:张建明,詹智财,成科扬。等.深度学习的研究与发展『J].江苏大学学报:自然科学版。2015,36(2):191—200. Review on development of deep learning Zhang Jianming,Zhan Zhicai,Cheng Keyang,Zhan Yongzhao (School of Computer Science and Communication Engineering,Jiangsu University,Zhenjiang,Jiangsu 212013,China) Abstract:To solve the insuficifency of shallow learning expression ability and the excessive dimension disaster due to the feature dimension,deep learning was used due to the unique hierarchies and capability of extracting high level features from low-level features,and brought new hope for artificial intelligence. The development of deep learning during different periods was introduced.The basic models of RBM,AE and CNN were analyzed to present the deep hierarchical structures of DBN,DBM and SAE.The applica— tions of deep learning in the fields of speech recognition,computer vision,natural language processing and information retrieval in recent years were introduced to illustrate the superiority and flexibility of deep learning compared with other shallow learning algorithms.Some future research directions were predicted based on the analysis,and some conclusions were made according to the improvement of deep learning on algorithm generalization,adaptation of big data and modifying on deep structure. Key words:shallow learning;deep learning;hierarchical structure;artiicialf intelligence; machine learning 收稿日期:2014—05—08 基金项目:国家自然科学基金资助项目(61170126) 作者简介:张建明(1964一),男,江苏丹阳人,教授(zhjm@ujs.edu.CB),主要从事图像处理与模式识别、虚拟现实的研究 詹智财(1989一),男,江西上饶人,硕士研究生(342888106@qq.corn),主要从事模式识别、深度学习的研究. 从2006年开始,深度学习作为机器学习领域中 对模式(音频、图像、文本等)进行建模的一种方法 已经成为机器学习研究的一个新领域.深度学习旨 在使机器学习能够更加地接近其最初的目标——人 工智能 . 近年来,随着深度学习的出现,许多研究者致力 于深度学习原理和应用的研究,主要体现在各大会 议、高校研究组和企业应用上的热潮.会议包括: 2013年声学,语音和信号处理国际会议(internatio— nal con ̄rence on acoustics,speech,and signal pro・ cessing,ICASSP)讨论关于语音识别和相关应用的 深度神经网络学习的新类型;2010,2011和2012年 神经信息处理系统(neural information processing sys- tems,NIPS)讨论关于深度学习和无监督特征学习; 201 1,2013年机器学习国际会议(international con— ference on machine learning,ICML)讨论关于音频, 语音和视觉信息处理的学习结构,表示和最优 化 .高校团队有:多伦多大学的Geoffrey Hinton研 究组;斯坦福大学的Andrew Ng研究组;加拿大蒙特 利尔大学的Yoshua Bengio研究组;纽约大学的 Yann LeCun研究组等 .企业团队有:百度公司的 Andrew Ng与余凯团队;微软公司的邓力团队; Google公司的Geoffrey Hinton团队和阿里巴巴,科 大讯飞以及中科院自动化所等公司或研究单位. 在深度学习中,深度指代在学到的函数中非线 性操作组成的层次的数目.早在1969年Minsky和 Papert在所著的《感知机》中就指出:单层感知机 (浅层结构)不能实现“异或”(XOR)功能,即不能 解决线性不可分问题.而多层感知机,即深度结构是 可以求解线性不可分的问题的,深度结构将低等级 特征组合或者变换得到更高等级形式的特征,并从 中学习具有层次结构的特征,这种特有的结构允许 系统在多层次的抽象中自动的学习并能够拟合复杂 的函数.因为无监督自动学习数据中隐藏的高等级 特征的能力会随着数据的规模的扩大和机器学习方 法的应用范围增大而变得越来越重要,深度学习也 会被越来越多的研究者重视.文中意在通过对深度 学习的基本模型的介绍以及在几大领域上的应用, 使读者能够对深度学习有大致的了解 J. 1深度学习的发展历程 机器学习的发展历程可以大致分为2个阶段: 浅层学习和深度学习.直到近些年,大多数机器学习 的方法都是利用浅层结构来处理数据,这些结构模 型最多只有1层或者2层非线性特征转换层.典型 的浅层结构有:高斯7昆合模型(GMMs)[5 3、支持向量 机(SVM) J、逻辑回归等等.在这些浅层模型中,最 为成功的就是SVM模型,SVM使用一个浅层线性 模式分离模型,当不同类别的数据向量在低维空间 中无法划分时,SVM会将它们通过核函数映射到高 维空间中并寻找分类最优超平面.到目前为止,浅层 结构已经被证实能够高效地解决一些在简单情况下 或者给予多重限制条件下的问题,但是当处理更多 复杂的真实世界的问题时,比如涉及到自然信号的 人类语音、自然声音、自然语言和自然图像以及视觉 场景时他们的模型效果和表达能力就会受到限制, 无法满足要求 . 早在1974年Paul Werbos提出了反向传播 (back propagation,BP)算法 ,解决了由简单的神 经网络模型推广到复杂的神经网络模型中线性不可 分的问题,但反向传播算法在神经网络的层数增加 的时候参数优化的效果无法传递到前层,容易使得 模型最后陷入局部最优解,也比较容易过拟合.在很 长一段时间里,研究者们不知道在有着多层全连接 的神经网络上怎样高效学习特征的深度层次结构. 2006年,Hinton提出了深度置信网络(deep be— lief network,DBN) ,这个网络可以看作是由多个 受限玻尔兹曼机(restricted bohzmann machines, RBM) 叠加而成.从结构上来说,深度置信网络与 传统的多层感知机区别不大,但是在有监督学习训 练前需要先无监督学习训练,然后将学到的参数作 为有监督学习的初始值.正是这种学习方法的变革 使得现在的深度结构能够解决以往的BP不能解决 的问题. 随后深度结构的其他算法模型被不断地提出, 并在很多数据集上刷新了之前的一些最好的记录, 例如2013年Wan Li等¨叫提出的drop connect规范 网络,其模型在数据集CIFAR一10上的错误率为 9.32%,低于此前最好的结果9.55%,并在SVHN 上获得了1.94%的错误率,低于此前最好的结果 2.8%等等. 2 深度学习的基础模型及其改进 深度学习出现的时间还不算长,所以大部分模 型都是以最基础的几种核心模型为基元,例如 RBM,AE(atuo encoders)… ,卷积神经网络(CODVO. lutional neural networks,CNN) lZ]等进行改进而得 到的.文中首先介绍这几种基础的模型,然后介绍这 几种基础模型上的深度结构模型或者其改进模型. 2.1受限玻尔兹曼机 RBM有着一个丰富的原理架构,是由1985年 D.H.Ackley等 提出的统计力学的随机神经网络 实例玻尔兹曼机(boltzmann machines,BM)发展而 来的.BM具有强大的无监督学习能力,能够学习数 据中复杂的规则.但是,它无法确切计算BM所表示 的分布.为了解决这个问题,Smolensky引入了受限 玻尔兹曼机,他将BM原来的层间连接进行限定,使 得同一层中不同的节点互相独立,只有层与层之间 的节点才有连接,这样就可以较为容易地求得它的 概率分布函数¨ 一 .本节介绍RBM的原理及基于 RBM的2个深度结构:DBN和深度玻尔兹曼机 (deep bohzmann machine,DBM) . 2.1.1 受限玻尔兹曼机原理 RBM是有着2层结构的马尔可夫随机场的特 殊情况 (见图1),它包含了由m个可视的单元 V=( 。,V ,…,V )构成的可视层,一般是服从伯努 利或者高斯分布;n个隐藏的单元日=(h ,h ,…, h )构成的隐藏层,一般是服从伯努利分布.图1中 上层表示n个隐藏单元构成的隐藏(输出)层,下层 表示m个可视单元构成的可视(输入)层. 图1受限玻尔兹曼机 如图1所示,RBM的可视单元层和隐藏单元层 间有权值连接,但层内单元之间无连接. 统计力学中能量函数 I9川可估算一个系统的 能量,当系统按其内动力规则进行演变时,其能量函 数总是朝减少的方向变化,或停留在某一固定值,最 终趋于稳定.所以可以借由能量函数来对RBM进行 状态的估计.一个RBM中,在当给定模型的参数0 (即为权重W,可视层偏置b,隐藏层偏置C)的情况 下,它关于可是单元 和隐藏单元h的联合分布 P( ,h;0)可以由能量函数E( ,h;0)给出,即为 p( , ; )=旦 巳 —二 ,(1) 式中Z=∑∑exp(一E( , ; ))为一个归一化因 子.这个模型的可视单元V边缘概率是P(V;0)= ∑exp(一E(v, ; )) Z 对于一个伯努利一伯努利RBM模型来说,其能 量函数为 E(v, ; )=一∑∑ 一∑bjvj一∑cih , =1 =1 ,=1 I=1 (2) 式中:i∈{1,2,…,n}; ∈{1,2,…,m};wij为一个介 于单元 和单元h 之间的边的实数权重;bj和c 为 第 个可视变量和第i个隐藏变量各自的实数偏置 项.模型的条件概率为 p(h :1 l ; ) Or(∑w ̄ivj+bi), (3) J=1 p( =1 l ; )= (∑wqh +c ), (4) 式中 ( ) ,为sigm。id函数’ 同样地,对于高斯一伯努利RBM来说,其能量 函数为 . E(v, ; )=一∑∑wqh — L。1 J 1 ÷∑( 一bj) 一∑cih . (5) 一J=1 I 1 与它相对应的条件概率为 p(h :1 I ; )= (∑ +b ), (6) ,=1 p(vj J ; )=N(∑wqh + ,1), (7) 式中v1为连续值,是服从均值为∑woh。+cj,方差 为1的高斯分布.高斯一伯努利RBM能够将连续值 的随机变量转换成二值的随机变量,然后能够通过 伯努利一伯努利RBM进行处理.在训练RBM时,采 用k步对比散度(contrastive divergence,CD) 算 法.具体的k-CD算法如下. 输入:RBM( l, 2,…,V ,hl,h2,…,h )的训练 集S. 输出:Aw ,△6,,Ac 的近似梯度结果,i=1, 2,…, , =1,2,…,m. 的自然信息数据(自然世界中存在的信息)中构建高 等级表征,通过使用人为定义的有标签数据对模型进 行微调,从而进一步达到期望的分类结果.再之,除了 都是自下而上的生成结构且都能够进行自顶向下的 反馈外,DBM允许更鲁棒性地处理模糊的输入数据 且更好地进行传播,减少传播造成的误差 J. 2.2自动编码器 Y.Bengio等 在2007年通过理解DBN的训 练策略的成功之处,即通过无监督预训练来更好地 初始化所有层的权值从而减缓深度网络的优化困难 的问题,并通过将DBN结构中的RBM建筑块替换 成AE来验证这个想法.本节先介绍AE的基本原 理,然后再介绍基于AE的堆叠自动编码器(stacked auto encoders,SAE) . 2.2.1 自动编码器的原理 AE通过将可视层的输入变换到隐藏的输出 层,然后通过隐藏层进行重构使得自动编码器的目 标输出与原始输入自身几乎相等,如图3a所示.AE 的目标函数为 1 n J(0,0 )=一1∑L(x“’,z“’)+ n 1 . (1 l0 +l】0 ), (11) 二 式中:第1项为最小化模型的重构误差;第2项为权 重衰减项.首先,假设一个自动编码器的输人为d维 的向量 ∈[0,1] ,通过一个函数映射,映射到输出 层为d 维的表征向量Y∈[0,1 ,映射函数为Y= ( )=s(Wx+b),模型的构造参数为0={W,b}, 且w是一个d ×d的权重矩阵, 是偏置向量,s是 逐元素计算的逻辑sigmoid函数,S(t)= 1 『_二 ,t∈{1,m}, 为所需传播的后一层的 1十e P 一 单元个数.得到的输出表征Y随后映射到“重构”向 量z∈[0,1] ,z=g (Y)=s(W +b ),模型的重构 参数0 ={W ,b },w 是一个d X d 的权重矩降图 3b是一个自动编码过程的简略表示. 输入单元 输出单元 、 .................... I J l一 一,(a)自动编码器基本结构(b)自动编码器基本原理 图3 自动编码器的基本结构及其基本原理 最优化这个模型的参数{0,0 }即为最小化模型 的平均重构误差: '-EL( ‘”,z‘i )= ∑( ‘ ,gq'( ( ‘ ))), …一 F/,i=1 (12) 式中:17,为样本数据的大小; 为原始输入向量;z为 重构向量.依据输入输出的不同,损失函数L可以是 连续值的传统的方差损失函数L(x,z)=÷l I一z lI 或者是二值的交叉熵损失函数C(x,z)= d 一∑[xjlog(zj)+(1一xj)log(1一 )] . 另外,为了防止过拟合,通过将权重衰减项作为 正则化项加入到目标函数中,即为公式(11)的第2 项.权重衰减参数入表明这个重构误差和权重衰减 项的相关重要性. 2.2.2基于自动编码器的深度结构 AE结构简单,而且其数学表示通俗易懂,加之 能够很好地进行堆叠形成深层结构,本节将介绍基 于AE形成的SAE结构. 文献[4,11]中自动编码器的训练过程是和RBM 一样使用贪心逐层预训练算法,但因为是通过重构误 差来进行训练,相比较而言比训练RBM容易,所以常 常用来代替RBM构建深度结构.通过将DBN中的 RBM替换成AE,形成SAE.SAE的特点就是它与 RBM一样也是一个生成模型,但是数据样本在作为 SAE的输入的同时还能够作为SAE的输出目标,从 而检测SAE中间层学到的特征是否符合要求,通过 逐个AE的训练,最终完成对整个网络进行训练 堆叠自动编码器(见图4)是由多层自动编码器 构成的深层神经网络,它被广泛地用于深度学习方 法中的维数约简 和特征学习 . ………一 三 ) 第^层自动编码器 ——~ .‘…………一一 /.—————————————_、 : 构造i …一一:……一一( i : : :: : ::: . 第2层自动编码器 构造}、、 : 第1层自动编码器 图4堆叠自动编码器 正如图4中展现的,假设有h个自动编码器,并 以从底向上的顺序逐层进行训练.具体的训练过程 如下 J:①训练第1个AE,最小化其原始输入(图 4中黑色部分)的重构误差;②将上一个AE的输出 用作下一个AE的输人,按照步骤②中的方式进行 训练;③重复②步的过程,直到完成下面层的训练; ④将最后一层隐藏层的输出作为一个有监督层的 输入,初始化其参数(保持剩余层的参数固定,最顶 层的参数可以是随机或者有监督训练得到);⑤按 照有监督的标准,可以对所有层进行微调,或者仅对 最高层进行微调. 最顶层AE的隐藏层就是这个SAE的输出,这 个结果能够馈送到其他应用中去,例如在输出端使 用一个SVM分类器.这个无监督预训练能够自动地 利用大规模的无标签数据在神经网络中获得比传统 随机初始化更好的权重初始化. 若干个自动编码器的堆叠就成为了深层结构, 如果在每个自动编码器的损失函数上加上一个稀疏 惩罚值,那么就成为了稀疏堆叠自动编码器 (stacked sparse auto encoders,SSAE) : 1 d Jsparse( ,0 )=.,( ,0 )+ 1∑∑ , 』 1 (13) 1 d n 式中: 为稀疏正则化常量; 1∑∑ 为稀疏惩 』 0 1 罚项.在堆叠自动编码器的基础上,输入的时候将原 始数据加上噪声项,然后在输出层能够获得原始无 噪声的输出,那么就是堆叠消噪自动编码器 (stacked denoising auto encoders,SDAE) ;如果在 堆叠自动编码器的基础上加上卷积结构,那么就是 堆叠卷积自动编码器(stacked convolutional auto en. coders,SCAE) . 2.3卷积神经网络 在1989年Yan Lecun等基于前人工作,提出了 一个可以将BP成功用于训练深度网络的结构: CNN,它组合局部感受野、权重共享、和空间或时问 上的子采样这3种结构去确保平移和变形上的不变 性,一个典型的CNN网络如图5所示. 卷积 子采样 卷积 予采样卷积 图5卷积神经网络基本结构 局部感受野:图5中第1个隐藏层有着6个特 征图,每个对应于输入层中的小方框就是一个局部 感受野,也可以称之为滑动窗口. 卷积:卷积层f中第 个特征映射的激活值 为 I= +∑ol 后 ). (14) i 权值共享:这里.厂是一个非线性函数,通常是 tanh函数或是sigmoid函数,6 是第z层的第 个单 元的偏置值, 是f一1层中特征映射i的索引向 量,而在第z层中特征映射 是需要累加的, 是一 个2维卷积操作且 是作用在第z一1层中的特征 映射i上的卷积核心,能够生成第f层中特征映射 的累加的输入部分.一个卷积层通常由几个特征图 构成,而这里的k: 即为权重,在同一个特征图中是 相同的,这样就减少了自由参数的数量. 子采样:如果平移这个卷积层的输入将会平移 其输出,但是却不会改变它,而且一旦一个特征被检 测到,其准确的位置就会不那么重要了,只要相对于 其他特征的近似位置被保存即可.因此,每个卷积层 后面会有一个额外的层去执行局部的均值化,即子 采样 去减少输出时关于平移和变形的灵敏度. 对于一个子采样层Z中的特征映射. ,有 口f.down(o 。。,N ), (15) 式中:down为基于因子 进行下采样的函数; 为 第2层子采样层所需要的窗口边界大小,然后对大 小为N ×N 的窗口非重叠区域进行均值计算.假设 神经元的输出层为C维,那么就能对C类进行的鉴 别,输出层是前层的连接特征映射的输出表征: output= b。+w ), (16) 式中:b。为偏置向量;Wo为权重矩阵; 为特征向 量,模型的参数是{ , ,b。,Wo}.卷积层和子采样 层通常是逐层交替,而特征图的数量是随着空间解 析度的减少而增加. 在CNN的应用上一个很成功的实例是Y.Le— Cun等 于1995年提出的LeNet-5系统,在MNIST 上得到了0.9%的错误率,并在20世纪90年代就 已用于银行的手写支票识别. 近年来,关于CNN的模型逐渐成为研究的热 点.2012年A.Krizhevsky等 将CNN构造成深度 卷积神经网络(deep convolutional neural network, DCNN),在ILSVRC一2012数据集上获得了top.5测 试错误率为l5.3%的好结果.2014年Zheng Yi等提 出的多通道深度卷积神经网络(multi-channels deep convolutional neur ̄networks,MC—DCNN) 在BID. MC数据集上获得最好的准确度(94.67%),优于之 前这个数据集上的最好结果. (deep hidden identity feature,DeepID)的方法去学 习高等级特征表征来进行人脸识别.通过将人脸部 分区域作为每个卷积网络的输入,在底层中提取局 部低等级特征,并在深度卷积网络的最后一层隐藏 层的神经元激活值中形成DeepID特征,试验结果显 3深度学习的应用 深度学习从2006年开始在语音识别、计算机视 觉、自然语言处理和信息检索上面都取得了较好效 果,在不同的数据集以及工业应用上都表现出远超 以往浅层学习所能达到的最好的效果. 3.1语音识别 在过去几十年中,语音识别领域的研究者们都 把精力用在基于HMM.GMM的系统 ,而忽略了 原始语音数据内部原有的结构特征.深度神经网络 DNN在2010年开始被引入处理语音识别问题,因 为DNN对数据之间的相关性有较大的容忍度,使得 当GMM被DNN替换时,效果明显有了飞跃. 2012年,微软公司一个基于深度学习的语音视 频检索系统(Microsoft audio video indexing service, MAVIS)成功问世,将单词错误率降低了30%(从 27.4%到18.5%) .2014年IBM的沃森研究中心 的T.N.Sainath 的工作结果显示DNN比以往过 去的GMM—HMM模型有8%~15%的提升,而CNN 相比于一般DNN来说能对数据问强烈的相关性有 更强的适应力,同时足够深的网络还有对数据的平 移不变性的特性. 3.2计算机视觉 深度学习在计算机视觉上的成功应用,主要体现 在对象识别 和人脸识别领域 上.过去很长一段 时间,机器视觉中的对象识别一直依赖于人工设计的 特征,例如尺度不变特征转换(scale invariant feature transform,SIFF) 和方向梯度直方图(histogram of oriented gradients,HOG) ,然而像SIFT和HOG这 样的特征只能抓取低等级的边界信息. 针对以往小规模样本所无法表现的真实环境中 更复杂的信息,2010年人们引入了更大的数据集, 例如ImageNet数据集中有着15百万的标记高分辨 率图像和超过2万2千个类别.A.Krizhevsky等 3_ 在2012年通过训练一个大的深度神经网络来对 ImageNet LSVRC-2010中包含着1 000个不同类别的 1.2百万个高分辨率图像进行分类.在测试数据中, 他们在top.1和top-5上的错误率是37.5%和17. 0%,刷新了这个数据集的最好记录. 2014年Sun Yi等 提出了深度隐藏身份特征 示Yi等在LFW上获得了97.45%的准确度. 3.3自然语言处理 自然语言处理(natural language processing, NLP)[43j意在将人类语言转换到能够容易地被计算 机操作的表征的过程.大多数的研究者将这些问题 分离式考虑,例如词性标注、分块、命名实体识别、语 义角色标注、语言模型和语义相关词等,而没有注重 到整体性,使得自然语言处理领域中的进展不是很 乐观.具体来说现有的系统有3个缺陷 J:①它们 都是浅层结构,而且分类器通常是线性的;②对于 一个效果好的线性分类器来说,它们必须事先用许 多人工特征来预处理;③从几个分离的任务中进行 串联特征以至于误差会在传播过程中增大. 2008年R.Collobert等 通过将一个普通的深 度神经网络结构用于NLP,在“学习一个语言模式” 和“对语义角色标签”任务上通过将重点关注到语义 角色标签的问题上进行了没有人工设计特征参与的 训练,其错误率为14.3%的结果刷新了最好记录. 3.4信息检索 信息检索(information retrieval,IR)就是用户输 入一个查询到一个包含着许多文档的计算机系统, 并从中取得与用户要求所需最接近的文档 J.深度 学习在lR上的应用主要是通过提取有用的语义特 征来进行子序列文档排序,由R.Salakhutdinov等 J 在2009年提出,他们针对当时最广泛被使用在文档 检索上的系统TF—IDFl2 上的分析,认为TF—IDF 系统有着以下的缺陷:在词计数空间中直接计算文 档的相似性,这使得在大词汇量下会很慢;没有使用 词汇间的语义相似性.因为在DNN模型的最后一层 中的隐藏变量不但在使用基于前向传播的训练后容 易推导,而且在基于词计数特征上给出了对每个文 档更好的表征,他们使用从深度自动编码器得到的 紧凑的编码,使得文档能够映射到一个内存地址中, 在这个内存地址中语义上相似的文档能够被归类到 相近的地址方便快速的文档检索.从词计数向量到 紧凑编码的映射使得检索变得高效,只需要更便捷 的计算,更少的时间. 2014年Shen Yelong等 提出了卷积版的深度 结构语义模型(eonvolufional deep.structured semantic modeling,C—DSSM),C—DSSM能将上下文中语义相 似的单词通过一个卷积结构投影到上下文特征空间 向量上,从之前43.1%的准确率提高到了44.7%. 不同于以往浅层结构只能解决许多简单的或者 许多约束条件下的问题,深度结构能够处理许多复 杂的真实世界中的问题,例如人类语音、自然声音和 表征.因为深度学习尚在初步阶段,很多问题还没有 解决,所以还无法真正达到人工智能的标准,但是深 度学习现有的成功和发展表明,深度学习是向人工 智能迈进的一大步. 5 总 结 语言、自然图像、可视场景等问题,它们可以直接从 数据中提取数据所包含的特征而不受具体模型的约 束,从而更具有泛化能力. 4深度学习的研究展望 随着研究的深入,深度学习已经成为机器学习 中一个不可或缺的领域,然而,关于深度学习的研究 现在仍然才处于萌芽状态,很多问题仍然没有找到 满意的答案 J.如对在线学习的能力的提升,以及 在大数据方面的适应能力以及在深度层次结构上的 改进. 在线学习方面:当前几乎所有的深度学习所应 用到的深度结构训练的算法都是先在搭建好的结构 上进行逐层训练,并在逐层训练之后加上一个全局 微调得到更好的拟合数据的参数集.这种训练算法 在纯粹的在线环境下不是很适用,因为在线数据的 数据集是在不断扩充的,一旦在在线环境下引入全 局微调的方法,那么结果极有可能陷入局部最小.如 何将深度学习用于在线环境是值得思考的一个问 题. 在对大数据的适应能力上:大数据中包含着很 多有价值的信息,但是如何从大数据中找到能够表 达这个数据的表征是研究者关心的问题.2012年的 Google大脑团队在一个超大多节点的计算机网络上 并行地训练深度网络结构,结果显示数据仍然呈现 欠拟合的状态_4 .对此,如何衡量训练复杂度与任 务复杂度的关系,使得深度学习可以充分地用在大 数据上,还有待于研究和实践. 在深度结构的改进上:深度结构的层次模型虽 然比浅层模型在结构上具有突破,模拟了生物的视 觉系统分层结构,但是未能完全匹配皮层的信息处 理结构.比如研究者们发现现有的主流的深度结构 并未考虑到时间序列对学习的影响,而作为真正的 生物皮层在处理信息上来说,对信息数据的学习不 是独立静态的,而是随着时间有着上下文的联系的. 人类的信息处理机制表明深度结构可以从丰富 的感知信息中提取复杂的结构和建立数据中内在的 1)文中首先通过对现有的深度学习所使用的 深度结构的分类,介绍了RBM,AE,CNN等深度学 习所使用的几大基础模型具有的原理及特点,并相 对应地分析了如何在这几个模型的基础上来得到 DBN、DBM以及SAE等真正的深度层次结构模型. 2)通过在语音识别、计算机视觉、自然语言处 理和信息检索几大领域上深度学习应用的介绍,说 明了深度学习在机器学习领域有相比较于其他浅层 结构学习具有更好的优越性和更少的错误率. 3)通过对深度学习在在线学习方面和大数据 上的适应能力以及对深度结构的改进等方面对当前 深度学习所面临的问题作了总结和思考.当前深度 学习还尚未成熟,仍有大量的工作需要研究,但是其 展现的强大的学习能力和泛化能力表明,今后它将 是机器学习领域中研究的重点和热点. 参考文献(References) [1]孙志军,薛磊,许阳明,等.深度学习研究综述[J]. 计算机应用研究,2012,29(8):2806—2810. Sun ZhOun,Xue Lei,Xu Yangming,et a1.Ove ̄iew of deep learning[J].Application Research of Computers, 2012,29(8):2806—2810.(in Chinese) [2]Deng Li,Yu Dong.Deep learning for signal and infor— marion processing[R].Microsoft Research,2013. [3] 胡晓林,朱军.深度学习——机器学习领域的新热 点[J].中国计算机学会通讯,2013,9(7):64—69. Hu Xiaolin,Zhu Jun.Deep learning--new hot spot in the field of maching earning[J].Communications fo the CCF,2013,9(7):64—69.(in Chinese) [4]Bengio Yoshua.Learning deep rachitectures for AI[J]. Foundations and Trends in Machine Learning,2009,2 (1):1—27. [5]Duarte—Carvajalino J M,Yu G S,Carin L,et a1.Task— driven adaptive statistical compressive sensing of gaussi— an mixture models[J].IEEE Transactions on Signal Processing,2013,61(3):585—600. [6]Abdel-Rahman E M,Mutanga 0,Adam E,et a1.De— tecting sirex noctilio grey・-attacked and lightning—・struck pine trees using airborne hyperspectral data,random forest and suppo ̄vector machines classifiers[J]. 一 PRS Journal of Photogrammetry and Remote Sensing, 2014,88:48—59. [7]刘国海,肖夏宏,江辉,等.基于BP.Adaboost的 近红外光谱检测固态发酵过程pH值[J].江苏大学 学报:自然科学版,2013,34(5):574—578. Liu Guohai,Xiao Xiahong,Jiang Hui,et a1.Detection of PH variable in solid-state fermentation process by Fr— NIR spectroscopy and BP—Adaboost[J].Journal of Jiangsu University:Natural Science Edition,2013,34 (5):574—578.(in Chinese) [8] Sarikaya R,Hinton G E,Deoras A.Application of deep belief networks for natural language understanding[J]. IEEE Transactions on Audio,Speech and Language Pro— cessing,2014,22(4):778—784. [9] Fischer A,Igel C.Training restricted Boltzmann ma— chines:an introduction[J].Pattern Recognition,2014, 47(1):25—39. [10]Wan L,Zeiler M,Zhang S X,et 1a.Regularization of neurla networks using dropconnect[C]∥Proceedings of the 30th Internatoinal Conference on Machine Learning. Atlanta:IMLS,2013:2095—2103. [11]Bengio Y,Lamblin P,Popovici D,et a1.Greedy layer— wise training of deep networks[C]∥Proceedings fo20th Annual Conference on Neural Information Processing跏一 tetr ̄.Vancouver:Neural information processing system foundation,2007:153—160. [12]Palm R B.Prediction as a candidate for learning deep hierarchical models of data[D].Technical University of Denmark,Denmark,2012. [13]Ackley D H,Hinton G E,Sejnowski T J.A learning la— goirthm ofr Bohzmann machines[J].Cognitive Sciecne, 1985.9:147—169. [14] Yu Dong,Deng Li.Deep learning nad its applications to signal and infomration processing[J].IEEE Signal Processing Magazine,2011,28(1):145—149,154. [15] Cho K Y.Improved learning algorithms for restircted Bohzmann machines[D].Espoo:School of Science, Aalto University,2011. [16]Cho K H,Raiko T,Ilin A,et a1.A two-stage pretrai ning lagorithm ofr deep boltzmann machines[C]∥Pr0 ceedings of 23rd Internatoinal Conference on Artficial Neural Networks.Sofia:Springer Verlag,2013:106一 l13. [17]Shu H,Nan B,Koeppe R,et a1.Multiple testing for neuroimaging via hidden markov random field[DB/ 0L].[2014—05—08].http:∥arxiv.org/pdf/1404. 1371.Ddf. [18]Hjelm R D,Calhoun V D,Salakhutdinov R,et a1.Re. stricted Boltzmann machines for neuroimaging:an appli- cation in identi ̄ing intirnsic networks[J].Neuro— Image,2014,96:245—260. [19]Hinton G E,Osindero S,Teh Y W.A fast learning al— gorithm for deep belief nets[J].Neural Computation, 2006,18(7):1527—1554. [20]Lee H,Grosse R,Ranganath R,et a1.Unsupervised learning of hierarchical representations with convolutio— hal deep belief networks[J].Communications of teh ACM,2011,54(10):95—103. [21]Halkias X C,Paris S,Glotin H.Sparse penalty in deep belief networks:using the mixed norm constraint[DB/ OL].[2014一O5一O8].http:∥arxiv.org/pdf/1301. 3533.pdf. [22]Poon—Feng K,Huang D Y,Dong M H,et a1.Acoustic emotion recognition based on fusion of multiple feature— dependent deep Boltzmann machines[c]∥Proceedings fo teh 9th International Symposium on Chinese Spoken aLnguage Processing.Singapore:IEEE,2014:584— 588. [23]Wang W,Ooi B C,Yang X Y,et a1.Effective multi— modal retireval based on stacked auto.encoders『J]. Proceedings of the VLDB Endowment,2014,7(8): 649—660. [24]Arnold L,Rebecchi S,Chevallier S,et a1.An intro— duction to deep learning[C]∥Proceedings of the 18th European Symposium on Artfiwial Neural Networks, Computational Intelligence and Machine Learning. [s.1.]:i6doc.con publication,2010:477—478. [25]Salakhutdinov R,Hinton G.Semantic hashing[J]. 一 tenrational Journal ofApproxiamte Reasoning,2009,50 (7):969—978. [26] Goroshin R,LeCun Y.Saturating auto—encoders[DB/ 0L].[2014—05—08].http:∥arxiv.org/pdf/1301. 3577.pdf. [27] Jiang Xiaojuan,Zhang Yinghua,Zhang Wensheng,et a1.A novel sparse auto-encoder for deep unsupervised learning[C]∥Proceeding of 2013 Sixth Itnerantional Conference on Advanced Computational Intelligecne. Hangzhou:IEEE Computer Society。2013:256—261. [28]Vincent P,Larochelle H,Lajoie I,et a1.Stacked de— noising autoencoders:learning useful representations in a deep network with a local denoising criterion[J]. Journal of Machine Learning Research,2010,11: 3371—3408. [29] Masci J,Meier U,Cire ̄an D,et a1.Stacked convolu— tional auto—encoders for hierarchical feature extractinn [C]//Proceedings of 21st International Conference on Artficial Neural Networks. Espoo:Springer Verlag, 20l1:52—59. [30] Pinheiro P O,Collobert R.Recurrent convolutional neu- rla networks for scene labeling[C]ffProceedings of the 3 1st International Conference on Machine Learning.Bei— jing:IMLS,2014:82~90. [31] Zeiler M D,Fergus R.Stochastic pooling for regulariza一 tion of deep convolutional neural networks[DB/OL]. [2014—05—08].http:∥arxiv.org/pdf/1301.3557. pdf. [32]LeCun Y,Jackel L D,Bottou L,et a1.Learning Algo一 rithms for Classiifcation:A Comparison on Handwritten Digit Recognition[M].Korea:World Scientiifc,1995, 261—276. [33] Krizhevsky A,Sutskever I,Hinton G E.Imagenet clas— siifcation with deep convolutional neural networks[C]∥ Proceeding of 26th Annual Conference on Neural Infor- mation Processing Systems.Lake Tahoe:Neural informa— tion processing system ̄undation,2012:1097—1105. [34] Zheng Yi,Liu Qi,Chen Enhong,et a1.Time series classification using multi—channels deep convolutional neural networks[C]∥Proceedings of 15th International Conferecne on Web-Age Information Management. Macau:Springer Verlag,2014:298—310. [35] Mohamed A R,Dahl G E,Hinton G.Acoustic mode— ling using deep belief networks[J].IEEE Transactions on Audio,Speech and Language Processing,2012,20 (1):14—22. [36] Bengio Y,Courville A,Vincent P.Representation learning:a review and new perspectives[J].IEEE Transactions on Pattern Analysis and Machine lntelli— gecne,2013,35(8):1798—1828. [37] Sainath T N.Improvements to deep neural networks for large vocabulary continuous speech recognition tasks 【R I.IBM T.J.Watson Research Center,2014. [38] Sohn K,Jung D Y,Lee H,et a1.Efifcient learning of sparse,distributed,convolutional feature representations for object recognition[C]∥Proceeding fo201 1 IEEE In— terantional Conference on Computer Vision. Barcelona: IEEE.2011:2643—2650. [39] Cui Zhen,Chang Hong,Shan Shiguang,et a1.Joint sparse representation for video—based face recognition [J].Neurocomputing,2014,135:306—312. [40] 关海鸥,杜松怀,许少华,等.基于改进投影寻踪技 术和模糊神经网络的未受精种蛋检测模型[J].江苏 大学学报:自然科学版,2013,34(2):171—177. Guan Haiou,Du Songhuai,Xu Shaohua,et a1.Detec— tion model of on—-fretilized egg based on improved projec-・ tion pursuit and fuzzy neurla network[J].Journal of Jiangsu University:Natural Science Edition,2013,34 (2):171—177.(in Chinese) [41] 王国林,周树仁,李军强.基于模糊聚类和形态学的 轮胎断面特征提取[J].江苏大学学报:自然科学版, 2012,33(5):513—517. Wang Guolin,Zhou Shuren,Li Junqiang.Feature cx— traction of tire section based on fuzzy clustering and mor— phology[J].Jouranl ofJiangsu University:Natural Sci— ence Edition,2012,33(5):513—517.(in Chinese) [42] Sun Yi,Wang Xiaogang,Tang Xiaoou.Deep learning face representation from predicting 1 0,000 classes[C] f Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Columbus: IEEE Computer Society,2014:1891—1898. [43] Cambria E,White B.Jumping NLP curves:a review of natural language processing research[J].IEEE Compu— tatoinal Intelligecne Magazine,2014,9(2):48~57. [44] Collobert R.Weston J.A uniifed architecture for natu— ral language processing:deep neural networks with mul— titask learning[C]//Proceedings of 25th International Conference on Machien Learning.Helsinki,Finland: Association for Computing Machinery,2008:1 60—1 67. [45] Shen Yelong,He Xiaodong,Gao Jianfeng,et a1.Lear— ning semantic representations using convolutional neural networks for Web search[C]//Proceedings ofthe corn— panion publication of the 23rd international conference on World wide web companion.Seoul:IW3C2。2014:373— 374. [46] Arel I,Rose D C,Karnowski T P.Deep machine lear— ning a new frontier in artiifcial intelligence research [J].IEEE Computational lnteUigeace Magazien,2010, 5(4):13—18. [47] Bengio Y.Deep learning of representations:looking ofr- ward[C]//Proceedings of 1st International Co ̄recne on Statistical Language and Speech Processing.Tarrago— na,Spain:Springer Verlag,2013:1—37. (责任编辑梁家峰)