您好,欢迎来到意榕旅游网。
搜索
您的当前位置:首页中餐菜品图像识别方法及装置[发明专利]

中餐菜品图像识别方法及装置[发明专利]

来源:意榕旅游网
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 111523483 A(43)申请公布日 2020.08.11

(21)申请号 202010334520.1(22)申请日 2020.04.24

(71)申请人 北京邮电大学

地址 100876 北京市海淀区西土城路10号

北京邮电大学(72)发明人 高伟东 郝然 

(74)专利代理机构 北京路浩知识产权代理有限

公司 11002

代理人 杨明月(51)Int.Cl.

G06K 9/00(2006.01)G06K 9/62(2006.01)G06N 3/04(2006.01)G06N 3/08(2006.01)

权利要求书2页 说明书8页 附图3页

CN 111523483 A()发明名称

中餐菜品图像识别方法及装置(57)摘要

本发明实施例提供一种中餐菜品图像识别方法及装置,所述方法包括:获取目标中餐菜品图像,对所述目标中餐菜品图像执行预处理操作;将经过预处理的所述目标中餐菜品图像输入至中餐菜品图像识别模型中,获得中餐菜品识别结果;其中,所述中餐菜品图像识别模型是基于经过预处理的中餐菜品图像样本以及对应的中餐菜品类别标签训练获得的,所述中餐菜品图像识别模型基于DenseNet模型构建,所述中餐菜品图像识别模型的网络结构包括:N个用于实现特征复用的密集连接块和N-1个用于压缩参数数量的过渡层;N为大于1的自然数。本发明实施例能够对多种中餐进行准确检测与识别,识别种类广泛、识别准确率高。

CN 111523483 A

权 利 要 求 书

1/2页

1.一种中餐菜品图像识别方法,其特征在于,包括:获取目标中餐菜品图像,对所述目标中餐菜品图像执行预处理操作;

将经过预处理的所述目标中餐菜品图像输入至中餐菜品图像识别模型中,获得中餐菜品识别结果;

其中,所述中餐菜品图像识别模型是基于经过预处理的中餐菜品图像样本以及对应的中餐菜品类别标签训练获得的,所述中餐菜品图像识别模型基于DenseNet模型构建,所述中餐菜品图像识别模型的网络结构包括:N个用于实现特征复用的密集连接块和N-1个用于压缩参数数量的过渡层;N为大于1的自然数。

2.根据权利要求1所述的中餐菜品图像识别方法,其特征在于,所述将经过预处理的所述目标中餐菜品图像输入至中餐菜品图像识别模型中,获得识别结果的步骤,具体包括:

将经过预处理的所述目标中餐菜品图像输入至中餐菜品图像识别模型,经过所述中餐菜品图像识别模型的第一卷积层、第一批量归一化层和激励层的操作,获得第一特征映射图;

将所述第一特征映射图输入至所述中餐菜品图像识别模型的最大池化层,获得第二特征映射图;

将所述第二特征映射图输入至所述中餐菜品图像识别模型的第一密集连接块,然后经过第一过渡层的操作,获得第三特征映射图;

将所述第三特征映射图输入至所述中餐菜品图像识别模型的第二密集连接块,然后经过第二过渡层的操作,获得第四特征映射图;

将所述第四特征映射图输入至所述中餐菜品图像识别模型的第三密集连接块,然后经过第三过渡层的操作,获得第五特征映射图;

将所述第五特征映射图输入至所述中餐菜品图像识别模型的第四密集连接块,然后经过第四过渡层的操作,获得第六特征映射图;

将所述第六特征映射图输入至所述中餐菜品图像识别模型的第二批量归一化层,然后经过全连接层和分类器的操作,获得中餐菜品识别结果。

3.根据权利要求2所述的中餐菜品图像识别方法,其特征在于,所述第一密集连接块、第二密集连接块、第三密集连接块和第四密集连接块均包括多个密集连接的瓶颈层,每个所述瓶颈层都有一个包含多种操作的复合函数,所述多种操作包括:批量归一化BN、ReLU激活函数和3×3卷积。

4.根据权利要求3所述的中餐菜品图像识别方法,其特征在于,所述多种操作还包括:1×1卷积。

5.根据权利要求2所述的中餐菜品图像识别方法,其特征在于,所述第一过渡层、第二过渡层、第三过渡层和第四过渡层均执行以下操作:批量归一化BN、ReLU激活函数、1×1卷积和2×2平均池化,步长为2。

6.根据权利要求1所述的中餐菜品图像识别方法,其特征在于,在所述获取目标中餐菜品图像,对所述目标中餐菜品图像执行预处理操作的步骤之前,还包括:

构建DenseNet模型,所述DenseNet模型包括依次连接的第一卷积层、第一批量归一化层、激励层、最大池化层、第一密集连接块、第一过渡层、第二密集连接块、第二过渡层、第三密集连接块、第三过渡层、第四密集连接块、第二批量归一化层、全连接层和分类器;

2

CN 111523483 A

权 利 要 求 书

2/2页

获取中餐菜品图像样本,对所述中餐菜品图像样本进行预处理;将经过预处理的中餐菜品图像样本输入至所述DenseNet模型,获得输出结果;基于所述输出结果和所述中餐菜品图像样本对应的中餐菜品类别标签,利用交叉熵损失函数,计算损失函数值;

基于Adam优化算法,从所述DenseNet模型的输出层开始调整所述密集连接型卷积神经网络的各个参数,以使所述损失函数值朝最小化方向移动;

判断是否达到训练结束条件,若是,则保存当前迭代所述DenseNet模型的参数,获得训练完成的中餐菜品图像识别模型。

7.根据权利要求1所述的中餐菜品图像识别方法,其特征在于,对所述目标中餐菜品图像执行预处理操作,具体为:

对所述目标中餐菜品图像按照预设角度进行随机中心旋转;

对经过随机中心旋转后的所述目标中餐菜品图像按照预设长宽比进行随机裁剪;按照预设概率对经过随机裁剪的所述目标中餐菜品图像进行水平翻转;对经过水平翻转的所述目标中餐菜品图像进行归一化。8.一种中餐菜品图像识别装置,其特征在于,包括:预处理模块,用于获取目标中餐菜品图像,对所述目标中餐菜品图像执行预处理操作;识别模块,用于将经过预处理的所述目标中餐菜品图像输入至中餐菜品图像识别模型中,获得中餐菜品识别结果;

其中,所述中餐菜品图像识别模型是基于经过预处理的中餐菜品图像样本以及对应的中餐菜品类别标签训练获得的,所述中餐菜品图像识别模型基于DenseNet模型构建,所述中餐菜品图像识别模型的网络结构包括:N个用于实现特征复用的密集连接块和N-1个用于压缩参数数量的过渡层;N为大于1的自然数。

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述中餐菜品图像识别方法的步骤。

10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述中餐菜品图像识别方法的步骤。

3

CN 111523483 A

说 明 书

中餐菜品图像识别方法及装置

1/8页

技术领域

[0001]本发明涉及计算机技术领域,更具体地,涉及一种中餐菜品图像识别方法及装置。背景技术

[0002]随着深度学习算法快速发展,计算机视觉成为了人工智能发展最快、落地最广的领域,并且已经广泛应用到人们生活中的方方面面,其中食物识别是目前计算机视觉领域中备受关注的一个新兴话题。

[0003]目前有许多针对西餐和日式菜品的识别算法研究,但针对中餐菜品图像识别的较成熟方法研究还不多,不仅由于公开的大型中餐菜品分类数据集很少,而且中餐菜品相对于西餐或者日式菜品更难识别,因为同种类别的中餐菜品可能会呈现出各种不同的形式。同时,中餐菜品图像还会受餐盘颜色、光线明暗等背景噪声的影响;另外不同中餐菜品之间还可能看起来很相似。[0004]基于这些原因,目前能够实现对中餐菜品进行准确识别的现有技术非常有限,这些情况都增加了中餐菜品图像的识别准确的难度。因此需要一种能对中餐菜品进行准确检测与识别的方法。

发明内容

[0005]为了解决或者至少部分地解决上述问题,本发明实施例提供一种中餐菜品图像识别方法及装置。[0006]第一方面,本发明实施例提供一种中餐菜品图像识别方法,包括:[0007]获取目标中餐菜品图像,对所述目标中餐菜品图像执行预处理操作;

[0008]将经过预处理的所述目标中餐菜品图像输入至中餐菜品图像识别模型中,获得中餐菜品识别结果;[0009]其中,所述中餐菜品图像识别模型是基于经过预处理的中餐菜品图像样本以及对应的中餐菜品类别标签训练获得的,所述中餐菜品图像识别模型基于DenseNet模型构建,所述中餐菜品图像识别模型的网络结构包括:N个用于实现特征复用的密集连接块和N-1个用于压缩参数数量的过渡层;N为大于1的自然数。[0010]可选地,所述将经过预处理的所述目标中餐菜品图像输入至中餐菜品图像识别模型中,获得识别结果的步骤,具体包括:

[0011]将经过预处理的所述目标中餐菜品图像输入至中餐菜品图像识别模型,经过所述中餐菜品图像识别模型的第一卷积层、第一批量归一化层和激励层的操作,获得第一特征映射图;

[0012]将所述第一特征映射图输入至所述中餐菜品图像识别模型的最大池化层,获得第二特征映射图;

[0013]将所述第二特征映射图输入至所述中餐菜品图像识别模型的第一密集连接块,然后经过第一过渡层的操作,获得第三特征映射图;

4

CN 111523483 A[0014]

说 明 书

2/8页

将所述第三特征映射图输入至所述中餐菜品图像识别模型的第二密集连接块,然

后经过第二过渡层的操作,获得第四特征映射图;

[0015]将所述第四特征映射图输入至所述中餐菜品图像识别模型的第三密集连接块,然后经过第三过渡层的操作,获得第五特征映射图;

[0016]将所述第五特征映射图输入至所述中餐菜品图像识别模型的第四密集连接块,然后经过第四过渡层的操作,获得第六特征映射图;

[0017]将所述第六特征映射图输入至所述中餐菜品图像识别模型的第二批量归一化层,然后经过全连接层和分类器的操作,获得中餐菜品识别结果。[0018]可选地,所述第一密集连接块、第二密集连接块、第三密集连接块和第四密集连接块均包括多个密集连接的瓶颈层,每个所述瓶颈层都有一个包含多种操作的复合函数,所述多种操作包括:批量归一化BN、ReLU激活函数和3×3卷积。[0019]可选地,所述多种操作还包括:1×1卷积。[0020]可选地,所述第一过渡层、第二过渡层、第三过渡层和第四过渡层均执行以下操作:批量归一化BN、ReLU激活函数、1×1卷积和2×2平均池化,步长为2。[0021]可选地,在所述获取目标中餐菜品图像,对所述目标中餐菜品图像执行预处理操作的步骤之前,还包括:

[0022]构建DenseNet模型,所述DenseNet模型包括依次连接的第一卷积层、第一批量归一化层、激励层、最大池化层、第一密集连接块、第一过渡层、第二密集连接块、第二过渡层、第三密集连接块、第三过渡层、第四密集连接块、第二批量归一化层、全连接层和分类器;[0023]获取中餐菜品图像样本,对所述中餐菜品图像样本进行预处理;[0024]将经过预处理的中餐菜品图像样本输入至所述DenseNet模型,获得输出结果;[0025]基于所述输出结果和所述中餐菜品图像样本对应的中餐菜品类别标签,利用交叉熵损失函数,计算损失函数值;[0026]基于Adam优化算法,从所述DenseNet模型的输出层开始调整所述密集连接型卷积神经网络的各个参数,以使所述损失函数值朝最小化方向移动;[0027]判断是否达到训练结束条件,若是,则保存当前迭代所述DenseNet模型的参数,获得训练完成的中餐菜品图像识别模型。[0028]可选地,对所述目标中餐菜品图像执行预处理操作,具体为:[0029]对所述目标中餐菜品图像按照预设角度进行随机中心旋转;

[0030]对经过随机中心旋转后的所述目标中餐菜品图像按照预设长宽比进行随机裁剪;[0031]按照预设概率对经过随机裁剪的所述目标中餐菜品图像进行水平翻转;[0032]对经过水平翻转的所述目标中餐菜品图像进行归一化。[0033]第二方面,本发明实施例提供一种中餐菜品图像识别装置,包括:[0034]预处理模块,用于获取目标中餐菜品图像,对所述目标中餐菜品图像执行预处理操作;

[0035]识别模块,用于将经过预处理的所述目标中餐菜品图像输入至中餐菜品图像识别模型中,获得中餐菜品识别结果;[0036]其中,所述中餐菜品图像识别模型是基于经过预处理的中餐菜品图像样本训练获得的,所述中餐菜品图像识别模型基于DenseNet模型构建,所述中餐菜品图像识别模型的

5

CN 111523483 A

说 明 书

3/8页

网络结构包括:N个用于实现特征复用的密集连接块和N-1个用于压缩参数数量的过渡层;N为大于1的自然数。[0037]第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的中餐菜品图像识别方法的步骤。[0038]第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的中餐菜品图像识别方法的步骤。

[0039]本发明实施例提供的中餐菜品图像识别方法及装置,能够对多种中餐进行准确检测与识别,识别种类广泛、识别准确率高。附图说明

[0040]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

[0041]图1为本发明实施例提供的中餐菜品图像识别方法的流程示意图;[0042]图2为本发明实施例提供的中餐菜品图像识别模型的网络结构示意图;[0043]图3为密集连接块dense block的结构示意图;[0044]图4为瓶颈层的结构示意图;

[0045]图5为本发明实施例提供的中餐菜品图像识别装置的结构示意图[0046]图6为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

[0047]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0048]图1为本发明实施例提供的中餐菜品图像识别方法的流程示意图,包括:[0049]步骤100、获取目标中餐菜品图像,对所述目标中餐菜品图像执行预处理操作;[0050]具体地,本发明实施例中,采用固定位置的摄像头采集单张目标中餐菜品图像,然后,对所述目标中餐菜品图像执行预处理操作,所述预处理操作包括数据增强操作。常用基本数据增强操作包括如下方式:旋转、平移、缩放、随机遮挡、水平翻转、颜色色差和噪声扰动等,可选取其中某几个数据增强方法对目标中餐菜品图像执行预处理操作。[0051]步骤101、将经过预处理的所述目标中餐菜品图像输入至中餐菜品图像识别模型中,获得中餐菜品识别结果;[0052]具体地,本发明实施例将经过上述预处理操作得到的目标中餐菜品图像输入至预先训练好的中餐菜品图像识别模型中,即可获得中餐菜品识别结果。[0053]其中,所述中餐菜品图像识别模型是基于经过预处理的中餐菜品图像样本以及对

6

CN 111523483 A

说 明 书

4/8页

应的中餐菜品类别标签训练获得的。[00]和一般的食物图像相比,中餐菜品图像一般不会像大部分西餐一样表现出独特的空间布局和明显的语义特征,更加难以提取中餐菜品图像的语义信息。因此,在本发明实施例中,中餐菜品图像识别模型基于DenseNet模型构建,因为DenseNet模型不是简单的通过很深或者很宽的网络来获得表征能力,而是通过对低层特征到高层特征的重复使用,将不同层的特征组合连接,增加了之后层输入的多样性,实现了对图像特征的极致利用。并且相对于其他网络,DenseNet模型参数更少,防止梯度消失,减小在小样本数据集上的过拟合,更加简单高效。

[0055]进一步地,基于DenseNet网络模型,中餐菜品图像识别模型的网络结构包括:N个用于实现特征复用的密集连接块和N-1个用于压缩参数数量的过渡层。[0056]不同于其他卷积神经网络,本发明应用密集连接方式实现特征复用,将图像特征利用到极致,能够更好的提取出图像对语义信息,实现更大概率的精确识别。所述密集连接块用于缓解梯度消失、减少训练参数、抗过拟合和实现特征复用,所述过渡层用于压缩参数数量,减少由于引入所述密集连接块所带来的模型复杂化问题。[0057]本发明实施例提供的中餐菜品图像识别方法,能够对多种中餐进行准确检测与识别,识别种类广泛、识别准确率高。[0058]基于上述实施例的内容,所述将经过预处理的所述目标中餐菜品图像输入至中餐菜品图像识别模型中,获得识别结果的步骤,具体包括:

[0059]将经过预处理的所述目标中餐菜品图像输入至中餐菜品图像识别模型,经过所述中餐菜品图像识别模型的第一卷积层、第一批量归一化层和激励层的操作,获得第一特征映射图;

[0060]将所述第一特征映射图输入至所述中餐菜品图像识别模型的最大池化层,获得第二特征映射图;

[0061]将所述第二特征映射图输入至所述中餐菜品图像识别模型的第一密集连接块,然后经过第一过渡层的操作,获得第三特征映射图;

[0062]将所述第三特征映射图输入至所述中餐菜品图像识别模型的第二密集连接块,然后经过第二过渡层的操作,获得第四特征映射图;

[0063]将所述第四特征映射图输入至所述中餐菜品图像识别模型的第三密集连接块,然后经过第三过渡层的操作,获得第五特征映射图;

[00]将所述第五特征映射图输入至所述中餐菜品图像识别模型的第四密集连接块,然后经过第四过渡层的操作,获得第六特征映射图;

[0065]将所述第六特征映射图输入至所述中餐菜品图像识别模型的第二批量归一化层,然后经过全连接层和分类器的操作,获得中餐菜品识别结果。

[0066]图2为本发明实施例提供的中餐菜品图像识别模型的网络结构示意图,所述中餐菜品图像识别模型包括依次连接的第一卷积层、第一批量归一化层、激励层、最大池化层、第一密集连接块、第一过渡层、第二密集连接块、第二过渡层、第三密集连接块、第三过渡层、第四密集连接块、第二批量归一化层、全连接层和分类器。[0067]具体地,目标中餐菜品图像经过预处理后,输入到中餐菜品图像识别模型中,经过第一卷积层的卷积操作、第一批量归一化层的BN操作,以及激励层的RELU激活函数操作后

7

CN 111523483 A

说 明 书

5/8页

实现降维,得到第一特征图,然后将第一特征映射图输入最大池化层,最大池化层是为了对特征映射图进行下采样,去掉图中不必要的冗余信息,得到第二特征映射图,依次通过四个密集连接块dense block,每个dense block层之间是过渡层。[0068]在一个具体的实施例中,首先将像素为224×224的目标中餐菜品图像按顺序进行图2中的卷积、BN和ReLU操作,实现降维,得到像素为112×112的第一特征映射图。然后将第一特征映射图输入最大池化层,最大池化层采用3×3卷积,步长为2。得到像素为56×56的第二特征映射图作为第一密集连接块dense block的输入。[0069]图3为密集连接块dense block的结构示意图,dense block中的一层称为瓶颈bottleneck层。使DenseNet优于其他卷积神经网络的原因在于密集连接块dense block。有了dense block,DenseNet就拥有了缓解梯度消失、参数减少、抗过拟合和特征复用等优点。[0070]假设一个dense block有l层,x0为dense block的输入。每一层都有一个包含三种操作的复合函数Hl(·),三种操作分别是:BN、ReLU和3×3的卷积。为了更好的改善dense block之间的信息传递,DenseNet提出一种与众不同的连接方式:密集连接。密集连接是将一个dense block中每层与之后的所有层进行连接,实现特征复用,如图3所示。因此,第l层将之前所有层的特征映射图x0,...,xl-1作为输入:[0071]xl=Hl([x0,x1,...,xl-1])[0072]其中,[x0,x1,...,xl-1]表示第0,...,l-1层输出的特征映射图经过组合连接后将作为第l层的输入。[0073]可选地,每个所述瓶颈层都有一个包含多种操作的复合函数,所述多种操作包括:批量归一化BN、ReLU激活函数和3×3卷积。[0074]图4为瓶颈层的结构示意图。考虑到采用密集连接后特征映射图的数量将会很多,于是为了减少特征映射图的数量和降低每张特征映射图的维度,在bottleneck层的3×3的卷积之前加入了1×1卷积可减少计算量。[0075]进一步地,所述第一过渡层、第二过渡层、第三过渡层和第四过渡层均执行以下操作:批量归一化BN、ReLU激活函数、1×1卷积和2×2平均池化,步长为2。其作用是为了进一步压缩参数数量,每一个dense block的输出特征映射图的维度和通道数都会剧增,而过渡层的卷积操作能够对特征映射图进行降维、平均池化可解决特征映射图的通道数过多的问题,从而防止经过过多的dense block后模型复杂化问题。[0076]若经过一个dense block生成了m个特征映射图,经过一个过渡层之后生成θm个特征映射图,其中,θ为压缩系数,且0<θ≤1。当θ=1时,经过过渡层的特征映射图数量不变。本发明实施例中设置θ=0.5,经过渡层后特征映射图数量减少一半。[0077]在一个具体的实施例中,经过四个dense block后的特征映射图的像素分别为56×56,28×28,14×14,7×7。在最后一个dense block之后使用BN和softmax分类器,将全连接层的输出设置为中餐菜品的种类数总数。

[0078]在利用训练好的中餐菜品图像识别模型对目标中餐菜品图像进行识别之前,还需要对中餐菜品图像识别模型进行训练。[0079]基于上述实施例的内容,在所述获取目标中餐菜品图像,对所述目标中餐菜品图像执行预处理操作的步骤之前,还包括:[0080]步骤200、构建DenseNet模型,所述DenseNet模型包括依次连接的第一卷积层、第

8

CN 111523483 A

说 明 书

6/8页

一批量归一化层、激励层、最大池化层、第一密集连接块、第一过渡层、第二密集连接块、第二过渡层、第三密集连接块、第三过渡层、第四密集连接块、第二批量归一化层、全连接层和分类器;

[0081]具体地,本实例中DenseNet模型为改进的DenseNet 169模型,具有如图3所示的网络结构。

[0082]步骤201、获取中餐菜品图像样本,对所述中餐菜品图像样本进行预处理;[0083]预处理的目的是实现图像增强。[0084]步骤202、将经过预处理的中餐菜品图像样本输入至所述DenseNet模型,获得输出结果;

[0085]步骤203、基于所述输出结果和所述中餐菜品图像样本对应的中餐菜品类别标签,利用交叉熵损失函数,计算损失函数值;[0086]损失函数采用交叉熵模型,加快收敛速度和权重矩阵的更新的速度。[0087]步骤204、基于Adam优化算法,从所述DenseNet模型的输出层开始调整所述密集连接型卷积神经网络的各个参数,以使所述损失函数值朝最小化方向移动;[0088]训练模型中的优化器采用Adam算法,实现自适应学习率,加快训练速度,增强网络的鲁棒性。

[00]步骤205、判断是否达到训练结束条件,若是,则保存当前迭代所述DenseNet模型的参数,获得训练完成的中餐菜品图像识别模型。[0090]具体地,利用固定位置的摄像头采集多张单菜品图像保存到数据库中并为每张图像添加类别标签,若是数据库中没有该类别的图像,则为其添加类别标签新建类别,将数据库按比例分为训练集和测试集。训练时,为使该模型在数据集上有更好的分类表现,对网络参数做出如下调整:epoch设置为150;批处理大小为;优化器选择Adam,可提供自适应学习率,初始学习率为1e-4,大大提高训练速度,增强网络的鲁棒性;因为本发明针对分类问题,所以损失函数采用交叉熵模型,可实现当模型收敛效果差的时候学习速率会加快,当模型效果好的时候学习速率变慢。DenseNet169经过150个epoch后,取最优模型作为最终训练完成的中餐菜品图像识别模型。在训练之后,还可进行测试,测试时,将测试集输入最优模型进行测试,即可得到测试结果。

[0091]本发明实施例提供的中餐菜品图像识别方法,充分利用了DenseNet网络密集连接方式实现特征复用的优点,结对网络超参的调整不仅大大减少训练参数数量和训练网络的冗余性,还让菜品图像特征得到极致的利用,有利于捕捉到菜品图像的语义信息,经过多次迭代训练即可得到一个识别准确率高、性能优异的训练模型。因为DenseNet泛化能力强,所以本发明不仅适用于识别难度高的中餐,原则上只要经过其他类别食物数据集的训练,即可应用于更多种食物的识别。[0092]基于上述实施例的内容,对所述目标中餐菜品图像执行预处理操作,具体为:[0093]对所述目标中餐菜品图像按照预设角度进行随机中心旋转;

[0094]对经过随机中心旋转后的所述目标中餐菜品图像按照预设长宽比进行随机裁剪;[0095]按照预设概率对经过随机裁剪的所述目标中餐菜品图像进行水平翻转;[0096]对经过水平翻转的所述目标中餐菜品图像进行归一化。[0097]具体地,对所述目标中餐菜品图像按照预设角度,例如-10度到10度之间进行随机

9

CN 111523483 A

说 明 书

7/8页

中心旋转;

[0098]对经过随机中心旋转后的所述目标中餐菜品图像按照预设长宽比,例如224×224的长宽比进行随机裁剪;[0099]按照预设概率,例如0.5的概率,对经过随机裁剪的所述目标中餐菜品图像进行水平翻转;

[0100]对经过水平翻转的所述目标中餐菜品图像进行归一化,消除数据特征之间的量纲影响。

[0101]本发明实施例提供的预处理操作步骤,有利于获得精准的训练模型和中餐菜品识别结果。

[0102]图5为本发明实施例提供的中餐菜品图像识别装置的结构示意图,包括:预处理模块510和识别模块520,其中,[0103]预处理模块510,用于获取目标中餐菜品图像,对所述目标中餐菜品图像执行预处理操作;

[0104]识别模块520,用于将经过预处理的所述目标中餐菜品图像输入至中餐菜品图像识别模型中,获得中餐菜品识别结果;[0105]其中,所述中餐菜品图像识别模型是基于经过预处理的中餐菜品图像样本以及对应的中餐菜品类别标签训练获得的,所述中餐菜品图像识别模型基于DenseNet模型构建,所述中餐菜品图像识别模型的网络结构包括:N个用于实现特征复用的密集连接块和N-1个用于压缩参数数量的过渡层;N为大于1的自然数。

[0106]本发明实施例提供的中餐菜品图像识别装置用于实现前述中餐菜品图像识别方法实施例,因此,对于本发明实施例中各功能模块的理解可以参照前述方法实施例,在此不再赘述。

[0107]本发明实施例提供的中餐菜品图像识别装置,能够对多种中餐进行准确检测与识别,识别种类广泛、识别准确率高。

[0108]图6为本发明实施例提供的电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线0,其中,处理器610,通信接口620,存储器630通过通信总线0完成相互间的通信。处理器610可以调用存储在存储器630上并可在处理器610上运行的计算机程序,以执行上述各方法实施例所提供的中餐菜品图像识别方法,例如包括:获取目标中餐菜品图像,对所述目标中餐菜品图像执行预处理操作;将经过预处理的所述目标中餐菜品图像输入至中餐菜品图像识别模型中,获得中餐菜品识别结果;其中,所述中餐菜品图像识别模型是基于经过预处理的中餐菜品图像样本以及对应的中餐菜品类别标签训练获得的,所述中餐菜品图像识别模型基于DenseNet模型构建,所述中餐菜品图像识别模型的网络结构包括:N个用于实现特征复用的密集连接块和N-1个用于压缩参数数量的过渡层;N为大于1的自然数。[0109]此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令

10

CN 111523483 A

说 明 书

8/8页

用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

[0110]本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例提供的中餐菜品图像识别方法,例如包括:获取目标中餐菜品图像,对所述目标中餐菜品图像执行预处理操作;将经过预处理的所述目标中餐菜品图像输入至中餐菜品图像识别模型中,获得中餐菜品识别结果;其中,所述中餐菜品图像识别模型是基于经过预处理的中餐菜品图像样本以及对应的中餐菜品类别标签训练获得的,所述中餐菜品图像识别模型基于DenseNet模型构建,所述中餐菜品图像识别模型的网络结构包括:N个用于实现特征复用的密集连接块和N-1个用于压缩参数数量的过渡层;N为大于1的自然数。

[0111]以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。[0112]通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。[0113]最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

11

CN 111523483 A

说 明 书 附 图

1/3页

图1

图2

图3

12

CN 111523483 A

说 明 书 附 图

2/3页

图4

图5

13

CN 111523483 A

说 明 书 附 图

3/3页

图6

14

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- yrrf.cn 版权所有 赣ICP备2024042794号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务