您好,欢迎来到意榕旅游网。
搜索
您的当前位置:首页一种面向机器人的多模态融合情感计算方法及系统[发明专利]

一种面向机器人的多模态融合情感计算方法及系统[发明专利]

来源:意榕旅游网
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 108960191 A(43)申请公布日 2018.12.07

(21)申请号 201810813473.1(22)申请日 2018.07.23

(71)申请人 厦门大学

地址 361000 福建省厦门市思明区思明南

路422号(72)发明人 佘莹莹 陈锦 舒杨 

(74)专利代理机构 泉州市文华专利代理有限公

司 35205

代理人 陈雪莹(51)Int.Cl.

G06K 9/00(2006.01)G06K 9/62(2006.01)

权利要求书2页 说明书6页 附图1页

CN 108960191 A(54)发明名称

一种面向机器人的多模态融合情感计算方法及系统(57)摘要

本发明提供一种面向机器人的多模态融合

获取得到多模态信息,通过情感计算方法,包括:

实时捕捉与机器人交互的人的语言信息以及非语言信息;构建不同信息的处理通道进行特征分类与识别,包括语言信息和非语言信息的特征分类与识别;对多模态信息进行处理,通过PAD模型与OCC模型将信息映射到PAD三维空间上;对各个模态信息在决策层融合时进行时序对齐,进行基于时序的情感维度空间的计算。本发明还提供一种面向机器人的多模态融合情感计算系统,通过获取用户的多模态信息,包括非语言与语言信息,使用PAD模型、OCC模型,以及线性回归模型分别对语言信息和非语言信息进行融合之后,再使用线性回归模型进行最终融合,实现机器人更佳精确的情感计算。

CN 108960191 A

权 利 要 求 书

1/2页

1.一种面向机器人的多模态融合情感计算方法,其特征在于:包括如下步骤:步骤1、获取得到多模态信息,通过实时捕捉与机器人交互的人的语言信息以及非语言信息,包括面部表情、头眼关注、手势和文本;

步骤2、构建不同信息的处理通道进行特征分类与识别,包括语言信息和非语言信息的特征分类与识别;

步骤3、对多模态信息进行处理,通过PAD模型与OCC模型将信息映射到PAD三维空间上;步骤4、对各个模态信息在决策层融合时进行时序对齐,进行基于时序的情感维度空间的计算。

2.根据权利要求1所述的一种面向机器人的多模态融合情感计算方法,其特征在于:所述步骤2进一步包括:

针对非语言信息,完成对面部表情、头眼部关注以及兴趣物的识别、身体姿势以及手势的识别;

针对语言信息,完成自然语言处理,并输出对应的句子成分与语音特征。3.根据权利要求1所述的一种面向机器人的多模态融合情感计算方法,其特征在于:所述步骤4进一步包括:

步骤41、对非语言信息,使用线性回归模型来对获取的9个PAD参数值进行不同时间不同模态的融合预测,使用线性回归器进行融合:

Pn=μ1·P1+μ2·P2+μ3·P3                    公式1An=θ1·A1+θ2·A2+θ3·A3                    公式2Dn=σ1·D1+σ2·D2+σ3·D3                    公式3其中P1,P2,P3;A1,A2,A3;D1,D2,D3分别为面部、手势、眼部关注度三个模块的PAD参数值,Pn,An,Dn为融合后非语言部分的PAD参数值;μ1,μ1,μ1分别为愉悦度线性方程中的常量,θ1,θ2,θ3分别为激活度线性方程中的常量,σ1,σ2,σ3分别为控制度线性方程中的常量;

步骤42、使用一次线性回归模型,将非语言信息和语言信息进行最终的融合,公式如下:

P融合=μ4·P非语音+μ5·P语音              公式4A融合=θ4·A非语音+θ5·A语音             公式5D融合=σ4·D非语音+σ5·D语音              公式6。其中,P融合、A融合和D融合分别为最终融合后的PAD参数值,μ4,μ5分别为愉悦度线性方程中的常量,θ4,θ5分别为激活度线性方程中的常量,σ4,σ5分别为控制度线性方程中的常量。根据融合得到的语言与非语言部分的PAD值,进行最终的融合,得到最终的PAD参数值。

4.一种面向机器人的多模态融合情感计算系统,其特征在于:包括:信息获取模块,用于获取得到多模态信息,通过实时捕捉与机器人交互的人的语言信息以及非语言信息,包括面部表情、头眼关注、手势和文本;

特征分类与识别模块,用于构建不同信息的处理通道进行特征分类与识别,包括语言信息和非语言信息的特征分类与识别;

模型构建模块,用于对多模态信息进行处理,通过PAD模型与OCC模型将信息映射到PAD三维空间上;以及

融合模块,用于对各个模态信息在决策层融合时进行时序对齐,进行基于时序的情感

2

CN 108960191 A

权 利 要 求 书

2/2页

维度空间的计算。

5.根据权利要求4所述的一种面向机器人的多模态融合情感计算系统,其特征在于:所述特征分类与识别模块进一步包括:

针对非语言信息,完成对面部表情、头眼部关注以及兴趣物的识别、身体姿势以及手势的识别;

针对语言信息,完成自然语言处理,并输出对应的句子成分与语音特征。6.根据权利要求4所述的一种面向机器人的多模态融合情感计算系统,其特征在于:所述融合模块进一步包括融合预测模块和决策层融合模块:

所述融合预测模块,用于对非语言信息,使用线性回归模型来对获取的9个PAD参数值进行不同时间不同模态的融合预测,使用线性回归器进行融合:

Pn=μ1·P1+μ2·P2+μ3·P3                      公式1An=θ1·A1+θ2·A2+θ3·A3                      公式2Dn=σ1·D1+σ2·D2+σ3·D3                      公式3其中P1,P2,P3;A1,A2,A3;D1、D2,D3分别为面部、手势、眼部关注度三个模块的PAD参数值,Pn,An,Dn为融合后非语言部分的PAD参数值;μ1,μ2,μ3分别为愉悦度线性方程中的常量,θ1,θ2,θ3分别为激活度线性方程中的常量,σσ1,σ2,σ3分别为控制度线性方程中的常量;

所述决策层融合模块,用于使用一次线性回归模型,将非语言信息和语言信息进行最终的融合,公式如下:

P融合=μ4·P非语音+μ5·P语音                公式4A融合=θ4·A非语音+θ5·A语音              公式5D融合=σ4·D非语音+σ5·D语音               公式6。其中,P融合、A融合和D融合分别为最终融合后的PAD参数值,μ4,μ5分别为愉悦度线性方程中的常量,θ4,θ5分别为激活度线性方程中的常量,σ4,σ5分别为控制度线性方程中的常量。根据融合得到的语言与非语言部分的PAD值,进行最终的融合,得到最终的PAD参数值。

3

CN 108960191 A

说 明 书

一种面向机器人的多模态融合情感计算方法及系统

1/6页

技术领域

[0001]本发明涉及信息技术领域,尤其涉及一种面向机器人的多模态融合情感计算方法及系统。

背景技术

[0002]从目前来看,多模态融合的相关研究较少,目前的方法并没有做到对多模态信息进行融合,大部分都是语言部分信息。大部分研究存在有如下缺陷:1、局限于某个模态的信息采集与获取;2、仅对语言部分进行识别,无法很好的识别用户情绪;3、非语言信息部分仅对于交互对象的面部表情进行情感计算,而没有将其生理信息、面部表情、肢体语言及视觉信息等多种信号准确融合;4、没有进行语言与非语言多模态信息的融合方法,与对应的情感计算方法;5、机器人基本都没有采用多模态情感计算。发明内容

[0003]本发明要解决的技术问题之一,在于提供一种面向机器人的多模态融合情感计算方法,通过获取用户的多模态信息,包括非语言与语言信息,使用PAD模型、OCC模型,将多模态信息映射到PAD空间上,利用线性回归模型分别对语言信息和非语言信息进行融合之后,再次使用模型进行最终融合,即最终的决策层融合。[0004]本发明要解决的技术问题之一是这样实现的:一种面向机器人的多模态融合情感计算方法,包括如下步骤:[0005]步骤1、获取得到多模态信息,通过实时捕捉与机器人交互的人的语言信息以及非语言信息,包括面部表情、头眼关注、手势和文本;[0006]步骤2、构建不同信息的处理通道进行特征分类与识别,包括语言信息和非语言信息的特征分类与识别;[0007]步骤3、对多模态信息进行处理,通过PAD模型与OCC模型将信息映射到PAD三维空间上;

[0008]步骤4、对各个模态信息在决策层融合时进行时序对齐,进行基于时序的情感维度空间的计算。

[0009]进一步的,所述步骤2进一步包括:[0010]针对非语言信息,完成对面部表情、头眼部关注以及兴趣物的识别、身体姿势以及手势的识别;

[0011]针对语言信息,完成自然语言处理,并输出对应的句子成分与语音特征。[0012]进一步的,所述步骤4进一步包括:[0013]步骤41、对非语言信息,使用线性回归模型来对获取的9个PAD参数值进行不同时间不同模态的融合预测,使用线性回归器进行融合:[0014]Pn=μ1·P1+μ2·P2+μ3·P3   公式1[0015]An=θ1·A1+θ2·A2+θ3·A3   公式2

4

CN 108960191 A[0016]

说 明 书

2/6页

Dn=σ1·D1+σ2·D2+σ3·D3   公式3

[0017]其中P1,P2,P3;A1,A2,A3;D1,D2,D3分别为面部、手势、眼部关注度三个模块的PAD参数值,Pn,An,Dn为融合后非语言部分的PAD参数值;μ1,μ1,μ1分别为愉悦度线性方程中的常量,θ1,θ2,θ3分别为激活度线性方程中的常量,σ1,σ2,σ3分别为控制度线性方程中的常量;

[0018]步骤42、使用一次线性回归模型,将非语言信息和语言信息进行最终的融合,公式如下:

[0019]P融合=μ4·P非语音+μ5·P语音   公式4[0020]A融合=θ4·A非语音+θ5·A语音   公式5[0021]D融合=σ4·D非语音+σ5·D语音   公式6。[0022]其中,P融合、A融合和D融合分别为最终融合后的PAD参数值,μ4,μ5分别为愉悦度线性方程中的常量,θ4,θ5分别为激活度线性方程中的常量,σ4,σ5分别为控制度线性方程中的常量。根据融合得到的语言与非语言部分的PAD值,进行最终的融合,得到最终的PAD参数值。[0023]本发明要解决的技术问题之二,在于提供一种面向机器人的多模态融合情感计算系统,通过获取用户的多模态信息,包括非语言与语言信息,使用PAD模型、OCC模型,将多模态信息映射到PAD空间上,利用线性回归模型分别对语言信息和非语言信息进行融合之后,再次使用模型进行最终融合,即最终的决策层融合。[0024]本发明要解决的技术问题之二是这样实现的:一种面向机器人的多模态融合情感计算系统,包括:[0025]信息获取模块,用于获取得到多模态信息,通过实时捕捉与机器人交互的人的语言信息以及非语言信息,包括面部表情、头眼关注、手势和文本;[0026]特征分类与识别模块,用于构建不同信息的处理通道进行特征分类与识别,包括语言信息和非语言信息的特征分类与识别;[0027]模型构建模块,用于对多模态信息进行处理,通过PAD模型与OCC模型将信息映射到PAD三维空间上;以及[0028]融合模块,用于对各个模态信息在决策层融合时进行时序对齐,进行基于时序的情感维度空间的计算。[0029]进一步的,所述特征分类与识别模块进一步包括:[0030]针对非语言信息,完成对面部表情、头眼部关注以及兴趣物的识别、身体姿势以及手势的识别;

[0031]针对语言信息,完成自然语言处理,并输出对应的句子成分与语音特征。[0032]进一步的,所述融合模块进一步包括融合预测模块和决策层融合模块:[0033]所述融合预测模块,用于对非语言信息,使用线性回归模型来对获取的9个PAD参数值进行不同时间不同模态的融合预测,使用线性回归器进行融合:[0034]Pn=μ1·P1+μ2·P2+μ3·P3   公式1[0035]An=θ1·A1+θ2·A2+θ3·A3   公式2[0036]Dn=σ1·D1+σ2·D2+σ3·D3   公式3[0037]其中P1,P2,P3;A1,A2,A3;D1,D2,D3分别为面部、手势、眼部关注度三个模块的PAD参数值,Pn,An,Dn为融合后非语言部分的PAD参数值;μ1,μ2,μ3分别为愉悦度线性方程中的

5

CN 108960191 A

说 明 书

3/6页

常量,θ1,θ2,θ3分别为激活度线性方程中的常量,σσ1,σ2,σ3分别为控制度线性方程中的常量;

[0038]所述决策层融合模块,用于使用一次线性回归模型,将非语言信息和语言信息进行最终的融合,公式如下:[0039]P融合=μ4·P非语音+μ5·P语音   公式4[0040]A融合=θ4·A非语音+θ5·A语音   公式5[0041]D融合=σ4·D非语音+σ5·D语音   公式6。[0042]其中,P融合、A融合和D融合分别为最终融合后的PAD参数值,μ4,μ5分别为愉悦度线性方程中的常量,θ4,θ5分别为激活度线性方程中的常量,σ4,σ5分别为控制度线性方程中的常量。根据融合得到的语言与非语言部分的PAD值,进行最终的融合,得到最终的PAD参数值。[0043]本发明具有如下优点:[0044]1、采用多模态信息融合框架,提供更为更为准确的情感计算方式;[0045]2.使用PAD、OCC模型的情感计算框架计算PAD空间上的情感值使得机器人能更好的识别用户情感,更好地理解了说话者的意图,使得机器人更加人性化。附图说明

[0046]下面参照附图结合实施例对本发明作进一步的说明。

[0047]图1为本发明一种面向机器人的多模态融合情感计算方法执行流程图。[0048]图2为本发明一种面向机器人的多模态融合情感计算框架的原理示意图。具体实施方式

[0049]请参阅图1和图2,本发明一种面向机器人的多模态融合情感计算方法,包括如下步骤:

[0050]步骤1、获取得到多模态信息,通过实时捕捉与机器人交互的人的语言信息以及非语言信息,包括面部表情、头眼关注、手势和文本;[0051]步骤2、构建不同信息的处理通道进行特征分类与识别,包括语言信息和非语言信息的特征分类与识别;[0052]步骤3、对多模态信息进行处理,通过PAD模型(P-pleasure、A-arousal、D-dominance)与OCC模型将信息映射到PAD三维空间上;[0053]步骤4、对各个模态信息在决策层融合时进行时序对齐,进行基于时序的情感维度空间的计算。[0054]较佳的,所述步骤2进一步包括:[0055]针对非语言信息,完成对面部表情、头眼部关注以及兴趣物的识别、身体姿势以及手势的识别;

[0056]针对语言信息,完成自然语言处理,并输出对应的句子成分与语音特征。[0057]较佳的,所述步骤4进一步包括:[0058]步骤41、对非语言信息,使用线性回归模型来对获取的9个PAD参数值进行不同时间不同模态的融合预测,使用线性回归器进行融合:[0059]Pn=μ1·P1+μ2·P2+μ3·P3   公式1

6

CN 108960191 A[0060]

说 明 书

4/6页

An=θ1·A1+θ2·A2+θ3·A3   公式2

[0061]Dn=σ1·D1+σ2·D2+σ3·D3   公式3[0062]其中P1,P2,P3;A1,A2,A3;D1,D2,D3分别为面部、手势、眼部关注度三个模块的PAD参数值,Pn,An,Dn为融合后非语言部分的PAD参数值;μ1,μ1,μ1分别为愉悦度线性方程中的常量,θ1,θ2,θ3分别为激活度线性方程中的常量,σ1,σ2,σ3分别为控制度线性方程中的常量;

[0063]步骤42、使用一次线性回归模型,将非语言信息和语言信息进行最终的融合,公式如下:

[0064]P融合=μ4·P非语音+μ5·P语音   公式4[0065]A融合=θ4·A非语音+θ5·A语音   公式5[0066]D融合=σ4·D非语音+σ5·D语音   公式6。[0067]其中,P融合、A融合和D融合分别为最终融合后的PAD参数值,μ4,μ5分别为愉悦度线性方程中的常量,θ4,θ5分别为激活度线性方程中的常量,σ4,σ5分别为控制度线性方程中的常量。根据融合得到的语言与非语言部分的PAD值,进行最终的融合,得到最终的PAD参数值。[0068]请参阅图2,本发明的一种面向机器人的多模态融合情感计算系统,包括:[0069]信息获取模块,用于获取得到多模态信息,通过实时捕捉与机器人交互的人的语言信息以及非语言信息,包括面部表情、头眼关注、手势和文本;[0070]特征分类与识别模块,用于构建不同信息的处理通道进行特征分类与识别,包括语言信息和非语言信息的特征分类与识别;[0071]模型构建模块,用于对多模态信息进行处理,通过PAD模型与OCC模型将信息映射到PAD三维空间上;以及[0072]融合模块,用于对各个模态信息在决策层融合时进行时序对齐,进行基于时序的情感维度空间的计算。[0073]较佳的,所述特征分类与识别模块进一步包括:[0074]针对非语言信息,完成对面部表情、头眼部关注以及兴趣物的识别、身体姿势以及手势的识别;

[0075]针对语言信息,完成自然语言处理,并输出对应的句子成分与语音特征。[0076]较佳的,所述融合模块进一步包括融合预测模块和决策层融合模块:[0077]所述融合预测模块,用于对非语言信息,使用线性回归模型来对获取的9个PAD参数值进行不同时间不同模态的融合预测,使用线性回归器进行融合:[0078]Pn=μ1·P1+μ2·P2+μ3·P3   公式1[0079]An=θ1·A1+θ2·A2+θ3·A3   公式2[0080]Dn=σ1·D1+σ2·D2+σ3·D3   公式3[0081]其中P1,P2,P3;A1,A2,A3;D1,D2,D3分别为面部、手势、眼部关注度三个模块的PAD参数值,Pn,An,Dn为融合后非语言部分的PAD参数值;μ1,μ2,μ3分别为愉悦度线性方程中的常量,θ1,θ2,θ3分别为激活度线性方程中的常量,σσ1,σ2,σ3分别为控制度线性方程中的常量;

[0082]所述决策层融合模块,用于使用一次线性回归模型,将非语言信息和语言信息进行最终的融合,公式如下:

7

CN 108960191 A[0083]

说 明 书

5/6页

P融合=μ4·P非语音+μ5·P语音   公式4

[0084]A融合=θ4·A非语音+θ5·A语音   公式5[0085]D融合=σ4·D非语音+σ5·D语音   公式6[0086]其中,P融合、A融合和D融合分别为最终融合后的PAD参数值,μ4,μ5分别为愉悦度线性方程中的常量,θ4,θ5分别为激活度线性方程中的常量,σ4,σ5分别为控制度线性方程中的常量。根据融合得到的语言与非语言部分的PAD值,进行最终的融合,得到最终的PAD参数值。[0087]下面结合一具体实施例对本发明做进一步说明:[0088]本发明通过获取用户的多模态信息,包括非语言信息与语言信息,使用PAD模型、OCC模型,将多模态信息映射到PAD空间上,利用线性回归模型分别对语言信息和非语言信息进行融合之后,再次使用模型进行最终融合,即最终的决策层融合。[0089]本发明的主要技术路线为:[0090]1、通过交互设备实时捕捉与机器人交互的人的语言类信息以及非语言类信息包括面部表情、头眼关注、手势、文本、语音语速等;[0091]2、构建不同信息的处理通道,对每个模态的信息进行特征分类与识别;例如,针对非语言信息,完成对面部表情、头部运动、眼部关注以及兴趣物的识别、身体姿势以及手势的识别。对语言信息,完成自然语言处理,并输出对应的句子成分与语音特征。[0092]3、对多模态信息进行处理,通过PAD模型(Pleasure-Arousal-Dominance模型)与OCC模型(Ortony、Clore、和Collins模型)将信息映射到PAD空间上。PAD三个维度,可以解释情感量表中的大部分情感,并且三个维度不限于描述情感的主观体验,它与情感的外部表现、生理唤醒都具有较好的映射关系;例如对面部表情的计算:将用户表情与美国心理学家Ekman和Friesen通过充分的测试实验所得的基本表情类别相对应,基本表情类别在PAD三维情感空间中与PAD值对应;在PAD三维情感空间(P-pleasure、A-arousal、D-dominance)中愉悦度代表个体情感状态的正负特性,激活度代表个体的神经生理激活水平,优势度代表个体对情景和他人的控制状态。如果PAD值距离中心点越远,离散点的强度越高,乐趣和唤醒维度也越高,进而能得出用户当前面部表情对应的PAD参数值。[0093]4、对各模态的信息在决策层融合时进行时序对齐,进行基于时序的情感维度空间的计算,具体如下:

[0094]对非语言部分信息,我们将获取的9个PAD参数值使用线性回归模型来进行不同时间不同模态的融合预测,使用线性回归器进行融合:[0095]Pn=μ1·P1+μ2·P2+μ3·P3   公式1[0096]An=θ1·A1+θ2·A2+θ3·A3   公式2[0097]Dn=σ1·D1+σ2·D2+σ3·D3   公式3[0098]其中P1,P2,P3;A1,A2,A3;D1,D2,D3分别为面部、手势、眼部关注度三个模块的PAD参数值,Pn,An,Dn为融合后非语言部分的PAD参数值。μ1,μ2,μ3分别为愉悦度线性方程中的常量,θ1,θ2,θ3分别为激活度线性方程中的常量,σ1,σ2,σ3分别为控制度线性方程中的常量。最后再使用一次线性回归模型,将非语言信息和语言信息进行最终的融合,公式如下:[0099]P融合=μ4·P非语音+μ5·P语音   公式4[0100]A融合=θ4·A非语音+θ5·A语音   公式5[0101]D融合=σ4·D非语音+σ5·D语音   公式6

8

CN 108960191 A[0102]

说 明 书

6/6页

其中,P融合、A融合和D融合分别为最终融合后的PAD参数值,μ4,μ5分别为愉悦度线性方

程中的常量,θ4,θ5分别为激活度线性方程中的常量,σ4,σ5分别为控制度线性方程中的常量。根据融合得到的语言与非语言部分的PAD值,进行最终的融合,得到最终的PAD参数值。[0103]为了在人机交互过程中,机器人能够获取用户表情,手势,眼睛关注度,语言等信息,能够理解多模态交互信息,使机器人能够进行情感计算,适应交互需求,本发明提供的上述基于PAD、OCC模型的情感计算框架,并采用线性回归对多模态信息进行融合计算,提供更为准确的情感计算方式;使得机器人更好的识别用户情感,更好地理解了说话者的意图,使得机器人更加人性化。

[0104]虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

9

CN 108960191 A

说 明 书 附 图

1/1页

图1

图2

10

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- yrrf.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务