(12)发明专利申请
(10)申请公布号 CN 109145754 A(43)申请公布日 2019.01.04
(21)申请号 201810816740.0(22)申请日 2018.07.23
(71)申请人 上海电力学院
地址 200090 上海市杨浦区平凉路2103号(72)发明人 邵洁 汪伟鸣
(74)专利代理机构 上海申汇专利代理有限公司
31001
代理人 吴宝根(51)Int.Cl.
G06K 9/00(2006.01)
权利要求书1页 说明书4页
(54)发明名称
融合面部表情及肢体动作三维特征的情绪识别方法(57)摘要
一种融合面部表情及肢体动作三维特征的
所解决情绪识别方法,涉及人工智能技术领域,
的是提高人的情绪识别准确性的技术问题。该方法利用融合了面部表情及肢体动作的特征向量输入到SVM模型进行训练,得到SVM情绪识别模型;对目标视频进行情绪识别时,从目标视频中提取融合了面部表情及肢体动作的特征向量后输入到训练得到的SVM情绪识别模型中,利用SVM分类器对提取的特征向量实施情绪识别。本发明提供的方法,情绪识别特征融合了面部表情及肢体动作,其识别准确性较高。CN 109145754 ACN 109145754 A
权 利 要 求 书
1/1页
1.一种融合面部表情及肢体动作三维特征的情绪识别方法,其特征在于:利用摄像头拍摄包含有人体面部表情及肢体动作的样本视频,再从样本视频中提取融合了面部表情及肢体动作的特征向量,将提取的特征向量输入到SVM模型进行训练,得到SVM情绪识别模型;
对目标视频进行情绪识别时,从目标视频中提取融合了面部表情及肢体动作的特征向量后输入到训练得到的SVM情绪识别模型中,利用SVM分类器对提取的特征向量实施情绪识别;
从视频中提取融合了面部表情及肢体动作的特征向量的步骤如下:1)采用基于Gabor滤波的特征检测方法,从视频中提取脸部三维纹理特征;2)设定一个兴趣点初选阈值条件及一个兴趣点下限值,再采用非极大值抑制算法搜索视频中的脸部三维纹理特征满足兴趣点初选阈值条件的局部极大值点,并从搜索出的局部极大值点中,将所有的脸部三维纹理特征大于兴趣点下限值的局部极大值点选为最终的时空兴趣点,选取各个时空兴趣点的脸部三维纹理特征构建一个面部表情时空特征矩阵;
3)采用三维正交平面局部二进制模式算子从视频中提取人体肢体动作三维纹理特征构建一个肢体动作时空特征矩阵;
4)对面部表情时空特征矩阵及肢体动作时空特征矩阵中的脸部三维纹理特征、人体肢体动作三维纹理特征,采用PCA算法进行降维,从而得到面部表情时空特征矩阵的主成分特征矩阵,及肢体动作时空特征矩阵的主成分特征矩阵;
5)采用基于典型相关分析的融合算法,对面部表情时空特征矩阵的主成分特征矩阵及肢体动作时空特征矩阵的主成分特征矩阵实施融合,得到融合后的特征向量。
2
CN 109145754 A
说 明 书
融合面部表情及肢体动作三维特征的情绪识别方法
1/4页
技术领域
[0001]本发明涉及人工智能的技术,特别是涉及一种融合面部表情及肢体动作三维特征的情绪识别方法的技术。
背景技术
[0002]随着计算机视觉和多媒体技术的进步,智能情绪识别分析已是目前计算机视觉中最活跃的研究领域之一。其目的是对人类的图像序列进行检测、跟踪和识别,更科学地解释人类行为。情绪识别可以应用于生活的各个方面:游戏厂商可以智能分析玩家的情绪,根据不同表情针对性地和玩家交互,提高游戏的体验;相机厂商可以利用该项技术捕捉人类表情,比如当需要一张微笑或者生气的照片时,可以捕获被拍人员的面部表情并快速完成拍照工作;政府或社会学家可以在公共场合安装摄像头,分析整个社会群体的表情和肢体动作以了解人们的生活工作压力;商厦可以根据顾客对商品的购物时的动作及表情视频,对产品做相关的市场调查。[0003]在实际应用中,单纯基于人脸表情的情绪识别研究已遇到瓶颈,一方面,基于实验室视角的正面人脸表情识别已达到极高识别率,但相关算法在应用于自然态人脸表情识别时却识别率较低;另一方面,肢体动作同样是人们获取社交和情绪的重要线索之一,在很多应用场合中,能够为基于面部表情的情绪识别提供有效的帮助。因此,开展融合面部表情和肢体动作的情绪识别研究对今后人类情感智能识别相关应用的发展具有重要价值。发明内容
[0004]针对上述现有技术中存在的缺陷,本发明所要解决的技术问题是提供一种识别准确性高的融合面部表情及肢体动作三维特征的情绪识别方法。[0005]为了解决上述技术问题,本发明所提供的一种融合面部表情及肢体动作三维特征的情绪识别方法,其特征在于:[0006]利用摄像头拍摄包含有人体面部表情及肢体动作的样本视频,再从样本视频中提取融合了面部表情及肢体动作的特征向量,将提取的特征向量输入到SVM模型进行训练,得到SVM情绪识别模型;
[0007]对目标视频进行情绪识别时,从目标视频中提取融合了面部表情及肢体动作的特征向量后输入到训练得到的SVM情绪识别模型中,利用SVM分类器对提取的特征向量实施情绪识别;
[0008]从视频中提取融合了面部表情及肢体动作的特征向量的步骤如下:[0009]1)采用基于Gabor滤波的特征检测方法,从视频中提取脸部三维纹理特征;[0010]2)设定一个兴趣点初选阈值条件及一个兴趣点下限值,再采用非极大值抑制算法搜索视频中的脸部三维纹理特征满足兴趣点初选阈值条件的局部极大值点,并从搜索出的局部极大值点中,将所有的脸部三维纹理特征大于兴趣点下限值的局部极大值点选为最终的时空兴趣点,选取各个时空兴趣点的脸部三维纹理特征构建一个面部表情时空特征矩
3
CN 109145754 A
说 明 书
2/4页
阵;
3)采用三维正交平面局部二进制模式算子从视频中提取人体肢体动作三维纹理
特征构建一个肢体动作时空特征矩阵;
[0012]4)对面部表情时空特征矩阵及肢体动作时空特征矩阵中的脸部三维纹理特征、人体肢体动作三维纹理特征,采用PCA算法进行降维,从而得到面部表情时空特征矩阵的主成分特征矩阵,及肢体动作时空特征矩阵的主成分特征矩阵;[0013]5)采用基于典型相关分析的融合算法,对面部表情时空特征矩阵的主成分特征矩阵及肢体动作时空特征矩阵的主成分特征矩阵实施融合,得到融合后的特征向量。[0014]本发明提供的融合面部表情及肢体动作三维特征的情绪识别方法,从视频中提取人体面部表情及肢体动作的时空特征,并用其表征情绪,并采用基于典型相关分析的融合算法融合两种特征,再用支持向量机分类进行情绪识别,从而得到情绪识别结果,由于情绪识别结果融合了面部表情及肢体动作,其识别准确性较高。具体实施方式
[0015]以下结合具体实施例对本发明的技术方案作进一步详细描述,但本实施例并不用于限制本发明,凡是采用本发明的相似结构及其相似变化,均应列入本发明的保护范围,本发明中的顿号均表示和的关系,本发明中的英文字母区分大小写。
[0016]本发明实施例所提供的一种融合面部表情及肢体动作三维特征的情绪识别方法,其特征在于:[0017]利用摄像头拍摄包含有人体面部表情及肢体动作的样本视频,再从样本视频中提取融合了面部表情及肢体动作的特征向量,将提取的特征向量输入到SVM模型进行训练,得到SVM情绪识别模型;
[0018]对目标视频进行情绪识别时,从目标视频中提取融合了面部表情及肢体动作的特征向量后输入到训练得到的SVM情绪识别模型中,利用SVM分类器对提取的特征向量实施情绪识别;
[0019]从视频中提取融合了面部表情及肢体动作的特征向量的步骤如下:[0020]1)采用基于Gabor滤波的特征检测方法,从视频中提取脸部三维纹理特征;
[0021]采用基于Gabor滤波的特征检测方法从图像中提取脸部三维纹理特征的方法是现有技术;该方法在视频的(x,t)时间轴及(y,t)时间轴上使用一维的Gabor滤波器(加博滤波器)对每一帧图像进行滤波,还可以根据实际需求在视频的(x,y)空间轴上使用Gaussian滤波器(高斯滤波器)对每一帧图像进行滤波,Gabor滤波响应函数R如式1;[0022]式1:R=(I(x,y,t)*g(x,y,σ)*hev)2+(I(x,y,t)*g(x,y,σ)*hod)2[0023]式1中,I(x,y,t)为视频数据,g(x,y,σ)是作用在空间维度(x,y)上的二维高斯平滑核函数,hev和hod是作用于时间域的一对正交的一维Gabor滤波器,hev和hod分别定义为式2、式3;
[0024][0025][0026][0011]
式2:式3:
式2和式3中:ω=4/τ
4
CN 109145754 A[0027]
说 明 书
3/4页
2)视频可以看成单帧图像在时间轴上的自然推广,视频在空间和时间两个维度上
都有巨大变化的地方,往往伴随时空事件的发生,据此原理可以从视频中抽取代表时空事件的时空兴趣点,并用其表征情绪;[0028]一般情况下,视频中的局部响应最大的地方为时空兴趣点,因此,为了提取时空兴趣点,先设定一个兴趣点初选阈值条件及一个兴趣点下限值,再采用非极大值抑制算法(简称为NMS算法,该方法为现有技术)搜索视频中的脸部三维纹理特征满足兴趣点初选阈值条件的局部极大值点,并从搜索出的局部极大值点中,将所有的脸部三维纹理特征大于兴趣点下限值的局部极大值点选为最终的时空兴趣点,选取各个时空兴趣点的脸部三维纹理特征构建一个面部表情时空特征矩阵;
[0029]3)采用三维正交平面局部二进制模式算子从视频中提取人体肢体动作三维纹理特征构建一个肢体动作时空特征矩阵;
[0030]采用三维正交平面局部二进制模式算子从视频中提取人体肢体动作三维纹理特征的方法为现有技术;
[0031]4)对面部表情时空特征矩阵及肢体动作时空特征矩阵中的脸部三维纹理特征、人体肢体动作三维纹理特征,采用PCA算法进行降维,从而得到面部表情时空特征矩阵的主成分特征矩阵,及肢体动作时空特征矩阵的主成分特征矩阵;[0032]采用PCA算法进行降维的方法为现有技术;[0033]5)采用基于典型相关分析(CCA)的融合算法,对面部表情时空特征矩阵的主成分特征矩阵及肢体动作时空特征矩阵的主成分特征矩阵实施融合,得到融合后的特征向量;[0034]基于典型相关分析的融合算法对两个矩阵进行整合的方法为现有技术,典型相关分析的目的是识别并量化两组特征变量之间的联系,即找到两组特征变量的线性组合,并用其表示原变量,用它们之间的相关性来反映原变量的相关性,具体整合方法如下:[0035]设面部表情时空特征矩阵的主成分特征矩阵为X,肢体动作时空特征矩阵的主成分特征矩阵为Y,X和Y分别是p维和q维的矩阵,X和Y分别表示为式4;
[0036][0037]
式4:
为了寻找X和Y相关程度最大的某种线性组合,定义Zx为X的线性组合系数,Zy为Y的线性组合系数,ρ(Zx,Zy)为相关性函数,其公式为式5;
式5:
[0038][0039]
式5中,SXX为X的方差矩阵,SYY为Y的方差矩阵,SXY为X和Y的协方差矩阵,可以通过拉格朗日乘子法将ρ(Zx,Zy)简化为式6;
[0040]
式6:
定义一个矩阵R,通过对矩阵R采用奇异值分解的方法求解式6,矩阵R的定义为式
[0041]
7;
5
CN 109145754 A[0042][0043]
说 明 书
4/4页
式7:
式7中,r表示矩阵R的秩,λ…,r)表示矩阵RTR或RRT的特征值,且D=diagi(i=1,
(λ…,k),它的解是求p×q维相关矩阵而得到的秩为1的近似解,用它前d个奇异值i)(i=1,
由此式6可转化为式8的形式;
去逼近R,即
[0044][0045][0046][0047]
式8:
因此,基于典型相关分析(CCA)的融合算法的最终投影矢量可以通过式9得到;式9:
通过上述算法可得到d对数量的特征投影,分别记为ZX=(α…,αβ…,1,d)和ZY=(1,β则对于X和Y投影后的特征矢量如式10;d),
[0048][0049][0050][0051]
式10:
将X′和Y′串行融合得到如式11所示的新的特征向量Fusion,;式11:
本发明实施例中,采用SVM模型训练特征向量及利用SVM分类器实施情绪识别的方法为现有技术;基于贝叶斯学习理论的SVM是一种极为有效的识别方法,SVM的原理是首先将特征向量映射到高维特征空间,然后最大间隔地找到一个线性分离超平面分离这个高维空间的数据,给一组训练标记的情绪视频{(xi,yi),i=1,...,l},其中xi∈Rn,yi∈{1,-1},测试样本xi通过式12的函数分类:
[0052][0053]
式12:
式12中,α它描述了分离的超平面,K(xi,xj)是i是二重优化问题的拉格朗日乘子,
非线性映射的核函数,b是超平面阈值参数;[0054]当α训练样本xi就是支持向量,支持向量机找到一个与支持向量距离最大i>0时,的超平面,给定一个非线性映射Φ,核函数的形式为K(xi,xj)=<Φ(xi)·Φ(xj)>,其作用就是将输入的数据转换成到高维空间。
6
因篇幅问题不能全部显示,请点此查看更多更全内容