教学工作的资源分享

基于改进光流和HMM的人脸表情识别研究

教务一体化系统

教务一体化系统

天津大学

硕士学位论文

基于改进光流和HMM的人脸表情识别研究姓名:王宇纬学位级别:硕士学位

专业领域:计算机应用技术指导老师:赵政20090501中文摘要

计算机人脸表情识别利用计算机对人脸表情信息进行特征提取分析,然后按键根据人的认识和想法进行分类和理解,结合人脸所拥有的情感信息相关知识让计算机联想、思考、推理,再从脸部信息分析理解人的感情。 近年来来吧,随着人们对人机交互兴趣的增加,表情识别逐渐成为研究的热点。本文分析和总结了国内外心理学和计算机领域关于人脸表情识别的研究在此基础上,提出了一种改进的基于光流和隐马尔可夫模型的人脸表情识别算法,进一步在一定程度上,它更真实地反映了脸部表情的变化特征和情绪心理。 主要成果如下:针对目前广泛使用的光流法计算费时的严重问题,提出了基于差分图像的绝对值值和(SAD )与光流法相结合的方法,通过计算SAD来检测运动区域,确认在规定的运动区域内进行光流计算,准确计算脸部表情的运动信息。利用数据挖掘中的属性相关分析,对确定人脸特征的多个子区域进行相关通过分析,得到了子区域划分度的强弱顺序,便于在表情识别过程中选择性使用。由于表情运动是非刚体运动,容易产生变形,因此用传统光流法进行计算不准确。 为此,本文引入div-curl样条函数作为扩展光流约束方程的附件波束条件导出非刚体光流算法,最后将该算法用于人脸表情特征提取。目前许多图像序列的表情识别方法只提取图像的某些类型的特征,导致特征参数不能全面反映人脸的情感信息,本文采用基于混合特征的图像序列表情识别方法。提取每个子区域的变化特征,对每个表情的贡献权重进行加权融合。在序列表情图像识别中,提出了基于双隐马尔可夫模型的人脸表情识别方法。 将脸部表情序列分为3种状态,采用压缩后的光流量作为观察方向量分别与HMM模型的状态和观察值对应。 在表情中引入最大的相互信息基准函数的动态分析中,给出了相应的识别算法。关键词:表情识别; 光流:属性相关性分析; 非刚体运动; HMM模型Abstract

computerfacialexpressionrecognitionisanentrytoanalyzeandcomprehendpeopletS emotion,itextractsfacialexpressioninformation,analysesitbypeople’s知识和技巧,thenmakethecomputergetfacialexpressionclassifiedresultsbylearningandinferring.inrecentyears,interest in facial expressionrecognition is renewed,duemostlytotheincreasinginterestinhuman—计算机智能交互。

thispaperhasanalyzedandsummarizedsomerelatedresearchworkonfacialexpressioninpsychologyfieldandcomputerfield.here,this paper proposed allimprovedmethodofdynamicfacialexpressionrecognitionbasedonopticalandHidden Markov Model,bywhichprevioussystem’sdeficienciescanbeovercame,andtherealfacialexpressionmovementfeaturesandemotionmentalitycanbereflectedmoretruly.themaincontributionsareasfollows :consideringtheproblemthatthetraditionalopticalflowalgorithmisatime. consuming computation.anintegratedmethodofdetectingfacialmotionisproposedbasedonthesumofabsolutedifferences (sad ).themotionsub-regionisdetectedbythecomputationofsad.theopticalflowvectorsoftheobjectcanbeobtainedbycomputingopticalflowonthemotionsub 注册。thepaperputsforwardamethodwhichusesthetechniqueofdataminingtofacerecognition,primarilyistomakeuseoftheattribute relevance analysis to analyze theattribute of sub—region selectively.

Due to the great deal of temporal distortions that luminance patterns exhibit infacial expression images,standard optical flow algorithms are not well adapted in thiscontext.To cope with the problem,a novel approach for estimating facial expressionmotion is presented.Facial expression feature vector flows are extracted by improvedoptical flow algorithm.

Most of facial expression recognition methods for image sequences generallyextract one kind of features currently,which results in ashortage that the features cannot be effectively reflect comprehensive facial emotional information.A method ofexpression recognition based on hybrid features for image sequences is presented toaddress this problem in this paper.Features for each sub-region are extracted;therecognition results are fused by means of integrating the probability of eachexpression in each area with its weight obtained by contribution analysis algorithm.A method based on the Hidden Markov Model(HMM)is presented that uses theoptical flow feature vector as the observation vector.Left-right HMM model is usedin sequences images.It gains a HMM for each expression.A sequence features reachthe HMM.The biggest probability is the corresponding expression.KEY WORDS:facial expression recognition;optical flow;attribute relevanceanalysis;Non-rigid motion;Hidden Markov Model独创性声明

本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得墨鲞盘堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名:王守南 签字日期: p1年孓月弓1日学位论文版权使用授权书

本学位论文作者完全了解基奎盘堂有关保留、使用学位论文的规定。特授权墨鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:王守砖

签字日期:必91年F月弓1日导师签名:悉1智签字日期:抛?年,月;1日第一章绪论1.1课题的背景和意义第一章绪论

在人与人的日常交往中,面部表情是除了语言以外非常重要的交流方式。人们可以通过表情准确而微妙地表达自己的思想感情,也可以通过表情辨认对方的态度和内心世界。它作为信息的载体和自愿或自发的行为,包含了很多的因素,能够表达非语言信息。心理学家J.A.Russell提出,在人们日常的交流中,只有7%的信息是通过语言来传递的,而55%的信息则是通过面部表情来传递的【1|,由此可见人脸表情信息在人与人之间交往中的起着至关重要的作用。随着人工智能和模式识别的不断发展,情感计算中的一个重要方向—一人脸表情识别也越来越得到了人们的关注。人脸表情的研究始于19世纪,达尔文在他著名论著《人类和动物的表情(The

Expression ofthe Emotions in Animals and man,1872)》中不仅阐述了人的面部表情和动物的面部表情之间的联系和区别,还指出了面部表情不随种族,国家,性

别等的不同而不同,并且表情行为可以继承【2J。1971年美国心理学家Ekman和Friesenl3J定义了六种基本表情:即生气、厌恶、恐惧、悲伤、高兴和惊讶以及33种不同的表情倾向,说明了具有这六种表情的人脸特征与无表情的人脸特征相比具有相对独特的肌肉运动规律,并于1978年系统地建立了面部动作编码系统FACS(Facial Action Coding System)来描述面部运动,这一系统的提出在人脸表情识别领域具有里程碑的意义。

表情识别技术是情感计算研究的重要内容之一,其发展需要生命科学、心理学、图像处理、模式识别和计算机视觉等领域技术的共同支持,众多学科的交叉使人脸表情识别成为一项极富挑战性的课题。它的应用领域十分广泛,如安全领域、情感机器人实现、电脑游戏、医疗领域、心理学研究等。就目前而言,人脸表情识别的主要目的在于建立自然和谐的人机交互环境。赋予计算机具有情感理解和情感表达的能力,从而创造真正和谐的人机环境。第一章绪论

1.2表情识别的问题描述

1978年suwa和sugie【4j根据一段脸部视频动画抽取表情特征与典型模式比较进行表情识别,这一研究是表情识别在计算机领域发展的开始。一个人脸表情识别过程一般包括3个环节,即人脸检测、人脸表情特征的提取和人脸表情分类。建立一个表情识别系统,第一步需要对人类进行检测与定位,其分为简单背景下的人脸检测和复杂背景下的人脸检测;第二步从人脸图像或图像序列中提取能够表征输入表情本质的信息,在提取特征数据过程中,为了避免特征数目过高,还需要对特征进行降维,即人脸表情特征通过映射(或变换)的方法把高维空间的原始特征向量变换为低维空间的特征向量;第三步分析特征之间的关系,将输入的人脸表情分类到相应的类别,如AU(Action Unit)组合或基本情感类别。1.3本文的主要工作近年来,随着人们对于建立和谐人机交互环境的兴趣的增加,人脸表情识别逐渐成为一个研究热点。基于视频的人脸表情识别的研究对于增强计算机的智能化和人性化,建立和谐人机交互环境,以及推动人工智能的发展,有着重要的现实意义。本文在分析和总结了国内外关于面部表情分析与识别研究工作的基础上,提出了一种的基于改进光流和人脸表情识别方法。其中主要的研究工作归纳如下:(1)在人脸检测部分,本文运用AdaBoost算法在输入的人脸图像序列中检测出人脸区域,为后续的人脸特征提取和表情识别奠定基础。(2)利用属性相关分析对标定人脸特征的多个子区域进行相关性分析,得到了子区域的区分度强弱顺序,便于在表情识别过程中有选择的使用。(3)由于面部表情运动是一个非刚体运动,容易产生形变,因此传统光流法计算不准确。为此,本文通过引入div.curl样条函数作为扩展光流约束方程的附件约束条件,推导了非刚体光流算法,然后运用改进的用于计算非刚性面部表情运动的光流算法对各个子区域进行表情特征提取。(4)当前多数图像序列的表情识别方法仅提取图像的某一类特征,导致特征参数不能全面地反映脸部情感信息,本文采用基于混合特征的图像序列表情识别方法。分别提取各个子区域的变化特征然后对每种表情的贡献权值进行加权融合。

(5)在序列表情图像识别方面,提出了一种基于隐马尔可夫模型的人脸表情识别方法。把人脸的表情序列分为3个状态,采用降维后的光流向量作为观察2第一章绪论

向量,分别对应着HMM模型状态和观察值。并将最大互信息准则函数引入到表情的动态分析中,并相应地给出了识别算法。(6)运用MATLAB和C撑开发了人脸表情识别系统,并根据实验结果对表情识别系统进行优化。1.4论文的组织结构

第一章,介绍了课题的背景和意义,对所要研究的问题——人脸表情识别做出了描述j并说明了论文的主要研究内容和章节安排。 .第二章,概述了人脸表情识别问题的历史和发展现状,并对人脸识别领域主要的理论和方法进行了简单的解释。第三章,基于改进光流法的人脸表情特征提取,针对现有理论和方法的分析,提出了基于改进光流法的人脸表情特征提取方法,从人脸检测到运动子区域划分,从子区域属性相关性分析到非刚体运动光流的计算,再到特征序列的融合,第三章详尽的讨论了人脸表情特征的提取过程。第四章,基于隐马尔可夫模型的人脸表情识别,详细的讨论了运用隐马尔可夫模型进行表情识别的过程。

第五章,详细介绍了实验的环境,并对影响实验结果的各个因素进行了分析,通过对实验结果的分析对比,对本文算法改进对识别率提升的效果进行验证。第六章,总结与展望,对论文中的研究工作进行总结,并提出了进一步研究的方向。第二章人脸表情识别综述第二章人脸表情识别综述2.1表情识别的发展现状

人脸表情识别涉及的研究和应用领域极其广泛,作为一个多学科交叉的研究课题,人脸表情识别涉及到生命科学、心理学、图像处理、模式识别和计算机视觉等多方面的学科知识。通过计算机进行人脸表情识别是目前十分前沿的研究热点,它在创建和谐人机交换环境等方面有着广泛的应用,目前,国内外学者围绕这一问题做了较多的研究,提出了一系列面部表情识别算法,识别的表情基本上是基于Ekman和Friesenp】提出的六种基本表情或33种不同的表情倾向,识别算法按识别的对象分大致可分为两类:基于静态图像方法和基于动态图像序列的方法。前者使用的是单一面部表情图像,只提取表情的形变特征,即表情的暂态特征,因此计算相对简单,在进行特定人表情识别时可以获得较好的识别率,但静态图像特征所包含的表情信息量有限,而且容易受到不同人脸形状、肤色、光照条件等因素的影响,在进行非特定人表情识别时,效果较差;后者则采用图像序列,充分考虑了面部表情变化的时间和空间信息,对于序列图像不仅提取了每一帧的表情变化特征,还要提取连续序列的运动特征,去除噪声、光照及其他与表情无关干扰因素的影响,在进行非特定人表情识别时也能得到很好的结果,但计算量较大,当前大部分面部表情识别的研究集中于对动态图像序列的研究。由上文我们可以知道按照对表情图像处理的先后过程,人脸表情识别系统可分为人脸图像获取、特征提取和人脸情感分类这三个部分,具体识别流程如图2.1所示。图2-1表情识别流程图4

第二章人脸表情识别综述

’目前国际上正在研究人脸表情分析与识别的机构主要有美国的麻省理工学院(MIT)、卡耐基梅隆大学(CMU)、马里兰大学(Maryland)、日本的城蟆大学(SEIKEI)、东京大学(Tokyo)、大阪大学(OSAKA)等。国内主要有清华大学、哈尔滨工业大学、中科院自动化研究所、南京理工大学、北方交通大学等。MIT提出的一个新的高技术前沿研究方向——情感计算,是关于、产生于和影响于情感方面的计算,它赋予计算机识别、理解、表达和适应人情感的能力,表情识别的研究是其中的核心内容。2.2人脸检测与定位方法介绍

人脸检测是指对一幅给定的图像(静态或者视频),采用一定的方法和策略对其进行搜索以确定其中是否含有人脸以及人脸在图像中出现的位置16J。表情改变时人脸的细节变化、脸部的遮挡、光照的变化以及图像的成像质量等因素决定了人脸检测与定位是一项具有挑战性的工作。其需要解决的问题主要有以下两方面,一方面是当不同个体的人脸的特性存在差异时,如何准确的对人脸进行检查和定位。其差异主要有: (1)不同的脸部特征如脸型、肤色等,不同的脸部状态如眼、嘴的开与闭、人脸正侧面角度等; (2)人脸的遮挡,如眼镜、头发、帽子和其它头部饰物以及其他外部遮挡等;另一方面克服其它外在条件变化的干扰: (1)由于成像角度的差异造成的人脸姿态的多样性,如屏幕内旋转、深度旋转以及上下旋转;(2)光照的影响,如图像的亮度、对比度的变化和阴影等。(3)图像的成像条件,如摄像设备的焦距、成像距离,图像获得的途径等等。人脸检测和定位是人脸表情识别的第一步。人脸检测的基本思想是用知识或同级的方法对人脸建模,比较待检测区域与人脸模型的匹配程度,从而得到可能存在人脸的区域。人脸检测方法大体可以分为两类:方法一是整体考虑的方法,即将人脸作为一个独立的整体检测,主要算法有可变模板方法、基于肤色的方法、小波分析、势网络的方法;方法二是采用分析的策略,检测人脸是通过检测双眼和嘴部中心部位等重要的人脸特征点来实现的,具体方法是找出脸部特征点及其组成向量之间满足的线性关系,来检测出整个人脸,具体算法有特征眼方法、遗传算法检测人脸、特征脸方法、广义对称变化等。主要人脸检测方法与效果如表2.1所示:‘

第二章人脸表情识别综述

表2—1常见人脸检测方法及其评价算法 运算量 准确率 鲁棒性

肤色信息 小 低 对图像质量要求高,受光照影响小镶嵌图 大 较低 对图像质量要求高,受光照影响大几何投影发 小 较低 对图像质量要求高,受光照影响大二值化定位 小 较低 对图像质量要求高,受光照影响大广义对称变换检测 大 较高 对图像质量要求高,受光照影响大可变形模板匹配 大 高 对图像质量要求高,受光照影响大势网络 大 高 对图像质量要求低,受姿态表情影响小主元分析法 大 高 对图像质量要求低,受姿态亮度影响较小多层小波分解 大 高 对图像质量要求低,受姿态影响大神经网络 大 高 对图像质量要求低,受姿态表情影响较小遗传算法 较大 高 对图像质量要求高,受姿态表情影响大2.3脸部特征提取发展现状脸部特征提取是从脸部图像中提取所需的脸部运动或脸部特征形变信息,即把以像素描述的图像数据转化为高级的表述,比如对图像形状、运动、颜色、纹理特征或空间构造的描述;并且要尽可能在保证稳定性和识别率的前提下,对庞大的图像数据进行降维。目前主要的特征提取方法有:提取几何特征、统计特征、频率域特征和运动特征等。

(1)几何特征提取

基本思想是利用人脸的结构特征和先验知识,通过对组成人脸部件的形状和结构关系变化等显著特征,如眼睛、鼻子、嘴巴、下巴等的形状、大小和相对位置的几何描述来进行表情识别。基于几何特征的识别方法,在特征的提取方式上具体有可以分为三种:a.在手动的预先定义一组特征点的基础上进行特征点运动的跟踪

剑桥大学的Philipp Michel采用的就是手工标点的方法,即在图像序列的第一帧中手动标定眼、口、鼻等重要特征点的位置。对于每个表情,通过测量特征点平静和有表情帧的相互位置和形状来进行分类器的训练。由于手动标点提取的位置信息分类精确率较高,系统训练和分类的时间复杂性也较低。b.完全的自动提取特征点这个问题与人脸识别中的人脸的检测与定位问题相似。利用人脸各个部件相对固定几何结构,通过对人脸各个部件器官进行分析,并运用一些先验知识来确定特征区域的大致位置,然后再精确定位各个特征点(如眼睛中心、嘴角、眉尖)的位置。这里的表情区域定位通常使用的方法有:积分投影法、houhg变换法、6第二章人脸表情识别综述

susan角点检测方法,以及可变形模板方法、Snake方法和构造模型能量函数的匹配方法等。c.基于面部轮廓特征的模板匹配

这是在收到标定特征点的基础上改进的,也是一种基于几何特征的方法。它首先将图像拥有大量的标记点来描述主要的特征,并通过对一系列的训练图形中的这些标记点的位置进行统计分析,从而得到一个可变型的人脸的形状及空间关系建模,进而识别表情。

以上提到的几何特征提取法,手动标定特征点的方法在实验研究领域比较常用,但不适合实时的表情识别应用的要求;自动提取特征点的方法对先验知识依赖性较强,并且在提取特征点时常受到头发、背景以及光照等的干扰。总的来说,提取几何特征进行表情识别的优点是:直观,符合人眼进行表情识别的规律;并且很大程度上减少了特征维数,压缩了数据信息。但是用有限的特征点来代表人脸图像,一些重要的表情变化特征就会丢失;而且实验表明几何特征提取的精确程度不容乐观。(2)统计特征提取

与提取图像的几何特征相比,这种统计特征是基于图像的整体灰度特征的,它强调尽可能多的保留原始面部表情图像的信息,通过对大量样本的训练,获得其统计特征,其进步思想是将面部表情图像映射到特征空间,将大量图像数据降维后进行模式分类,因此提取统计特征实际就是“子空间分析法”。如果将子空间的正交基按照图像阵列排列,则可以看出这些正交基呈现人脸的形状,因此这些正交基也被称作特征脸,这种识别方法也叫做特征脸方法。关于正交基的选择有不同的考虑,采用主分量作正交基的方法称为主成份分析法(PCA)17,8],它曾经是人脸识别中最常用的方法。主成份分析法基于K.L正交变换,是一种无监督的线性特征提取方法。根据像素间的二阶相关性,利用代数中的子空间法给图像矩阵大大降维,提取那些能代表所要识别的几种特征人脸表情的主要特征分量,并形成特征识别的空间,利用待识别区域在此特征空间的投影距离来识别。它的优点是最大化的保留了原始数据的差异,其缺点是当样本类间离散度增大时,样本类内离散度也在增大。(3)频率域特征提取

Gabor小波滤波是一个由二维高斯函数衍生出的复数域正弦曲线。二维Gabor小波变化是在时频域内进行信号分析处理的重要工具,其变换系数有着良好的视觉特性和生物学背景。Gabor小波相当于一组窄带带通滤波器,在空间域和频率域均有较好的分辨能力,有明显的方向选择和频率选择特性。近年来,基第二章人脸表情识别综述于Gabor小波的方法被广泛应用于人脸表情的特征提取…2】多尺度、多方向的纹理变化。

二维Gabor滤波器函数形式如下:

q(.):箬exp(一等)[exr,(i—kjx)一exp(一知 q(x)2事e一寺)[e —e一≥)】鼽巧=㈥=(三嚣卜“·≯∽y,,它能够同时检测公式(2.1)

矽为高斯窗的尺度因子,它控制滤波器的尺度大小和宽带;吮与吮,(“,V∈加分别为调制频率和调制方向,大多数情况下人们可以根据表情识别图像选择合适的万,q和九,从而使Gabor小波滤波器对图像的主要频率分量产生比较大的影响,从而获得反应不同目标的主要特征;(%,%)为了对一幅图像的整个频率域采样,还可以构造具有多种频率与方向的若干个Gabor滤波器,构成一组Gabor小波滤波器合并作用于表情图像,这就相当于使表情图像通过不同的窄带能量通道,从而实现目标图像的Gabor小波分解。(4)运动特征提取

运动特征提取与其他方法相比有着明显的特点,以上我们介绍的特征提取方法都是针对静态图像,其主要提取面部表情的空间信息。然而运动提取方法通过提取面部表情变化的时间和空间信息,可以揭示更多的表情运动变化信息。表情识别的最大特点是:它是一个动态变化的过程。心理学研究表明,尽管人类可以通过一幅镜头图像判断其中的人脸表情,但是大部分实验者在识别动态序列图像的表情时,准确率明显增高113J。可见提取动态图像序列的运动特征对于表情识别有着特殊的意义。运动提取方法根据表情区域的运动变化情况,提取相邻时刻该区域的运动变化信息作为特征向量,适用于表情图像序列的识别。比较常用的运动特征提取方法有很多,如、特征点跟踪1t4,15]、光流法等。当人的眼睛观察运动物体时,物体的影像在人眼的视网膜上形成一系列连续变化的图像,这一系列连续变化的信息不断“流过”视网膜(即图像屏幕),好像一种光的“流”故称之为光流116]。光流模型是处理运动图像的有效方法【17J,其基本思想是将运动图像函数作厂(五y,t)作为基本函数,根据图像强度守恒原理建立光流约束方程,通过求解光流约束方程,计算出光流场。第二章人脸表情识别综述2.4表情特征分类发展现状

表情分类中涉及两个问题,一是情感类型,二是分类方法。情感一般认为分成六类,即高兴、愤怒、厌恶、悲伤、恐惧、惊奇,但模型如何建立仍无统一理论,对各种表情的特点概括如表2-2118】。表情分类的方法也很多,现在主要的有以下一些:基于专家规则(Expert rules)的方法、神经网络、支持向量机、隐马尔可夫模型。表2-2六种基本表情的主要特点表情 额头、眉毛 眼睛 脸的下半部

惊奇 眉毛抬起变高变弯、 眼睛睁大、上眼皮太高、 下颌下落嘴张开、唇和齿分开、眼眉下的皮肤被拉 下眼皮下落、眼白可能在 但嘴部不紧张也不拉伸伸、皱纹可能横跨额 瞳孔的上边或下边露出来头

恐惧 眉毛抬起并皱在一 上眼睑抬起、下眼皮拉紧 嘴张开、嘴唇或轻微紧张、向后起、额头的皱纹只集 拉、或拉长同时向后拉中在中部、而不横跨整个额头

厌恶 眉毛压低并压低上 在下眼皮下部出现横纹、 上唇抬起、下唇与上唇紧闭、推眼睑 脸颊推动其向上但并不紧 动上唇向上、眼角下拉、唇轻微张 凸起、鼻子皱起、脸颊抬起。愤怒 眉毛皱在一起、压 下眼皮拉紧、抬起或不抬 唇有两种基本的位置:紧闭一角低,在眉宇见出现竖 起,上眼皮拉紧、眉毛压 拉直或向下,张开,仿佛要喊、直皱纹 低,眼睛瞪大,可能鼓起 鼻孔可能张大高兴 眉毛稍微下弯 下眼睑下边可能有皱纹、 唇角向后拉并太高、嘴可能被张可能鼓起但并不紧张,鱼 大、牙齿可能露出、一道皱纹从尾纹从外眼角向外扩张 鼻子一直延伸到嘴角外部、脸颊被抬起。悲伤 眉毛内角皱在一起、 眼内角的上眼皮太高 嘴角下拉、嘴角可能颤抖太高带动眉毛下的

皮肤

基于专家规则的方法[19,20J从人的观察角度出发来制定一些规则,对特征提取得出的参数,判断它符合哪一类规则,将其归入相应的类别。Panticl2嵋2J利用AU编码来描述输入的表情,然后与每一种表情类别的AU编码描述进行比较,将其分类到最相近的一类表情中。神经网络方法[23-25]被用在人脸表情识别方法中,其很适合于处理非线性问题。模型由简单的、并行处理的互连处理单元构成,每个神经|26J元与其他神经9

第二章人脸表情识别综述

元相连并从与其相邻的神经元接受输入,输入加权后输出送给其他的神经元,神经元之间的连接强度通过连接权值来描述。在表情识别中,输入数据为人脸表情图像中提取的特征向量,输出为六种不同的表情。

支持向量机(Support Vector Machines,SVM)【2 7J是一种泛化能力很强的分类器,其常被应用于解决小样本,非线性及高维模式识别问题,SVM能够推广应用到函数拟合等其他机器学习问题中。有文献对原始人脸图像进行一系列的Gabor变化,将获得的新的特征作为SVM的分类器输入,得到了很好的识别结果。隐马尔可夫模型(HMM)是马尔可夫链的推广,它是一个双重随机过程,由两部分组成:马尔可夫链和一般随机过程,其中有限状态Markov链,这是基本过程,状态的转移,用转移概率描述:一般随机过程用来描述状态和观察序列之间的统计对应关系,用观察值概率描述。因为HMM在分析对象的时空特征方面具有优势,因此在图像序列的表情识别领域被常常采用。2.5人脸表情数据库介绍近年来,由于人脸研究的不断升温,统一实验数据集和测试平台的需求越来越迫切,外国建立了不少针对人脸分析的数据库。

CUM的PIE数据斟j酬在CMU的3D Room中录制完成。该数据库包含13个姿态,43种光照条件,收集了人脸常见的4种表情:中性表情、微笑、眨眼、说话,规模为68人。MIT人脸库有16人,每人27幅图片,有光照、尺寸和头部偏转变化。UMIST人脸库有20人564幅图像,包括从正面到侧面的各个角度。Kodak人脸库为彩色图像,有尺寸、姿态和光照变化。本文采用CMU的Cohn.Kanada Au编码面部表情数据库【291。该数据库包含了210个人的大约2000幅图像序列,是一个基于AU编码的数据库,它根据人

脸动作编码系统(Facial Action Coding System)把人脸动作分成6种运动单元,即AU。我们可以得到该数据库正面人脸的一部分图像序列,包括了100名年龄在18至U30岁之间的大学生的照片。其中65%是女性,15%是非洲裔,3%是亚洲或者拉丁美洲裔。每个学生做了多种表情,这些表情包括单独的(如AUl2)和复合的(如AUI+2)运动单元。每一种表情都从中性或接近中性的表情开始,该数据库中的样本如图2.2所示。10

第:章人脸表情识别综述

圈2 2 Cohn-Kanada数据库图像序列

从以上介绍可知,在过去的几十年中,随着情感智能以及情感计算概念的提出,人类衷情的研究日益受到重视。无论是在心理学方面的研究还是计算机方面的研究都取得了重要的成就。计算机方面从过去基于静态图像发展到了目前基于视频序列来进行表情的分析,对表情的认识更加深入,识别效果也得到了改善。但是,目前的表情识别系统还仅仅限于对背景比较单、表情类型比较简单的情况进行处理,对自然表情分析、表情程度的估计、人脸表情的实时识别等方面的研究还存在严重的不足。此外有效的降低识别过程中的计算量,进一步提高表情识别的效率和识别率将是我们下一步研究的工作重点。第三章基于改进光流法的人胜表情特征提取第三章基于改进光流法的人脸表情特征提取在计算机领域.人脸表情识别是指基于视觉信息。将脸部的运动或者特征的变形进行分类。人脸表情识别一般分为:脸部定位、脸部特征提取和表情分类三部分。其中,脸部定位是从输入的视频流或图像中确定人脸的位置,将人脸区域图像从背景信息中分离出来,是后续部分的准备工作:脸部特征提取是从检测的人脸图像中提取能够充分体现脸部表情的特征数据;表情分类是将输^的脸部图像归^某个具体表情中,即给出一个表情识别的结果。本文设计的面部表情分析与识别系统基本框架如图3-】所示。图3-】人脸表情识别系统框架图

运用光流法提取面部表情特征流的算法如下: (I)人脸检测,对图像预处理,如去噪、图像归一化: (2)计算图像序列的光流场: (3)对光流场降维,得到面部衷情特征流。耻下各节将分别详细介绍运用改进光流法对人类表情特征进行提取的过程。3 1人脸检测

人脸检测是指对一幅给定的图像(静态或者视频),采用一定的方法和策略对其进行搜索以确定其中是否含有人脸以及人脸在图像中出现的位置。人脸检测第三章基于改进光流法的人脸表情特征提取

是一个复杂的模式检测问题,面临着很多困难:1)人的表情变化时面部运动具有相当复杂的细节变化,是一种非刚体的形变运动;2)人脸的遮挡,如眼镜、头发和头部饰物以及其他外部物体等:3)光照和图像成像条件的影响,如图像的亮度、摄像设备的焦距、成像距离等因素。人脸检测算法【30】总体上可以概括为:基于先验知识、基于结构特征、基于模板匹配以及基于统计模型4种方法。基于先验知识的方法是基于人们在认识人脸过程中总结出来的一些先验知识,把它们归结成为一些复杂程度由简到繁的规则,适用性不强;结构特征的方法比较直观,但是它要求特征点的定位准确,且计算量大;模板匹配方法在环境不变的情况较好,但是它计算量大且对环境的适应性较差。基于统计的方法是近几年来的研究热点,通过比较本文选用基于AdaBoostl31J的方法。AdaBoost算法和其它方法相比,检测速度和稳定性好,被广泛应用在动态人脸检测中【321。AdaBoost是一种迭代算法,通过从大量的弱分类器中选取最具有分类意义的那些组合成一个强分类器。具体就是在当前迭代的概率分布上选取一个具有最小错误率的弱分类器,接下来通过调整概率分布,增大当前弱分类器错分类样本的概率值,降低当前弱分类器正确分类的样本的概率值,以凸显分类错误的样本,使下一次迭代对错误样本的针对性更强,即针对更容易出错的样本,使得那些被错分的样本得到应有重视。AdaBoost算法中不同的训练集市通过调整每个样本对应的权重实现的。最后利用设计的分类器检测视频人脸。AdaBoost算法1"1步骤:

1)给定训练样本集(再,Y,),...,(毛,儿),薯∈x,乃∈Y={0,1)2)初始化权值,m、,分别是正例样本、反例样本的数目(正、反例样本的1 1 初始化权重分布设为÷、去)上m 己l

3)对于T轮训练For t=l,…,T

1规格化权重q.,卜哆,,/∑rot。,,使哆.;是一个概率分布。j昏迷

2针对各特征_训练弱识别器h,仅使用该特征。 计算加权的国家的预测函数训练误差:勺子=q阮(薯)一只l3选择误差s,最小弱分类器h,第三章跟踪改进光流方法的人脸表情特征提取

4根据上述训练误差更新权重q。二q .一。 ‘,‘如果分类正确的q=0,则否那么q 21。 其中戽2毒。4 )训练结束,输出最终得到的强分类器:()、 |; 啦jI缶r吕一s 101一. other

训练中获得的分类器和^&; 利用对视频图像进行人脸检测在雕像中的位置。 使用该算法的人脸定位效果如图3.2所示公式(3(I ) )。得到脸部的照片3-2面部检测例

3.2人脸表情图像序列光流的计算

光流方法是提取人脸表情特征的重要方法之一,对人脸表情序列进行光流分析可以得到脸部各部位的运动信息,根据各特征区域的相对运动速度、目标距离和脸部表面结构等。 进而进行特征向量的提取、表情的识别等后续处理处理提供了丰富的信息。 但大多数光流检测方法计算开销大,实时性差,在在实时性要求比较高的应用领域,很难满足要求。

教育部职业教育与成人教育司

教育部职业教育与成人教育司

在之后的处理中,应用闭算和连通性分析.成功地计算了脸部表情特征区域的光流。

3.2基于lsad的运动区域检测

如果图像序列相对稳定且照明条件的变化不明显,可以使用差分图像方法快速高效地检测表情变化时人脸的运动区域】,将巴克像作为MN的灰度图像第三章基于改进光流方法的人脸表情特征进行提取时刻、和t l的图像分别是非、z、f )和f(x、y、1 ),SAD定义如下。n

c=I, ()式中,c为2帧的图像差分的绝对值和) SAD )。 根据脸部表情的0特征,将图像区域分成几个块的子区域如图3-3所示。 对各块依次进行SAD的计算,通过与阈值t进行比较来确定运动区域。图3-3人脸区域划分

利用图像差分检测是一种快速的运动区域检测方法。 但是,简单的两帧图像通过差分无法得到充分的运动信息。 因此,进入利用光流法检测出的运动区域通过进一步的光流计算,获得部分人体运动信息。3.2 2表情子区域光流计算

当观察人眼运动的物体时,物体的图像在人眼的视网膜上形成一系列连续变化的图像看起来像这一系列连续变化的信息不断地“流动”在视网膜,也就是图像屏幕上一种光的“流动”叫做光的流动。 光流根据灰度模式而变化而且,微观运动是瞬间速度场,是能量场”,那是实际的运动场的近似估计mJ,其中每个向量表示图像像素点位置的瞬时变换。 为了~光流包含大量对应对象的运动信息,例如移动对象的速度和投影后的灰度。因此,光流可用于确定相应对象的移动。

Horn和Schunk在80年代初期创立的“光流分析法”是数字视频处理学中二维物体运动估计的重要方法p”。 在很多情况下,人们通过获取二维图像序列被用来记录现实世界中三维物体的运动。 也就是说,我们得到了三维物体的运动通过透视和难相交投影方法在二维平面上的投影是光流分析算法研究的对象运动(或投影运动)对应于图像前后帧的像素的亮度特性的瞬间变化,Horo和Schunk将图像平面特定坐标点的灰度瞬时变化率定义为“光流向量”。由于该方法适用于计算十皮肤变形问题,其计算相对简单,只需一点一点地估计位置的速度场,本文采用了该方法。第三章基于改进光流方法的人脸表情特征进行提取基于梯度的光流方法中,时变图像灰度的时空微分(数)计算各图像像素点的速度矢量。 首先,(一)运动物体灰度以短间隔固定; (二)给定邻域内的速度矢量场的变化缓慢

中选择所需的族。 因此,在连续的帧图像之间的运动中,亮度被认定为恒定。 在时刻f和f dt有两个对于宽度连续图像,将图像上的像素m=(x,少) 7时刻f的灰度设为f ) x,y ),在时刻t dt灰度为工厂@也y咖啡店),其中x、y为该点的坐标。 其他像素m的速度(光流向量) ) ) ) ) ) ) )。=(u,17 )。 根据假说,有工厂@,y,t )=工厂@也y方,f历)。 变化无常连续的,且两个帧之间的时间间隔专业隔开0,通过泰勒级数展开得到:要害是d伍z(0公式) 3.2 )叙dt a,7 dt a (,)。 ’、…。忽略d (类2 ) 9中得到:

六"4-‘,Z=0的公式(3.3 ) "

其中“: dx,v : 婺是分别在水平方向和垂直方向的光流分量。 公式3.3另一方面,df df是可能的。 「我想是的! 婵:假设0的结果,即图像随时间的微分不变; 另一方面,Cfx,^ )和)、v )作为向量时,式3.3可以认为是2个向量的点乘,即(正,^ )、)、)、)、)=一ft,工厂j向“六、”方向流动的光的大小为丽t; 将式3-3看作" v平面上一条直线"可以看到线只有一条约束线,如图3-4所示。 因为方程式包含两个未知数,因此,需要添加约束才能获得光流。图3-4基本等式约束线图3.5迭代求解过程

基本等式3-2给出了光流计算的一个约束,因为光流的压力---(u,v ) 7有两个未知只能求出数、出场0、v (沿着坡度方向上的值,而不能同时求出光流场的两个速度分量U和1,。这就是说,从基本等式求解光流场是一个不适定问题。Hom和Schunck16第三章基于改进光流法的人脸表情特征提取

在解决该问题时,依据同一物体引起的光流场应该是连续的光滑的,即同一物体上相邻点的速度是相似的,那么投影到图像上的光流变化也应该是平衡的这一特点,在梯度方程上加上一项全局空间平衡项来约束速度场,从而使运动估计问题表示为最优化问题。平滑约束为:巨=肌:+“:+《+v;)dxd。

将梯度基本方程3-3和整体平滑约束方程3.4联立并离散化,

流的递归形式,见公式3-5,迭代求解过程如图3-5所示。 k乏一涨六 卜%--n一搿‘3.2.3非刚体光流计算方法的改进公式(3.4)可得到求解光公式(3.5)

上文中我们使用Horn.Schunck法计算光流场的假设之一是运动物体的灰度在很短的时间间隔内保持不变,这就引入了光流计算的缺点,当光源的亮度或照射角度变化时,当运动物体存在形变时,光流计算将不能准确完成。人脸表情变化时的运动是典型的非刚体运动,采用传统Horn.Schunck光流法将必然会导致光流场计算的不准确,从而影响人脸表情识别的识别率。为此,本文在基于流体运动的连续方程的扩展光流算法[38,391基础上,考虑到流体运动矢量的散度(div)和旋度(curl)也是重要的计算和分析对象,运用散度一旋度样条作为人脸表情运动光流场计算的附加约束条件Ⅲ】。该算法对光源变化,运动物体的形变情况下光流场的计算具有较强的针对性。由力学原理可知,所有流体的运动方程为:半+即7’V+div(p矿)=0,式中Pot

为物质密度,y=肛,E叫为三维运动速度,dfVy=a叙u+瓦Ov+老为速度场的散度。我们用图像灰度厂代替物质密度P,可以得到非刚性物体光流约束方程:六“+‘V+Z+^十^=o其中肛肛。V’叫为二维速度场。与传统Hom-Schunck光流约束方程比较,非刚性物体光流约束方程增加IdivV项。17

第三章基于改进光流法的人脸表情特征提取

为了求解光流场(“,计必须引入附加约束条件,本文引入与Horn.Schunck光流法一阶正则化函数等价的一阶div—curl样条函数E=盯(IVdrvvii2+llc“rlVll2)dxdy,其中删rIV=v-u h。并用二阶div-cur】样条函数作为附加约束条件。得到如下目标函数:

J.=』』鼽“+fV+,+m.+_ir+alldiVll2+剧}“r,1f扭西, 公式(3—6),:=Ⅱ舨“+,v+,+m,+一,y+allVd/vvii2+爿IV洲H卅2k方公式(3.7)其中式3-6附加约束项为一阶div—curl样条函数,式3.7附件约束项为二阶div.curl样条函数。a,卢分别为散度与旋度约束项的平滑参数。由于。,卢控制目标函数附加约束中的一阶或二阶散度、旋度项,a或卢越大,则对应的散度或旋度样条约束对光流计算的贡献越大,反之亦然。所以,/2-,卢的选择应当充分考虑到运动物体的散度和旋度。为此.我们根据运动物体的特征对。,卢的选择。对一阶div-curl约束下的光流算法,选择:1divV『 “IdivVl+『curlVI。:”

!竺型

ldivVl+lcurlV『

对二阶div-curl约束F的光流算法,选择:lVd[vVl“一IVdivVl+lVcurlVl。 lVcurlVl’

IVdivVl+l[rcurlVl

对光流场进行计算后,对其进行降维.得到面部表情特征流。高兴表情各个子区域进行光流场计算的结果如图所示。—∥, 1 臣麟意醪鞠錾辅醚■§鼍畴毋7;0 一 一

陶3-6各于耳域光流计算结果譬善萱

第三章基于改进光流法的人脸表情特征提取3.3人脸表情运动特征的分析与表示3.3.1运动子区域相关性分析

由上小节可知,对运动区域检测首先需要对整个区域进行子区域划分。人类面部表情是由面部肌肉运动产生的。Ekman和Friesen提出的人脸运动编码系统FACS中,利用若干运动单元AU来表示面部表情。这些AUs单元与一个或一组同时发生的肌肉相对应。

数据挖掘14l】是近几年随着数据库技术和人工智能技术的发展而出现的一种全新信息技术,也是计算机科学与技术的发展所提出的且迫切需要解决的重要课题。决策树、神经网络、关联规则、K.nearest邻居、遗传算法等都是数据挖掘常用的方法。本文利用特征化与比较中所用的属性相关分析成功对人脸表情特征子区域进行了相关性分析,对多个子区域特征进行了相关度由高到底的排序,从众多特征中做出了选择14引。

在判断一个样本属于哪个类时,用这个样本或类的属性(特征)判断,但是一般样本或类有多个属性,对于我们来说,确定哪些属性应该包含在类特征分析中是比较困难的。如果包含的属性太少,会造成特征不完整;如果包含的属性太多,也会降低系统的性能,甚至加入干扰信息。我们希望对任何一个样本以属性值分类,现在的问题是选择哪些属性作为分类属性。属性分析就是要解决这一类问题。属性的相关性要根据属性区分一个类和其他类的能力来评估。属性相关分析的基本思想是计算某种度量,用于量化属性与给定类或概念的相关性。这种度量有很多,如信息增益、Gini索引、不确定性和相关系数等。选择一个样本空间S,根据已有的知识给每一个样本赋予一个类标号。设共有m个类cf,i=1,2,…m,样本有属性A,B,C,D等等,我们希望对任何一个样本以属性分类。在样本数很大时一个任意样本属性类cf的可能性是Si/s,其中S是集合S中对象的总数。对一个给定的样本分类所需的期望信息是:m—z,…啪一善扣:詈 公式(3.8)属性A可以依据值缸,呸,…,吼}在样本空间上产生一个划分,设将s划分为v个子集b,是,...,鼠},其中,毛包含s中A值为口,的那些样本。设一包含s中A值为a,的那些样本。设s包含类cl的勘个样本。根据A的这种划分的期望信息称作A的熵。他是加权平均:

第三章基于改进光流法的人脸表情特征提取

刚)=喜业竿垫,(Slj,S2j,"·.,Smj) 公式(3.9)

A上该划分的获得的信息增益定义为:Gain(A)=I(s,,s:,…,s。)一E(彳)。运用这种相关性分析方法,我们可以计算出定义S中样本的每一个属性的信息增益。具有最高信息增益的属性是具有最高区分度的属性。通过计算信息增益,可以得到属性的秩评定。这种秩评定可用于相关分析,选择用于概念描述的属性。将上文中检测出的特征子区域作为属性,在这些属性中要挖掘出具有较好区分度的属性,分别计算各个子区域特征的信息增益,从而对每个属性按此划分的信息增益排序可得每个属性的区分能力由大到小的排列顺序。具体步骤为选择若干组表情序列表情变化最为显著时的图片,分别测量各子区域的属性值如嘴部子区域可测量嘴长、嘴宽等。接着计算每个属性值的熵,进而得到期望信息以及信息增益。信息增益可以作为特征向量构造时各子区域的权值。眉眼区域和嘴部区域为最典型的部分,这些区域的选取是基于表情的度量结果,他们被证明是变化最显著的区域。综合以上分析,本文在将眉眼、嘴部、额头和腮部区域独立的划分出来。3.3.2 K.L变换的数学描述

本小节的目的是要将上一节提取的特征区域光流,经过分类表决为正确的表情。如果直接对其分类,处理的数据量非常大,分类效率低,所以在对其使用HMM模型分类前,需要对特征区域的光流进行降维处理。本文采用主成份分析方法(Principal Component Analysis,PCA),即离散K.L变换。分别对水平方向U和垂直方向v的运动图像进行降维。

K—L(Karhunen.Loeve)变换【43】又称为特征向量变换或主成份分析法。K.L变换是用尽可能少的指标来反映主题的特征,但是又不会损失原来变量太多的信息。其本质上是一种对变量的降维,因此其经常被用来进行图像的压缩。设给定Ⅳ个指标的M组样本向量如下所示:X‘=K,《…《J k=1∥2·村 公式(3一lo)

M组样本向量的均值为:他=E扛},这组样本向量的协方差矩阵可表示为:C=£虹一m,融一m,T}因为x是N阶的,所以Cx是Ⅳ×Ⅳ阶矩阵,而且是实对称矩阵。巳是各∥向量第i个分量组成的向量量X,的方差,G表示各向量第i个分量组成的向量和第.,个分量组成的向量之间的协方差。如果上述向量因为矩第三章基于改进光流法的人脸表情特征提取阵而,0不相关,协方差C;,=巳=o。因此e是实对称矩阵,所以它的本征向量是互为正交的,因而存在e=彳7AA,其中4是正交矩阵,人是一个对角矩阵,其主对角线上的元素是e的本征值丑,f=0,1,…,N—I,即:A=

A0

0 砧 公式(3.1 1)

假设e是正的,则它的本征值是正的,协方差矩阵的这些本征值按从小到大的顺序排列。下面我们研究如何将石映射到Y上,为使Y向量的均值是0,我们在这里引入霍特林变换。假设4为将x转化成Y的变换矩阵,由霍特林变换得:Y=彳G一%)。而Y向量的协方差为C=AC,A卜A,除了主对角线以外,它的所有元素均为0。这个变换被称为Karhunen.Loeve(K.L)变换,它可以产生互不相关的特征。K-L变换在模式识别中很重要,在信号和图像处理中也有应用。3.3.3人脸表情特征的降维K.L变换有许多重要的性质。这里我们介绍与降维有关的均方差逼近。令x=A7y+m,在子空间中定义一个新的向量:曼=《),+%其中4表示e中m个最大特征值的m个特征向量构成的矩阵,显然,这只是x在子空间上的投影,它由包含在总和中的m个.(正交)本征向量决定。如果试图用x的投影曼去逼近x,产生的均方差是:

EIk一纠12】=E口I篓yok,『] 公式(3.12)现在的目的是要选择极小化均方差的本征向量。由上式并考虑到本征向量的正交性质,可得:E[II篓yohI|2 l=E[军手◇o-厂炒Dk卅=篓Ely20)】=篓口·Eb7’k,公式c3.·3,把式3.12和本征向量的定义合并,最终可以得到:r .1 ^,一1 .Ⅳ一l

E0x一爿12 J=∑a●五q=∑五 公式(3.14)因此,如果我们选择相关矩阵的,,z个最大的本征值对应的本质向量,则均方误差会极小,是N-m个极小本征值的总和,而且也可以看出,与m维向量中的任何其它的x逼近值相比,这也是极小的均方差。这就是K.L变换也成为主第三章基于改进光流法的人脸表情特征提取成份分析的原因。K-L变换的最优性得到了最好的信息压缩性质,并且提供了在Ⅳ个测量样本中提取聊个主要特征的工具。

对于大小为1Tl×rl的子区域图像,将其每列相连则构成一个大小为D=脚×咒维的列向量,这里的D就是图像的维数,即图像空间的维数。设肘是训练样本的数目,■为第/幅图像形成的向量,则所有训练样本的协方差矩阵为:Sr:兰k一∥胁一∥)r r=∑00一∥X_■一∥厂 j=l其中∥为训练样本的平均图像向量:p=面1§M xj

令:A=阮一∥,五一∥,…,%一∥】,则品=AAr,其维数为DxD。公式(3.15)公式(3.16)

根据K.L变换原理,我们所求的新空间即由矩阵州7’的非零特征值所对应的特征向量组成。直接计算DxD矩阵S,的特征值和正交归一特征向量运算量很大,根据奇异值分解原理,我们可以通过求解4r彳的特征值和特征向量来获得州r的特征值和特征向量,以此来达到简化运算的目的。令丑(i--1,2,...,r)为矩阵彳7彳的r个非零特征值,坼为A7A对应于五的特征向量,则州r的正交归一特征向量/./。为:

吩2击舢∥_1,2,..,) 公式(3.17)

这就是总离散度矩阵朋7’的特征向量。特征值按由大到小的顺序排列:^≥五≥…乃>0,其对应的特征向量为吩。这样,每一幅光流特征向量都可以投影到由U1,“:,…,以张成的子空间中。一般情况下,r的值仍然很大,为了减少维数,我们选取具有保留意义的前d个特征值所对应的特征向量,于是有:d∑名}≥口 公式(3.18)∑五

一般情况下取口=90%~99%。有了这样一个由“特征”组成的降维子空间,子区域的图像可以向其投影并获得一组坐标系数,这组系数表明了该图像在子空间的位置,从而可以作为人脸表情识别的依据,即特征向量。第三章基于改进光流法的人脸表情特征提取3.3.4运动特征序列的构造本文采用的特征向量构造过程如下:(1)首先,利用平行四边形法则,将提取的光流分解为水平分量‰和垂直分量唯,如图所示。

图3-7光流分量相位表示

(2)用所有组图像序列的所有帧作为训练基底,分别对U和1,方向进行降维。并把训练图像向降维后的子空间投影得到特征向量。为了表述的方便,我们以眼部和嘴部子区域为例,用符号巨(墨)和e,(R0分别表示第i帧眉眼部特征区域和嘴部特征区域特征向量。(3)将序列图像的序列特征组成一个特征流。如图所示。分别对六种表情的图像序列进行特征序列的提取。实验流程见图,图中列出了眼眉特征区域和嘴部特征区域的序列获取过程

43-

墨l局》43-互l如}43-毛《墨}<>瓦《岛)

囊l 1 2 3 n.2 n一1 n啜部子区竣l 2 3 lr2 n-1 n嘴部子区域图3-8时序特征序列获取过程23第三章基于改进光流法的人脸表情特征提取

本文选取上一节选定的子区域为对象。首先,对每个视频序列的每帧图像进行时间一空间上的平滑,用改进的光流算法提取特征区域的运动信息,得到垂直方向“分量和水平方向v分量的运动图像,然后针对每帧图像构造特征向量,进行降维;最后针对每个视频序列,将求得的所有帧的特征向量按照时间顺序串行连接起来,组成一个时序特征序列。这样,针对六个表情序列,我们可以得到六组时序特征序列。当前多数图像序列的人脸表情识别方法仅提取图像的某一类特征,导致特征参数不能全面地反映脸部表情信息,本文提出的是一种基于混合特征的图像序列表情识别方法。上文中已经计算得出了各个特征子区域的特征序列,并计算了各个特征子区域同人脸表情的相关性。根据属性相关性分析,以信息增益为权值,分别对各个子区域的特征序列进行加权求和得到融合的人脸表情特征系列,运用融合的人脸表情特征序列可以更好的反应人脸表情的运动信息,达到提高识别率的目的。3.4本章小结

本章首先介绍了基于AdaBoost的人脸检测算法。并通过SAD检测出眉眼和嘴等运动子区域。运用改进的光流法提取面部表情眉眼、嘴等子区域的运动特征,并将获得的运动信息表示成相位形式,对其降维,并构成特征向量,最后将获得各个子区域的特征向量按时间顺序组成时序特征流序列,并进行相关性分析,加权融合,求得最终特征序列。用该序列作为表征,在下一章的动态表情识别、理解过程中,进行分析与识别。最后给出了采用这些方法的实验及结果分析。24第四章基于隐马尔可夫模型的人脸表情识别第四章基于隐马尔可夫模型的人脸表情识别4.1隐马尔可夫模型描述

隐马尔可夫模型(Hidden Markov Model,HMM)是一种随机模型,具有十分丰富健壮的数学结构,适合非平稳随机序列,具有统计性,用来处理多个不同平稳状态过程中的随机转移。换而言之,HMM模型将观察值序列当作分段平稳过程处理,这些模式已经被广泛应用于语音视频的语音段建模m】。在表情识别领域HMM【45】也同样有着非常广泛的应用前景。HMM是一个双重随机过程,.由两部分组成:马尔可夫链和一般随机过程,其中有限状态Markov链,这是基本过程。描述状态的转移,用转移概率描述;一般随机过程用来描述状态和观察序列之间的统计对应关系,用观察值概率描述。因为观察者只能看到与每一状态相关联的随机函数的输出值,而Markov链的状态转换过程是不可观察的,因而称之为隐马尔可夫模型。一个隐马尔可夫模型可以由下列参数描述【删:

(.1)Ⅳ:马尔可夫链模型中的状态数。记Ⅳ个状态为口=确,02,...氏),记t时刻马尔可夫链所有状态为qi∈O,1At≤T,T为观察向量序列长度。(2)M:是不同观察符号的总数。如果矿是所有的观察符合集,则有V={巧,%,...%j。(3)万:初始状态概率分布。7/"=k,乃,...‰),其中巧=P(q。=6})1≤f≤Ⅳ。(4)A:在各种状态之间转移的概率矩阵,A=k扩凡。Ⅳ,其中

%=砘+l=e Ig,--o),l运用隐马尔可夫进行人脸表情的识别,实际上是解决三个基本问题的过程,它们是:

(1)评估问题。给定观察序列O=q02…Or和模型旯=0,B,万),计算P(OI允)。即给定模型和输出观察序列,如何计算从模型生成观察序列的概率。可以把它看作是评估一个模型和给定观察输出序列的匹配程度,由此可以用来在一系列候选对象中选取最佳的匹配。 ·(2)解码问题。给定观察序列D=D102…oT和模型名=0,B,万),求出某种有意义的情况下最优的相关状态序列Q=qlq:…q,。其可以理解为对输出观察的最佳“解释”,它试图揭示模型的隐藏部分,比如说查找“正确”的状态序列,在应用中,通常都使用一个优化策略来最大可能的解决这个问题。(3)学习问题。如何调整参数兄=(4,B,万),对于一个给定的观察序列0=D102…oT,使得Pro I旯)最大。它试图通过优化模型的参数来最佳地描述一个给定的观察序列是如何得来的。

4.3隐马尔可夫模型的构造4.3.1 HMM模型类型的选择

HMM模型可以分为遍历(ergodic)模型和左-右(1eft.right)模型,如图4.1所示,还有很多可能的变化和联合。所谓遍历模型就是经过有限步的转移后,系统能到达任何一个状态,即任何一个状态可由其它任意一个状态在有限步内到达;而左-右模型中,当时间增加时,状态的转移只能是从左到右进行或者停留在原来的地方,而不能返回到原来状态的情况。人脸表情图像序列是具有时间顺序且不可逆的过程,因此本文采用单步左.右HMM模型来描述,这一模型完全符合人的表情序列特点。HMM模型还可以分为离散观察值HMM模型和连续观察值HMM,在两者基础上还有半连续HMM模型。

连续密度HMM和离散HMM的区别就在于输出概率函数的形式不同,离散观察值HMM中每一个状态的输出概率是按照观察字符离散分布的,每一次状态转移时输出的字符是从一个有限的离散字符集中按照一定的离散概率分布选出的。26

第四章基于隐马尔可夫模型的人脸表情识别(a)状态遍历模型 (b)状态2步左一右模型图4一l HMM模型的类型

而连续观察值HMM连续状态转移时输出的值是连续的,不是有限的,因而不能用输出矩阵来表示输出概率。由于上一章中通过光流提取的特征向量(即本章观察值)不是有限的,实验的客观条件又不允许我们进行矢量的量化,所以选择连续HMM模型,直接在特征向量空间上分配概率,而不是基于矢量量化后的符号空间。连续观察值HMM模型性能的好坏取决于假定的概率分布是否符合实际情况。通常选取几个中心不同、离散度相同的高斯混合密度函数,即用多维高斯分布的加权和来近似观测矢量的真实概率分布。高斯混合模型(Gaussian MixtureModel)是一个常用的描述混合密度分布的模型。一个具有M个混合成分的Ⅳ维混合高斯模型,可以表示为:P(x.1 O):兰P“)Pk I五,朋,Ei】 公式(4.1)其中,%是一个Ⅳ维观察矢量,以乃)是每一个高斯成员的混合权值,其中M M

i=l,2,3…,M,且∑P@)=l,∑P[x。I丑,鸬,∑,】为D维高斯函数,即: f=l 1Pk I是,一,∑f)=—孺1(2 小 e印{-圭k一以厂∑一k一鸬))-)等lx LzJ 公式(4.2)

其中,以为均值,∑,为协方差矩阵。设共有肘个高斯分布函数,每个函数表示为丑,i=1,2,…M,其参数为岛和∑,。每一个函数以概率舷)加权后求和,得出Xn的概率分布。由公式可知,高斯混合模型由各均值矢量、协方差矩阵和混合分量的权值来确定,因此高斯混合模型参数臼表示为:秒=妒@l肛,∑f},i=l,_,.2..,M本文HMM模型连续观测概率函数表示为:公式(4.3)第四章基于隐马尔可夫模型的人脸表情识别n(o):兰咿N(o帕.%)

中等职业学校是中专吗

中等职业学校是中专吗

为观察向量,M为每个状态包括的高斯元个数,Ⅳ代表正态高斯密度函数,c¨一n U。分别为第J个状态的第f个混合高斯函数的权系数,均值矢"量和协方差矩阵。权系数勺满足如下约束∑q,=1.其中1≤』≤N。综上所述本 ,-】文采用高斯混合HMM模型。4 3 2 HMM模型状态数的确定

HMM模型中状态数目的选取也对表情识别至关重要,对每一种表情序列而言,一般要经历如圈4-2所示的变化过程.即中性.高点.中性。HMM模型的状态数目太少,则不能完整的描述表情变化的过程,而状态太多将增大表情识别的计算量,且对识别率的提高没有什么好处。故本文选取三种状态划分了三个状态的大致范围。圈4-2表情图像序列中表情的5个阶段以挫HMM的三个状态4.3 3改进的双层HMM结构

根据Ekman定义的六种基本表情,为每种表情设计一个带有返回的单步左.右HMM模型,代表六种不同表情的HMM构成我们所需要的人脸表情分类器,如图4—3所示。对每种HMM分别求P(。『4”≤cs6,概率最大HMM所代表的表情就是系统识别出的人脸表情。但是由于表情除了拥有以上六种基本类型外,还存在很多种不同表情的倾向和多种表情的融台问题,简单地归结为六类,使得有些表情很难准确地归为某一类,这就降低了系统识别的准确性。如,人脸上呈现的表情町能既接近高兴又接近吃惊是,通过低层ItMM获得P(0丑)和P(0也)第四章基于隐马尔可夫模型的人脸表情识别如果非常接近。由于e(oI兄)的求解过程中本身就存在方法上和计算上的误差,p(oI^)很可能等于即I^),从而使HMM模型很难准确地识别表情。为了使提高系统对面部细微运动的敏感性和识别复杂表情的能力,我们采用两层HMM构造人脸表情识别系统,如图4-4所示。高层HMM图中的编号含义如下:(1)Happy,

(2)Angry,(3)Surprise,(4)Disgust,(5)Fear,(6)Sad,(7)中性Neutral。将低层HMMs解码的六个状态序列组成高层HMM的一个六维观察向量。一H删appy降 模型2: :模穗2 一德y 模型3:p:棱登3 一s嘶se芦 模型4。 。模毽4

税顿序列。 入脸表情特 或察 瞎列 .1 Disgust l的概率 高层嗍征向曩 ’| 舢 I叫删P 模墅5。 。模璎5模型6。 。模型6

—叫 嗍r—啼

图4-3底层HMM结构高层删表情6的删瞄

图4-4表情识别系统结构

第四章基于隐马尔可夫模型的人脸表情识别4.4基于HMM的人脸表情分析

因为HMM适用于动态过程时间序列建模并具有强大的时序模式分类能力,所以适用于对人脸表情图像序列中表情的识别。识别过程一般分成两个步骤:第一步对表情图像序列进行分析,提取随时间变化的特征向量,将提取出的特征向量输入到模型中,对HMM进行训练,从而确定描述HMM的参数,这一步也称之为HMM的学习过程。第二步是识别过程,借助HMM参数,计算被测图像序列的特征矢量序列在各表情的HMM模型中的概率,选择概率最大的HMM模型所代表的表情作为识别图像序列所属的表情类别,从而完成人脸表情的识别。4.4.1基于MM/的HMM训练过程针对每种表情分别选取若干组表情图像序列作为实验数据,在同一组序列中的第一帧,用上一章的方法确定表情特征区域,并进行归一化和标准化。然后用改进的光流方法分别计算各个子区域的光流场,利用得到的水平方向和垂直方向上的光流分量构造特征向量,并将降维后的数据按时间顺序组合成时序特征序列。这些特征序列可以作为训练数据和测试数据,分别用来训练HMM模型和测试HMM的识别效果。训练HMM模型本文选用Baum.Wellch算法[47,48]。训练过程即HMM参数优化问题,也就是通过调整模型参数力=(4,B,JT),使得被i)aI练HMM模型的e(o I旯)最大,这是一个最大似然估计参数的过程。通常情况下,本文采用的算法可以得到局部最优解。

为了简洁地描述HMM迭代训练算法,定义变量:,;O)=e(q,=S D,力,其含义为:一条路径经过t阶段的S状态;已知模型旯的参数,模型生成有效的观察序列。从这些定义不难看出,,:(f)可以写成: 柏=锱2淼 公式(4.5)此外,定义变量毒(f,,)=盹=s,gf+l=s IO,兄),即联合事件概率,其含义为:一条路径经过t阶段的Si状态;经过t+l阶段的毛状态;已知模型彳的参数,模型生成有效的观察序列。计算缶(f,-,)要求的事件序列如图4.5所示。根据向前和向后变量的定义,毒(f,,)可以写成:第四章基于隐马尔可夫模型的人脸表情识别能胪一2美畿‰ …4引

a h,《(t+,》图4.5计算考G,/)过程N

变量乃(f)和参O,/)之间的关系为:r,O--∑善tO,,),对这两个变量在阶段t=l,=l到t=T-1求和,可以得到r—l

∑以O)=给定观察序列O,由状态s,发出的转移的期望值 t=lT-l

∑缶(f,/)=给定观察序列0,从状态i到状态_,状态转移的期望值 r=l按照前面的定义,对未知模型五参数进行合理估计的重估公式如下:石=在时刻t=l处于状态s,的期望频率(次数)=乃G)7.一1一∑缶O,/) a玎=掣=广 公式(4-7)∑以O)

f=lr一1

∑以D) 荔/@)=等争公式(4.8)∑以0)tEl

定义初始的模型为五=0,B,万),重估模型为五=白,否,孑)。在重估过程中的很重要的限制是HMM的随机限制,要求在每一步迭代的过程中被满足:

∑;,=1∑毛=1,1≤f≤Ⅳ∑云』依)=l,1sf5Ⅳ izl f=l i=l由于本文采用常用的从左.右单向HMM模型,所以初始概率可以取数值,具体取值为:万1--1,乃=o(2≤fsⅣ),在实际计算时不需要对它进行重估。假设定3】第四章基于隐马尔可夫模型的人脸表情识别

义彤O,,)为某个观察值序列在阶段t处于状态_,的对于第,个混合高斯元的输出概率,并将其称之为混合输出概率,即: 以0,0:掣×≠坐螋 ∑q(f施(f)∑‰Ⅳ(D,,一。,%。)由此可以得到下面的高斯概率密度函数的重估公式:K 7.

一 ∑∑∥q(,,,) Cjt=i号号广—一 ∑∑∑∥’O,m)K T一 ∑∑∥。’D,,p,’ ∥一=型孝】一——一 ∑∑∥’(,,,)

一 ∑K∑T∥’O,,如,)一一,xD,一一J Uji=型上L—1_r—一 ∑∑∥’U,,)kzl f=l公式(4.9)公式(4.10)公式(4.1 1)公式(4.12)

上文已经指出,Baum.Welch算法实际上是一种最大似然法,由于在训练过程中,不同训练样本对HMM参数估计的贡献是不相同的,基于这种情况,本文采用最大互信息法(maximum mutual information,MMI)149,50],通过定义一个更为合理的MMI准则函数对其进行优化。本文定义的MMI准则函数为【51l:M(人):ln舷ID):∑C∑K,lnP伉I研):∑C∑K,ln P(丸I尸(研I五))∑C P(九)P(研l屯) 公式(4-13)

其中:A=“,五,…,≈},C为HMM个数,研为模型丑的第k个训练样本。具体实现做法为:采用经典Baum-Welch算法估计HMM参数,把估计结果作为本文IMMI算法中HMM是参数的初始值,重新对参数进行估计。本文采用的改进的HMM训练算法充分利用了全部的训练样本,克服了传统Baum.Welch算法只能求得局部最优解的缺点,提升了HMM模型训练的准确性。在识别方面,改进的HMM训练算法不仅充分考虑了本类样本,还进一步利用了其他类样本,在训练样本不足时,引入了反向训练机制,使得HMM模型对于相似样本的识别更加准确。第四章基于隐马尔可夫模型的人脸表情识别4.4.2概率P(OI妁的计算

要对人脸表情序列进行解码,首先要对P(O A)进行计算。已知某个观察序列0=01q…Or依一定的概率对应于状态序列Q=吼q:…q,,其条件概率为:№IQ,旯)=ti。P(o,Igf,五)=%。@h:娩)…%,n) 公式(4-14)其中假定了在上述条件下各观察序列是相互独立的。模型旯所描述的随机过程出现状态序列Q的概率为:p(oI旯)=%。aqlg:口g:的…aq。舒 公式(4·15)在模型兄条件下D和Q同时发生的联合概率为:

№,Qf旯)=巾IQ,五)·尸pI五) 公式(4—16)对于每一个N状态的模型五,有NxT个长为丁状态序列,根据众所周知的概率规则,可以得到:p(ol五)=Ee(o,e,五)=∑乃。岛。(qk伽:‰:(破)…口,。行%,(研) 公式(4.17)

v形夹点qtqz…qr

为了在所有可能的模型中找到0p(ot5 )的最大值,必须对每个HMM模型进行计算

像p(OIA )那样直接计算概率的计算量很庞大,这是不可能实现的。 前后计算

法(Forward.backward Procedure )是有效的方法【521】。 那是p(0I允)的计

计算过程大大简化了。 定义前方变量q(f )=p ) d1d2…df,q,=Si I ),部分观察排列q02…Q

(截至t时)处于状态Si的概率意味着模型处于5次,路径处于f阶段的Si上。

观察值DlD2…Df为前一阶段转移; 观察值d在t阶段墨水状态下发射。

qG )的递归算法如下:

(1)初始化)口。 o )=乃包(1Z ),1iN

广N 1

)2)递归) q。 o(=I ) q ) fk(b ) q,l1tt1,ljN

Li=l j

_v

(3)结束: p ) ol五)=口,o ) ) ) ) ) ) ) )3) ) ) ) )结束: p ) ol五) ) ) ) 65 )

i=l

步骤(1)将正向概率初始化为阶段t=l状态的墨水与初始化观察值q的联合概况

率。 步骤)2)是前瞻性算法的核心,如图所示,用图说明阶段t 1的状态/可能性

根据阶段f的个可能状态I,1iJv,根据状态转移概率a。 会来的。 步骤

)3)对阶段的最后阶段r的前向变量求和。

第四章基于隐马尔可夫模型的人脸表情识别

时刻t t l

图4-6前方变量

口f 1I .j

图4.7计算流程图

为了计算前方概率,利用图中所示的计算流程,可以有效地进行以前的计算。 按分项

点对应于阶段f和状态s。 根据公式计算qO )。 ‘计算次数为N2T,t=l时,需要计算

%(f ) ) 1iN。 t=2,3,丁的情况下,q (计算f (In即可。 每个计算只包括

以前的值为at1。 g )、iv个节点中的每一个来自前一阶段位置的iv个相同节点

达之。 稍微考虑一下,就可以得到后变量屈曲(f )为即屈曲) f )=。 d,柑. q lq,=Si,2 )。 和%(f ) )。

同样,弯曲(f )递归计算方法的步骤如下。

(1)初始化屏幕【f】=1,1In

(2)递归:屈o )口岛) q,张,Ul t=T一1,T2, 1,l

出运动区域,在已确定的运动区域内进行光流场计算,并通过引入子区域进行相关性分析和div.curl样条函数对传统的特征提取算法进行改进。在表情识别方面,将最大互信息准则函数引入到表情的动态分析中,提高了识别的效率。在以上研究的基础上本文运用MATLAB 7.1和C群对以上算法进行了实现,用以验证本算法的有效性,.并对算法的进一步优化和改进提供数据上的支持。本文实验环境比较简单,只需要摄像头及其驱动程序、计算机系统以及MATLAB环境即可。其中摄像头是用来将客观世界中人的面部表情输入计算机完成数字化,即获取被识别图像序列的过程;而计算机系统则用来完成对输入图像序列进行预处理直至人脸检测、人脸面部特征提取,最后进行表情识别并输出识别的结果。(1)摄像头采用锐眼系列高清摄像头,主要技术指标如下:动态视频分辨率最高为2560*1920像素;在640*480分辨率下可达30帧/秒;色彩位数24bit;

软件插值1 30万象素;对焦范围3cm到无穷远;信噪比:优于48dB。

(2)计算机系统,图像特征提取与识别的算法计算量比较大,处理过程中占用的内存空间也非常惊人,过去的图像处理系统需要应用专用的工作站甚至专门的硬件设备来处理。但随着微型计算机软硬件技术的发展与成熟,现在个人电脑完全可以胜任一个小型乃至中型的图像系统的需求。本实验计算机系统配置如下:第五章表情识别系统的优化与分析

Intel2.8GHzCpm 5 1 2M内存;80G硬盘;Intei(R)82865G Graphics Controller显示卡。

(3)软件环境为Windows XP以及MATLAB7.1。Windows良好的人机交互界面很适合于图像处理与识别系统的应用。MATLAB是一种用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境。MATLAB是矩阵实验室(Matrix Laboratory)的简称,和Mathematical、Maple并称为三大数学软件。之所以选用MATLAB作为开发环境,是因为其具有强大

的科学计算及数据处理功能和出色的数字图像处理功能。MATLAB是一个包含大量计算算法的集合。其拥有600多个工程中要用到的数学运算函数,可以方便的实现用户所需的各种计算功能。函数中所使用的算法都是科研和工程计算中的最新研究成果,而前经过了各种优化和容错处理。5.2表情识别对象的选择

本文选用CMU的Cohn.Kanade人脸动态表情序列图像AU编码数据库和自行设计建立的表情图像序列为实验对象。Cohn.Kanade库包含200个对象的2000个图像序列,这些人都来自18岁N30岁的大学心理系的学生。其中15%为欧洲人(包括黑种人和白种人),3%为亚洲人或拉丁人种,65%为女性。这些人被要求做出23中面部展示,其中包括单个的AU和组合Au。表情序列以中性表情开始,每种表情展示之前有专家指导其按照FACS的标准进AU编码,并对各专家之间的编码数据加以验证。图像序列被数字化成640x480像素、8位深度及色彩图像。此表情库在Internet上可供下载的部分包括97个对象,共有487组图像序列,其中包括了黑种人、白种人和黄种人,以及女性和男性对象。由于实验的需要,本文也自行采集了一些人脸表情图像序列,以便在以后的处理中更加灵活地解决识别过程中遇到的问题,为以后的表情数据库的建立积累宝贵的经验。在数据采集过程中,需要考虑如下几个因素:描述的层次,拍摄的角度(姿态),被拍摄人员的差异。由于条件限制本文表情图像序列的采集对象只有男女各3人,年龄在20岁至26岁之间,采集时面部没有帽饰等遮挡,拍摄条件背景单一,光照均匀。每帧图像为640x480(pixel),24色。由于心理学研究表明随5’驯,表情持续时间一般为250毫秒至5秒之间,故本实验中采集的每段视频序列持续时间大约为3秒。拍摄表情序列时,要求实验对象的表情变化模式为:中性一高潮_÷中性。第五章表情识别系统的优化与分析

表情图像序列拍摄后,还需对其进行必要的处理,对不合格样本予以排除,才能为表情研究提供足够的背景材料。这些后期处理包括不同步姿态图像序列的同步、视频压缩,以及表情描述等。后期处理后不合格样本按照差错成因可以分为两类:(1)由于光源变化、摄像机参数变化、头部运动等因素造成样本不合格;(2)由于对表情理解不到位,或者在表情变化过程中受到干扰而导致表情没有按照既定进行变化造成样本不合格。

为了保证基本表情的标准性,对于各个实验对象都要求按照统一的模式进行表情变化,但是因为人的面部肌肉的差异,以及个人平常的生活习惯,在采集数据时,在表情的自然性和既定模式之间会出现一些矛盾,所以最后还会参照标准对表情序列进行再次筛选。5.3表情识别系统参数的优化与分析5.3.1状态数和混合项数的优化调整

HMM中状态对应着人脸表情发展的各个阶段,状态的选取对整个隐马尔可夫的识别效果起着至关重要的作用。选取的状态太少,识别效果不够好,而状态太多将极大的影响计算量,且对识别率的提高没什么好处。在第四章中,本文通过对人脸表情过程的特点人为的选定用于识别的隐马尔可夫模型的状态数为3,在本小节将通过实验的方式研究状态数对实验结果的影响,为了确定隐马尔可夫的状态数,我们选取六种表情的各个子区域特征序列作为实验对象。随机抽取50个人的面部表情序列,其中20个人的6种面部表情图像序列作为训练样本,其余30个人的面部表情图像序列作为测试样本。状态数对识别率的影响如表5.1所示。表5.1改变状态数时系统识别率状态数 1 2 3 4 5 6

识别率 66.19% 74.17% 84.45% 76.52% 85.30% 70.05%由表5.1可知,状态数为3和5时,算法的识别率最高,为了减少计算复杂性,在识别率相同的情况下我们选取状态数目较小的值,所以本实验所选取状态数为3。同样我们对于混合项数分别取值l至12,结果如表5.2,可以看出项数为4、5、8、12时系统的识别率最高且相差不大,为减少计算的复杂度,取项数为4。第五章表情识别系统的优化与分析表5.2改变混合项数时系统识别率混合项数 l 2 3 4 5 6

识别率 63.38% 70.89% 78.40% 84.45% 84.45% 81.20%混合项数 7 8 9 10 11 12识别率 78.40% 84.45% 76.52% 79% 75.58% 84.45%5.3.2隐马尔可夫层数对识别率的影响

考察本文提出的双层隐马尔可夫模型对于表情识别效果的影响。对于每一个表情选取若干表情图像序列作为训练样本和测试样本,对两种马尔可夫模型分别进行训练和识别。实验结果见表5.3。从实验结果来看,本文提出的HMM结构能够有效的识别表情,单层的总体识别率为84.45%,而双层的HMM的总体识别率为83.89%。比较单层HMM中各个不同实验对象的识别结果,悲伤和惊奇的识别效果最高,而恐惧的识别率较低,通过观察相应的人脸表情图像序列可以发现实验对象恐惧的表情变化不明显,恐惧表情脸部运动变化细微,相同结构的系统不能很好地提取其特征,从而造成识别率的下降,在双层HMM中也有类似的实验结果。从理论上来说双层EHMM的总体识别率应该比单层HMM高,然而实验结果中识别率却相差无几,造成这种现象的原因是因为双层HMM采用双层分类结构,较之单层HMM引入了多一层的分类结构,从而也引入了多一层的分类误差。在训练完全的情况下这个误差可以忽略不计,然而在本实验中由于每个实验对象的训练样本有限,不能充分有效地训练模型,从而造成了识别率的下降。同时也从一个侧面说明:对于脸部变化细微的表情,双层HMM能较好地识别6类基本表情。虽然双层HMM总体识别率较单层HMM有所下降,但是由于其对易混淆表情的细分处理,使得对于表情变化不大的个体识别能力提高,恐惧表情的识别率从单层66.67%提高到73.33%。此外,从各种不同表情的识别结果来看,单层HMM中悲伤和惊奇的识别效果明显高于其它几种表情,说明这两种表情较其它表情容易区分。双层HMM中各种表情的识别效果较为平均,说明引入双层结构确实有助于提高对易混淆表情的识别能力。第五章表情识别系统的优化与分析表5-3单双层隐马尔可走识别结果

愤怒 厌恶 恐惧 高* 悲伤 惊奇 识别率单层 愤怒厌恶恐惧高若悲伤惊奇

双层 愤怒 80 00%援恶恐惧 73 33%高*悲伤

惊奇 O 96 67%

5.3 3光流约束方程对于识别率的影响

本文从CMU的Cohn-Kanade人脸表情库中抽取的惊奇序列进行光流计算。惊奇表情表现的特征为眉毛抬起变高变弯、眼眉下的皮肤被拉伸、皱纹可能横跨额头,眼睛睁大、上眼皮太高、下眼皮下落、眼白可能在瞳孔的上边或下边露卅来,下颌下落嘴张开、唇和齿分开、但嘴部不紧张也不拉伸。图5—1中为CUM的Cohn—Kanade表情库中某个人惊奇表情序列中的第13、15帧图像.图分别采用传统光流法和本文所采用的改进后的光流法计算光流场。从计算结果可以看出,本文方法比较有效地提取出惊奇表情的运动特征,计算的光流场中干扰信息比较少而传统的Horn—Schunck光流法计算结果不理想,干扰信息过多。图5.1吃慷表情序列光流场41 蒸鳖

第五章表情识别系统的优化与分析

本节同样随机抽取50个人的面部表情序列,其中20个人的6种面部表情图像序列作为训练样本,其余30个人的面部表情图像序列作为测试样本,分别对传统光流法和改进后的光流法提取的特征序列进行表情识别测试,测试结果如表5.4、5.5所示。由表可知,改进算法的识别率有明显的提高。表5—4运用改进光流法系统识别率表情 愤怒 厌恶 恐惧 高兴 悲伤 惊奇 识别率愤怒 一24 1 O O 5 O 80.00%厌恶 5 25 0 0 O 0 83.33%恐惧 4 2 22 l 0 l 73.33%高兴 0 9 2l 0 0 O 70.00%悲伤 O 0 0 0 30 O 100.00%惊奇 1 0 O 0 0 29 96.67%表5.5运用传统光流法系统识别率表情 愤怒 厌恶 恐惧 高兴 悲伤 惊奇 识别率愤怒 23 O O 0 7 O 76.67%厌恶 6 24 0 0 O 0 80.00%恐惧 5 3 20 0 0 2 66.67%高兴 0 l l 0 19 O O 66.33%悲伤 0 0 0 1 29 O 96.67%惊奇 l O 0 1 0 28 93.33%5.4识别错误情况分析

由以上实验结果都可以看出系统对于悲伤、惊奇两类识别率较高,这主要是因为这两类表情有着较之于其它类别更明显的几何特征,如惊奇表情的眼睛睁得比较大,上眼皮被抬高,下眼皮下落,其嘴部也大幅张开,即表情发生时,脸部部件的位移比较大。与其相比,高兴和恐惧这两类识别率普遍较低,只有70%左右,主要是因为高兴和恐惧在表现是脸部器官有较多相似运动特征,如两者的嘴部部分都处于相似程度张开状态。在实验中发现,容易与高兴表情混淆的表情主要是恐惧,而影响恐惧类表情识别率的表情有高兴、厌恶和愤怒3类表情。42第五章表情议别系统的优化与分析5.5算法鲁棒性的检验

基于改进光流和HMM的人脸表情识别算法对标准的人脸动态表情数据库有很好的识别效果,那么对于一般的表情图像序列识别率又如何呢?本文应用

Cohn—Kanade人脸动态表情序列训练分类器,对Cohn.Kanade库和自行采集表情图像序列进行测试,考察本文提出的人脸表情识别算法对于表情识别的鲁棒性。测试结果如图5—2所示(拄状圈)。由对自行采集图像的识别率可知,本文所采用的算法具有较好的鲁棒性.对于采集的表情图像序列仍有很好的识别效果。∞扁g∞《§E*图5-2测试结果柱状幽∞

劬∞帅∞o

第六章总结与展望6.1研究工作总结第六章总结与展望

本论文研究的是图像序列的人脸表情识别问题,即要赋予计算机根据人脸表情图像序列辨别人脸所表达情感的能力。该项研究对于增加计算机的智能化和人性化,开发新型人机环境,以及推动心理学等学科发展有着重要的现实意义及重要的研究价值。尤其是几年来,人工智能、人机交互等问题受到了越来越多的关注,让机器了解人类、理解人类成为了迫切需要解决的问题。基于这一背景,论文主要做了一下几项工作:(1)在人脸表情特征提取方面,针对目前广泛使用的光流法计算耗时严重问题,提出了基于差分图像绝对值和(SAD)相结合的方法,通过计算SAD检测出运动区域,在已确定的运动区域内进行光流场计算,准确地计算出人脸运动信息。

(2)利用数据挖掘中的属性相关分析对标定人脸特征的多个子区域进行相关性分析,得到了子区域的区分度强弱顺序,便于在人脸表情识别过程中有选择的使用。

(3)由于面部表情运动是一个非刚体运动,容易产生形变,因此标准光流计算不准确。为此,本文通过引入div.curl样条函数作为扩展光流约束方程的附件约束条件,推导了非刚体光流算法,最后将该算法用于人脸表情特征提取。(4)在特征构造方面,针对当前多数图像序列的人脸表情识别方法仅提取图像的某一类特征,导致特征参数不能全面地反映脸部情感信息,提出一种基于混合特征的图像序列表情识别方法。分别提取各个子区域的变化特征然后对每种表情的贡献权值进行加权融合。(5)在序列表情图像识别方面,提出了一种基于隐马尔可夫模型的人脸表情识别方法。把人脸的表情序列分为3个状态,采用压缩后的光流向量作为观察向量,分别对应着HMM模型状态和观察值。并将最大互信息准则函数引入到表情的动态分析中,并相应地给出了识别算法。

第六章总结与展望6.2工作展望

人脸表情识别研究是情感计算研究的一个重要方面,它既是一个计算机领域的研究热点,同时也是一个极具挑战性的方向。本文对人脸表情的分析与识别做了一定的工作,同时,对于本课题来说,还有很多方面可以进一步研究:’

(1)对表情识别系统中各个阶段的方法进行改进。本文主要对表情特征提取的光流算法进行优化和改进,下一步可以对HMM拓扑结构和识别算计进行改良,使其更适应人脸表情识别的需要。此外,对系统各部分的关联性进行分析,对各部分方法进行合理的筛选和融合,以达到整体识别效率最高的结果。(2)加大对自然表情识别研究,本文选用CMU的cohn.kanada表情数据库为训练和识别的数据,而其表情的变化是在实验室状态下“人工合成”的表情,与自然表情有很大的区别。人的内心状态的变化是无常的,并且可能是细微的,对复杂表情和多种表情的混合状态的分析和研究将是研究者下一步努力的方向。(3)3D表情识别,在平面图像中,细微的表情变化由于通过了一个映射而变得更加细微,故很难识别出来。而三维表情的变化更加逼真,形象,随着技术的发展,三维表情识别将成为发展的重要方向。45

参考文献参考文献

I 1】Mehrabian A,Communication without Words,CommunicationTheory,2007:1 93『2]Darwin C,The Expression of Emotions in Animals and Man’Nueva York:Appleton.Traducci6n.1 872【3]Ekman P,Friesen W V,Jenkins J M,Constants Across Cultures in the Face andEmotion,Human Emotions:A Reader,1 998:63"-'72【4]Suwa M,Sugie N,Fujimora K,A Preliminary Note On PaRem Recognition ofHuman Emotional Expression,1 978,408"--4 1 0【5]Ekman P,Friesen W V,Hager J C,Facial Action Coding System:ConsultingPsychologists Press Palo Alto,CA,l 978【6]yang M H,Kriegman D J,Ahuja N,Detecting Faces in Images:A Survey,leeeT Pattern Anal,2002,24(1):34"-58

【7]Moon H,Phillips P J,Analysis of Pca—Based Face RecognitionAlgorithms,Empirical Evaluation Techniques in Computer Vision,1 998【8]Guo G,Dyer C R,Leaming From Examples in the Small Sample Case:FaceExpression Recognition,IEEE Transactions on Systems,Man,and Cybernetics,PartB,2005,35(3):477"-488【9]Lyons M J,Budynek J,Akamatsu S,Automatic Classification of Single FacialImages,Ieee T Pattern Anal,1999,21(12):1357"--1362

【l 0]Donato G,Bartlett M S,Hager J C,Classifying Facial Actions,Ieee T PatternAnal,1999,21(10):974"-'989

【1 1】Tian Y,Kanade T,Cohn J F,Evaluation of Gabor.Wavelet.Based FacialAction Unit Recognition in Image Sequences of Increasing Complexity:IEEEComputer Society Washington,DC,USA,2002,229"--'234【1 2]Wen Z,Huang T S,Capturing Subtle Facial Motions in 3D FaceTracking,2003,1 343--。l 350

【13]T志良,刘芳,王莉,基于计算机视觉的表情识别技术综述,计算机工程,2006,32(01 1):231"。233【1 4]Tian Y l,Kanade T,Cohn J

F,Recognizing Action Units for Facial ExpressionAnalysis,leee T Pattern Anal,200 1,23(2):97"--11 5【1 5]Otsuka T,Ohya J,Extracting Facial Motion Parameters by Tracking FeaturePoints,Lect Notes Comput Sci,l 999:433---444参考文献

【16】陈震,高满屯,图象光流场计算技术研究进展,中国图象图形学报:A辑,2002,7(005):4346-'439

【1 7]Mase K,Recognition of Facial Expression From Optical Flow,IEICEtransactions,1 99 1,74(1 0):3473"--3483【18】金辉,高文,人脸面部混合表情识别系统,计算机学报,2000,23(006):602~608

【l 9]Matsugu M,Mori K,Mitari Y,Subject Independent Facial ExpressionRecognition with Robust Face Detection Using a Convolutional NeuralNetwork,Neural Networks,2003,l 6(5-6):555"--559【20]Cohen I,Sebe N,Garg A,Facial Expression Recognition From VideoSequences:Temporal and Static Modeling,Comput Vis ImageUnd,2003,91(1—2):160"-187[2 1】Pantie M,Rothkrantz L,Facial Action Recognition for Facial ExpressionAnalysis From Static Face Images,IEEE Transactions on Systems,Man,andCybernetics,Part B,2004,34(3):1 449"-1 46 1

【22]Pantie M,Rothkrantz L,Expea System for Automatic Analysis of FacialExpressions,Image Vision Comput,2000,l 8(1 1):88 1一'905[23]Ma L,Khorasani K,Facial Expression Recognition Using ConstructiveFeedforward Neural Networks,IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics,2004,34(3):l 588-"l 595【24]Fasel B,Luettin J,Automatic Facial Expression Analysis:A Survey,PatternRecogn,2003,36(1):259---275

【25]Kobayashi H,Hara F,The Recognition of Basic Facial Expressions by NeuralNetwork,1 99 1,460"-466

【30]Pentland A,Moghaddam B,Stamer T,View-Based and Modular Eigenspacesfor Face Recognition,l 994,84"-9 1【3 l】Singer Y,Schapire R,Improved Boosting Algorithms UsingConfidence—Rated Predictions.1 998【32]Freund Y,Schapire R E,A Decision-Theoretic Generalization of On.Line47参考文献

Learning and an Application to Boosting:Springer,1 995,23【331龚卫国,桂祖宏,李正浩等,融合Adaboost和光流算法的视频人脸实

时检测,仪器仪表学报,2008,29(007):1398----1402【34]施家栋,王建中,王红茹,基于光流的人体运动实时检测方法,北京理工大学学报,2008,28(009):794"-'797【351吴丹,林学阉,人脸表情视频数据库的设计与实现,计算机工程与应用,2004.40(005):1 77~1 80【36]高文,陈熙霖,计算机视觉一算法与系统原理:北京:清华大学出版社,1998

[3 7]Horn B,Schunck B G,Determining Optical Flow,Computervision,1981,1 7:1 85---,203【38]Wildes R P,Amabile M J,Lanzillotto AM,Recovering Estimates of Fluid

Flow From Image Sequence Data,Comput Vis Image Und,2000,80(2):246-~266【39]Bereziat D,Herlin I,Younes L,A Generalized Optical Flow Constraint and itsPhysicalinterpretation,2000【40]杨国亮,王志良,王国江等,基于非刚体运动光流算法的面部表情识别,计算机科学,2007,34(003):213"-'215

【41]Han J,Kamber M,范明,数据挖掘概念与技术.北京:机械工业出版社,2001【42]李鹏,耿国华,周明全,数据挖掘技术在人脸识别中的应用,现代电子技术,2006,29(014):70"--72【43]赵力庄,高文,Eigenface的变维分类方法及其在表情识别中的应用,计算机学报,1 999,22(006):627一-632

【44]Rabiner L R,A Tutorial On Hidden Markov Models and SelectedApplications in Speech Recognition,P Ieee,1 989,77(2):257---,286[45]Samaria F,Young S,Hmm—Based Architecture for Face Identification,ImageVision Comput,l 994,1 2(8):537"--'543

【46]Rabiner L ILA Tutorial On Hidden Markov Models and SelectedApplications in Speech Recognition,P Ieee,1 989,77(2):257"-286【47]Baum L E,Petrie T,Soules G,A Maximization Technique Occurring in theStatistical Analysis of Probabilistic Functions of Markov Chains,The Annals ofMathematical Statistics.1 970:1 64---1 71【48]Baum L E,An Inequality and Associated Maximization Technique inStatistical Estimation for Probabilistic Functions of MarkovProcesses,Inequalities,l 972,3(1):l"---8

【49]Bahl L,Brown P,De Souza P,Maximum Mutual Information Estimation ofHidden MarkOV Model Parameters for Speech Recognition.1 986.参考文献

『50]Collins M,Discriminative Training Methods for Hidden Markov Models:Theory and Experiments with Perceptron Algorithms:Association for ComputationalLinguistics Morristown,NJ,USA,2002,l~8【5l】杨国亮,王志良,刘冀伟等,基于改进Mmi的Hmm训练算法及其在面部表情识别中的应用,北京科技大学学报,2007.29(004):432--'437[52]Baum L

E,Eagon J A,An Inequality with Applications to Statistical

Estimation for Probabilistic Functions of Markov Processes and to a Model forEcology,Bull.Amer.Math.Soc,1 967,73(360—363):2 1 2

【53]Viterbi A,Error Bounds for Convolutional Codes and an AsymptoticallyOptimum Decoding Algorithm,leee T Inform Theory,l967,13 (2):260至269【54】ForneyJrgd,The Viterbi Algorithm,P Ieee,1973,61 (3) 268,-278【55】汤丽君、邹北骞、王磊等基于Mhmms模型的表情识别研究、工程图学学报,2007年。 28(005 ) 56---61

【56】Panticm,Rothkrantz L,automaticanalysisoffacialexpressions:the stateof the Art leee T Pattern Anal,200049致谢致谢

论文完成之际,请天津大学计算机科学技术学院的各位老师,

领导和同学衷心感谢。 学院良好的工作环境和积极向上的学术氛围是本文的主题句子顺利完成的重要保证。「

本文的工作是在导师赵政教授的精心指导下完成的。 硕士研究生学习期培养的间,赵老师严谨的治学态度和科学的工作方法给了我很大的帮助和影响。 就在这里感谢他两年来对我的关心和指导。张亚、史伟博士等在算法设计和程序调试等方面给了我很大的帮助和指导。在此衷心感谢他们。

在实验室工作写论文的时候,陈娟娟、辛静、付学宇和张云洋的同学向我发表了论文文中研究提出了许多宝贵意见,在此向他们表示我的感谢之情。另外,也感谢我的家人。 他们的理解和支持是我能在学校专心学业。 不谢绝进取,在此祝所有关心和帮助我的人健康,生活幸福。基于改进光流和HMM的人脸表情识别研究作者:王宇纬学位授予单位:天津大学

正文链接: http://d.g.wanfang data.com.cn/thesis _ y 1677311.aspx

随机看看

NEW ARTICLE

标签

Tag