基于视觉的人行为理解综述 |
|
作者:101ms.com 文章来源:中国论文下载中心 点击数: 更新时间:2008-11-26 0:18:33  |
凌志刚 赵春晖 梁 彦 潘 泉 王 燕
摘 要:基于视觉的人体运动分析是计算机领域中备受关注的前沿方向之一,而人行为理解由于在智能监控、人机交互、虚拟现实和基于内容的视频检索等方面有着广泛的应用前景更是成为了未来研究的前瞻性方向之一。行为理解问题一般遵从如下基本过程:特征提取与运动表征;行为识别;高层行为与场景理解。着重从这三个方面逐一回顾了近年来人行为理解研究的发展现状和常用方法,并对当前该研究方向上亟待解决的问题和未来趋势作了较为详细的分析。
关键词:特征选择;运动表征;行为识别;高层行为与场景理解 Abstract:Human movement analysis from video sequences is an active research area in computer vision and human motion understanding is a future direction of prospective study as it has many potential application domains such as smart surveillance, human computer interface, virtual reality contendbased video indexing, etc. Human action understanding is generally dividedintothreefundamental subprocesses:feature extraction and motion representation,activity recognition and higher level activity and scene understanding.This paper analyzed the state of the art in human action understanding in detail from three fundamental processes. At the end,provided and analyzed some detailed discussions on vital problems and future directions in human action understanding.
Key words:feature extraction;motion representation;activity recognition;high level activity and scene understanding 0 引言 近年来,人运动视觉分析由于在智能监控[1]、高级人机交互[2]、虚拟现实[3]和基于内容的视频检索与解说[4,5]等方面有着广泛的应用前景和潜在的经济价值,激发了广大科研工作者及相关商家的浓厚兴趣,并成为了计算机领域中备受关注的前沿方向之一。目前,在世界范围内已经开展了大量的视觉分析研究项目。例如1997年美国国防高级研究项目署(Defense Advanced Research Projects Agency,DARPA)设立了视觉监控重大项目VSAM(visual surveillance and monitoring)[6],主要研究用于战场及普通民用场景监控的自动视频理解技术;实时视觉监控系统W4[7]不仅能够定位和分割出人的身体部分以及实现多人跟踪,而且能检测人是否携带物体等简单行为;1999年欧盟Framework5程序委员会设立重大项目ADVISOR系统[8],旨在开发一个公共交通(如地铁、机场)的安全管理系统,它覆盖了人群和个人的行为模式分析、人机交互等研究;2000年,DARPA又资助了HID(human identification at a distance)计划[9],其任务是开发多模式监控技术以实现远距离情况下人的检测、分类和识别,从而增强国防、民用等场所抵御恐怖袭击的能力;英国雷丁大学(University of Reading)[10]先后开展了REASON(robust methods for monitoring and understanding people in public spaces)、ETISE(evaluation of video scene understanding)、ISCAPS(integrated surveillance of crowded areas for public security)等项目以研究基于视觉的单人行为以及人与人之间的交互行为识别和场景理解等;此外还有能够对人进行跟踪与行为理解的实时系统Pfinder(person finder)[11],由欧盟和奥地利科学基金会共同资助的大型视频监控技术研究项目AVITRACK(aircraft surroundings, categorized vehicles & individuals tracking for apron’s activity model interpretation & check)[12]等。国内在该领域的研究起步相对要晚,但也有许多大学和研究机构如中国科学院自动化所模式识别国家重点实验室[13]、亚洲微软研究院[14]、北京大学视觉与听觉信息处理国家重点实验室[15]以及清华大学等对人视觉分析关键技术进行了深入的研究。在学术方面,一些国际权威期刊如PAMI、IP、IJCV、CVIU、IVC和重要的学术会议如CVPR、ICCV和ICPR等将智能化视频监控技术研究,尤其是人运动视觉分析作为主题内容之一。这些期刊为该领域的研究人员提供了更多的交流机会[1]。 人运动视觉分析是利用计算机技术从包含人的图像序列中检测、分类、跟踪人,并对其行为进行理解与描述。其中运动检测[16~18]、目标分类[19]、跟踪[20~23]属于视觉分析中的底层和中层处理部分(有兴趣的读者可参考文献[24~28]);而行为理解和描述是经过对运动对象的连续跟踪观察,分析识别目标当前处于哪种行为模式,并利用语言进行描述,以及判断该行为是否属于异常行为,其属于高层处理部分。当前,人行为理解与描述受到了广泛关注,发表在上述权威期刊和重要学术会议上的关于行为理解研究的论文正逐年增加。由图1可见,关于人行为理解研究的会议文章从2002年起急剧增加,并且到2005和2006年每年发表的会议论文均保持在70篇以上;期刊文章从2003年也开始大幅增加,尤其是2007年前5个月的文章数量就超过2005年全年的数量并接近2006年全年发表的数量。行为理解已经成为了未来研究的前瞻性方向之一。因为人运动视觉分析研究的最终目标就是要让计算机能像人那样通过视觉观察和理解世界[29],也就是通过视觉观察来分析和理解人类活动及场景信息等。行为理解是跟踪器中像素测度与行为描述之间的桥梁,是使计算机向更加人性化(从“looking at people”向“understanding people”)转变的关键所在。 通过对大量行为理解研究文献的整理发现:人行为理解研究一般遵从特征提取与运动表征、行为识别、高层行为与场景理解等几个基本过程[30~33](图2)。特征提取与运动表征是在对目标检测、分类和跟踪等底层和中层处理的基础上,从目标的运动信息中提取目标图像特征并用来表征目标运动状态;行为识别则是将输入序列中提取的运动特征与参考序列进行匹配,判断当前的动作处于哪种行为模型;高层行为与场景理解是结合行为发生的场景信息和相关领域知识,识别复杂行为,实现对事件和场景的理解。 随着人行为理解研究的不断发展和深入,对该领域的工作及进展作详细的回顾和分析显得很有必要。尽管Aggarwal[24]、Gavrila[25]、Moeslund[26]和Hu[27]等人对行为理解的方法有所阐述,但他们都是简单性地总结分析其方法,并没有对当前行为理解的研究现状进行系统分析。为了使广大相关科研人员能更好地了解和掌握行为理解技术发展的新动向,促进行为理解技术的发展,本文从行为理解的一般性处理框架出发,对目前人行为理解的算法研究现状、存在问题及发展趋势等进行详细介绍。 1 特征选择与运动表征 在人运动视觉分析中,由于视角的影响,同一种行为可能有不同的投影轨迹,而不同的行为可能有相同的投影轨迹。此外,光照变化、遮挡等现实环境因素也都给行为理解带来了很大困难。所以从原始视频数据中提取何种底层特征(如形状信息包括侧影、轮廓,运动信息包括位置、速度、方向等)描述人运动,以及如何选择充分有效的描述方法表征人运动状态并且能够在时间分辨率和维数上减少计算量成为行为理解的关键问题之一。 1.1 特征选择 表1为2000—2007年400多篇关于行为理解研究的权威期刊与重要国际会议文章中使用特征的统计分析表。由表1可见,目前行为理解研究所采用的特征主要有如下四种:外观形状特征、运动特征、时空特征、形状特征与运动特征两者的混合特征。其中,形状特征和运动特征是两种最常用、也是最主要的特征,其比例均保持在30%以上。另外,时空特征在行为理解研究中开始得到越来越广泛的使用。 基于外观形状特征[34~42]方法是先利用人体几何结构、轮廓或姿态以及区域颜色等信息来估计运动目标每时刻的静止姿态,然后用这些静止姿态序列来描述人体运动。外观形状特征容易获得且比较稳定,对纹理变化不敏感。基于运动特征方法[43~47]则没有利用有关人体结构的任何形状信息,而是直接从图像序列中提取出目标运动特性(时分)信息(如光流信息、运动方向、轨迹、位置、速度等)来表征运动状态。心理学研究表明,运动特征具有静态形状特征无法比拟的优势,即使是在远距离或恶劣的能见度情况下和最小运动系统——MLD(moving light display)[48],人能够根据运动模式轻松地区别和识别目标的运动类型,而形状特征在此种情况下往往变得模糊不清。但目前的计算机视觉方法很难准确地提取运动特征,所以,为了充分利用形状特征和运动特征各自的优势,研究人员采用两者的混合特征[49~51]识别人的行为。此外,时空特征[52~57]是近年来行为理解研究中使用比较多的特征。时空特征通过采用二维形状在一段时间内形成的空时立体或差分图像来描述行为,集合了形状和运动特征两者的优点。由于时空特征考虑了运动信息,也有学者将其归类于运动特征。 1.2 运动表征 人运动表征是指从人的运动序列中提取合适的特征数据来描述人的运动状态,这是人行为理解中至关重要的一步。依据所用的特征,运动表征方法可分成基于外观形状特征的和基于运动特征的。 1.2.1 基于外观形状特征的运动表征方法 依据是否利用人体形状模型的先验知识,基于外观形状的运动表征方法又可分成基于模型和基于外观特征(或基于视觉特征方法)两类。 基于模型方法的核心思想是首先建立描述空间中人体形状模型;然后利用目标的形态特征和关节位置等信息,将模型与输入图像序列在首帧匹配,在后续帧的跟踪过程中,定义损失函数描述输入图像数据与模型之间的近似关系,并采用人体运动参数限制条件和最优策略如最小平方[58]或随机采样策略如粒子滤波[59,60]等方法最小化损失函数来求得当前的运动姿态。常用的模型结构可以分为矩形框、棍棒形状[61]、二维轮廓[38]和3D立体模型[58]。基于模型方法集合了先验模型知识和当前输入,能够适合复杂行为的行为理解;但通常要求首先选择模型,初始化较难、 [1] [2] [3] [4] [5] [6] [7] [8] 下一页
|
| 文章录入:admin 责任编辑:admin |
|
上一篇文章: BS结构下的邮件系统的设计与开发
下一篇文章: 高压缩比网络课件的生成及传输系研究 |
| 【字体:小 大】【发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口】 |