- 易迪拓培训,专注于微波、射频、天线设计工程师的培养
基于TLD改进的自动人体检测与实时跟踪算法
摘 要: 首先提出一种运动人体检测算法,通过图像序列识别出运动人体作为跟踪目标,然后在TLD算法中引入目标轨迹预测,利用该信息来辅助空间搜索。运动人体检测算法首先采用背景减除和边缘检测算法获得完整目标轮廓,然后使用HU仿射不变矩检测出运动人体,该特征能适应目标旋转、尺度、仿射等变化场合。为提高跟踪实时性,在TLD框架中引入卡尔曼轨迹预测,并先在预测位置邻域搜索。实验结果表明,该运动人体检测算法能够在静态和动态背景下准确地检测出运动人体;改进后的TLD算法与原始算法相比,在准确率不降低情况下,降低了计算复杂度。
关键词: 背景减除;人体检测;边缘检测;卡尔曼滤波器;TLD
0 引言
近几年,行人目标跟踪成为计算机视觉领域的研究热点之一,在智能监控、无人驾驶等领域有着重要应用。由于姿态变化、局部遮挡等问题未被彻底解决,该方向仍然具有很大的挑战性。
对于目标检测,DALAL N和TRIGGS B[1]提出一种HOG特征结合支持向量机(SVM)进行分类方法,具有较高准确率,但仅适用于无遮挡且姿态变化较小的场景。FELZENSZWALB P等人提出Deformable Part Models(DPM)[2-3]算法,用根及部件模型描述目标,能够解决姿态变化和遮挡,但其计算复杂度高,实时性有待改善。由KALAL Z等人[4]提出的TLD跟踪算法将跟踪与检测分离并融合二者结果,在线更新模板,解决目标重入且鲁棒性较好,但漂移和遮挡问题未解决,仅适用于目标姿态渐变较慢的场景。
本文首先提出一种运动人体检测算法初始化跟踪目标,然后在TLD框架中引入卡尔曼滤波器[5]进行目标位置预测,优先在预测位置邻域内搜索,从而减少搜索空间。
1 运动人体检测
本文首先使用混合高斯模型(GMM)[6]获得前景运动目标,然后提取轮廓区域特征进行目标判断。处理流程如图1所示。
按照图1的流程,在使用GMM处理后,仅寻找满足面积和宽高比(0.4)且符合上下文空间关系的轮廓,结果如图2所示。
1.1 获得完整轮廓
为去掉影子干扰,对目标区域使用中值滤波、开闭操作、Canny[7]检测,对图2处理后,结果如图3所示。
1.2 计算目标轮廓特征
为适应目标轮廓各种变化,选取基于HU不变矩[8]得到F1、F3特征,用于判断是否为人体。
其中,。
本文选择7张人体(包括正面、背面、侧面、不同尺度)与7张非人体图做轮廓特征对比,结果如图4所示,其中横坐标为样本编号,纵坐标为其特征值。
图4中直线代表该特征均值,人体轮廓特征为图中悬浮最上折线,另一条为非人体特征。从图4中看到人体轮廓F1、F3特征值集中于某个区间,与非人体轮廓特征值有明显差异,本文选取其均值作为判断条件。
2 轨迹预测
结合TLD给出的目标位置和图像采样频率,卡尔曼滤波器可预测出目标下一个位置,在下一帧TLD先在预测位置邻域进行搜索,从而避免无用搜索。具体步骤如下:
(1)用本文提出的目标检测算法获得目标初始位置,并初始化TLD和卡尔曼模型;
(2)利用卡尔曼预测法首先在目标邻域内搜索,再进行其他区域搜索;
(3)判断TLD目标检测是否有效,无效进入步骤(4),有效进入步骤(2)迭代计算;
(4)进行全局搜索,判断是否为目标,如果是进入步骤(2)进行迭代,否则继续本步骤。
3 实验结果与分析
本文在硬件参数为4 GB内存、CPU 3.2 GHz频率下进行实验。首先使用运动人体检测算法确定跟踪目标,如图5所示。
从图5中可以看出,该方法正确检测出人体目标,使用矩形框标出并作为目标。
初始化目标后,使用TLD开始跟踪。为测试改进前后搜索空间减少效果,采集静态和动态背景下各三种场景。场景1、2、3、4、5、6分别为200、430、1001、456、495、859帧,且都有640×480和1 280×960两个尺寸,如表1和表2所示。
在静态背景下,通过引入非线性卡尔曼滤波器进行轨迹预测,通过表1可以看出,其检测时间缩短,原因是引入卡尔曼进行位置预测,而两帧之间目标运动幅度较小,因此能够正确预测,避免了全局空间搜索。在动态背景摄像头运动轨迹较为平滑的情况下,仍然能正确预测目标下一刻位置,如场景4、5;但当摄像头运动较为剧烈时则失效,如场景6。这是由于非线性卡尔曼无法处理这种高度非线性情况。
4 结论
本文提出了一种运动人体检测算法用于自动获得跟踪目标,然后在TLD中引入目标轨迹预测指导目标空间搜索,实验证明该思想能够减少搜索空间。运动人体检测通过结合Canny边缘检测和混合高斯模型提取较完整的目标轮廓,使用HU仿射不变矩检测出人体目标,该方法只需几帧即可自动找到人体目标,适用于静态和动态背景下单一运动目标实时场景。实验结论:在摄像头静止和缓慢运动情况下,该卡尔曼预测法能够减少搜索空间;在摄像头运动较为剧烈情况下,则需要将摄像头运动信息加入卡尔曼模型,以正确预测目标位置。
参考文献
[1] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[J]. Computer Vision and Pattern Recognition (CVPR), 2005(1):886-893.
[2] FELZENSZWALB P, MCALLESTER D, RAMANAN D.A discriminatively trained, multiscale, deformable part model[C]. Computer Vision and Pattern Recognition(CVPR),2008:1-8.
[3] FELZENSZWALB P, GIRSHICK R, MCALLESTER D, et al .Object detection with discriminatively trained part-based models[J]. Pattern Analysis and Machine Intelligence, 2010,32(9):1627-1645.
[4] KALAL Z, MIKOLAJCZYK K, MATAS J, et al. Tracking-Learning-detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011,34(7):1409-1422.
[5] WENG S,KUO C, TU S.Video object tracking using adaptive Kalman filter[J]. Journal of Visual Communication and Image Representation, 2006(17):1190-1208.
[6] 岳佳,王士同.双重高斯混合模型的EM算法的聚类问题研究[J].计算机仿真,2007,24(11):110-113.
[7] CANNY J. A computational approach to edge detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1986,8(6):679-698.
[8] M. K. H.Visual pattern recognition by moment invariants[J]. IRE Transactions on Information Theory,1962,8(2):179-187.