基于时空注意力深度网络的视角无关性骨架行为识别  被引量:4

Spatio-Temporal Attention Deep Network for Skeleton Based View-Invariant Human Action Recognition

在线阅读下载全文

作  者:丰艳[1] 李鸽 原春锋[2] 王传旭[1] Feng Yan;Li Ge;Yuan Chunfeng;Wang Chuanxu(School of Information Science&Technology,Qingdao University of Science&Technology,Qingdao 266061;National Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Sciences,Beijing 100190)

机构地区:[1]青岛科技大学信息科学技术学院,青岛266061 [2]中国科学院自动化研究所模式识别国家重点实验室,北京100190

出  处:《计算机辅助设计与图形学学报》2018年第12期2271-2277,共7页Journal of Computer-Aided Design & Computer Graphics

基  金:国家自然科学基金面上项目(61472196;61672305;11771188);山东省自然科学基金(ZR2015FM012)

摘  要:针对单视角骨架数据包含噪声且其特征完全依赖于该视角的问题,提出一种基于时空注意力的深度网络模型进行角度无关性骨架行为识别,该模型主要由特定视角子网和公共子网串联组成.首先通过特定视角子网学习每个视角序列的判别性特征,同时利用空域注意力和时域注意力模块分别重点关注关键关节点和关键帧;然后特定视角子网的输出特征作为公共子网的输入,通过公共子网进一步学习角度无关性特征;最后输出行为分类结果.为了保证网络的有效训练,提出一个正则化交叉熵损失函数来推动网络多模块共同学习.实验结果表明,该模型在目前最大的骨架数据集NTU数据集上识别准确率为76.3%.In view of the problems of noise and view dependency in single view skeleton data,a deep network based on spatio-temporal attention model is proposed for recognition of view-independent skeleton behavior.The deep network consists of multiple view-specific sub-networks and a common sub-network.Firstly,each view-specific sub-network extracts the view discriminative features,and it combines a spatial attention module and a temporal attention module to focus on key joints and key frames.Then,the discriminative features are used as the input of the common sub-network to learn the view-invariant features;Finally,the deep network outputs the action classification results.Experiments show that the model achieves 76.3%recognition accuracy on the current largest NTU action recognition dataset.

关 键 词:深度网络 时空注意力 角度无关性 骨架行为识别 

分 类 号:TP391.41[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象