2019年5月24日,3522vip浦京集团张亮老师带领的“嵌入式技术与视觉处理研究中心”团队题为“Redundancy and Attention in Convolutional LSTM for Gesture Recognition”论文被中科院I区SCI期刊IEEE Transactions on Neural Networks and Learning Systems (IF=7.982) 录取。这是继该团队题为“Continuous Gesture Segmentation and Recognition Using 3DCNN and Convolutional LSTM”的论文被中科院II区SCI期刊IEEE Transactions on Multimedia (Volume: 21, Issue: 4, April 2019)发表,以及题为“Attention in Convolutional LSTM for Gesture Recognition”的论文被CCF A类会议The 31nd Conference on Neural Information Processing Systems (NIPS 2018) 发表后的又一杰作。
LSTM(Long Short-Term Memory)网络自1995年被提出以来,广泛应用于序列数据处理,此后各种变体被不断提出。通过将LSTM网络的输入到状态和状态到状态转换过程中的全连接替换为卷积结构,学术界提出了ConvLSTM(Convolutional LSTM)网络,目前该方法被广泛用于动作识别,手势识别等领域。
ConvLSTM尽管能够有效的进行序列信息的时空特征建模,但是截至目前为止,还未有对其参数冗余及计算冗余的理论分析。张亮老师团队通过构建不同网络变种,通过理论和实验结合,综合分析了ConvLSTM网络的冗余性和注意力机制。结果显示,该团队提出的ConvLSTM网络变种GatedConvLSTM可以在保证甚至提高网络效果的同时大大降低网络的参数量和计算量。相关成果Redundancy and Attention in Convolutional LSTM for Gesture Recognition已被中科院I区SCI期刊IEEE Transactions on Neural Networks and Learning Systems录用,该成果对于基于深度网络的序列信息建模具有重要的理论指导意义。
图1 构建的ConvLSTM网络变种
表1 不同ConvLSTM模型的复杂度对比
张亮老师所带领的3522vip浦京集团嵌入式技术与视觉处理研究中心团队近年来紧紧围绕软件工程学科发展方向,积极参与推动学院在智能化软件工程技术方向的发展,团队目前致力于动态智能化复杂系统关键技术研究,尤其是在手势手语识别、医学图像处理、智能化场景语义图构建、智能嵌入式机器视觉技术研究上取得了一定的成果。 2016年11月,该团队获3522vip浦京集团首届“三好三有”研究生导学团队荣誉称号,是全校范围内“师德师风好”、“师生关系好”、“培养模式好”、“有先进文化”、“有出色管理”、“有突出业绩”的6个团队之一。
近三年来,团队相关成果陆续发表在TNNLS、TMM、TIP、Neurocomputing、FGCS等顶级期刊和NIPS、ICCV、ICMR、ICPR、ICIP、IROS等顶级国际会议上,为努力提升西电国际学术影响力,助力学校双一流建设做出了积极贡献。同时,该团队自主研发的嵌入式智能视觉传感器已初步应用于工业视觉检测领域,形成了良好的经济效益和社会效益,积极推动了我校计算机科学学科的发展。
张亮老师主页:http://web.xidian.edu.cn/zhangliang/index.html