目前,以图像重建为代表的底层视觉任务因其实用性,受到学术界和工业界的广泛关注。近日,我司张健助理教授课题组的两篇论文“Dynamic Attentive Graph Learning for Image Restoration”,“Dense Deep Unfolding Network with 3D-CNN Prior for Snapshot Compressive Sensing”被国际计算机视觉顶级会议IEEE International Conference on Computer Vision(ICCV)收录。两篇论文分别在动态非局部注意力机制和可解释性重建网络领域展开研究。
张健助理教授课题组研究发现,传统的非局部注意力机制以一种全连接的方式建立全局感受野,这使得模型在收集有用信息的同时也引入了较多的干扰信息,因此认为如果模型能够自适应地选择图像中的非局部关联区域,则可以减少图像重建过程的干扰因素,提高图像重建质量。因此,张健助理教授课题组基于图神经网络在论文“Dynamic Attentive Graph Learning for Image Restoration”中提出了一种动态的可学习的非局部注意力机制。基本单元如下图所示:
图:基于图网络的动态非局部注意力模块
该模块以图像块为单元,自适应的为图片中的每个图像块分配非局部注意力区域,使得每个图像块都能够收集对自身重建最有利的信息。所设计的模型在多个图像重建任务上取得了较好的性能。
“Dense Deep Unfolding Network with 3D-CNN Prior for Snapshot Compressive Sensing”研究的内容是可解释性网络在视频压缩感知上的应用。视频压缩感知被广泛地应用在成像系统上,其目的是利用二维传感器来捕捉诸如视频亦或是光谱等高维信号。通过在成像系统中引入额外的硬件部件,高维信号被压缩成二维信号,随后运用重建算法完成二维信号到高维信号的重建,通过此类硬件加软件的形式,能够减少数据的存储空间和传输带宽。然而,现有的方法均存在一定的局限性,基于模型的方法需要迭代多次才能收敛,在速度上无法满足实时性,基于网络的方法又缺乏一定的可解释性,我司张健教授课题组的研究表明,基于深度展开的方法能够很好地利用两种方法的优势。该研究结果所设计的深度展开网络由优化压缩感知的半二次分裂算法(HQS)展开而成,深度展开网络的网络结构由数据模块和先验模块交替堆叠而成,其中引入3D卷积来提升深度展开网络对帧间相关性的表征能力;以及使用稠密特征融合技术减少信息在不同阶段之间传递引起的损失,以及帮助信息自适应地在不同阶段中传输。网络结构如下图所示:
图:基于HQS的深度展开网络
该课题组所设计的方法能够充分利用视频的帧间信息,并且在合成和真实数据上均取得了现阶段最佳的性能结果。
这两篇文章的第一作者分别是牟冲和武卓远,通讯作者是张健助理教授。两篇工作均由张健助理教授课题组独立完成,在算力方面得到了深圳鹏城实验室的“鹏城云脑”支持。
(供稿:张健助理教授课题组)