Paper:
Anthor: Yue Zhao, Yuanjun Xiong, and Dahua Lin (SenseTime, CUHK, Amazon Rekognition)
这是商汤在2018 CVPR上第二篇关于从RGB生成光流相关的工作了。第一篇出门左转看我的另一篇博客:
action recognition的现有方法常常将appearance和motion的建模分开进行,这时候受到光流计算的影响速度会很慢。
在本文中我们将直接从视频帧中获取dynamics的信息,而不需要计算光流。具体来说,学到的representation包括3个部分,分别表示 static appearance, apparent motion,appearance changes。我们引入了3D pooling, cost volume processing和warped feature differences分别用于提取上述3部分的特征。这3个模块在整个网络中构成了3个分支,他们共享底层特征并且可以end-to-end地进行学习。
这个branch主要是用来提取整个场景的静态表观特征的。它的结构主要包括2D conv,2D pooling和temporal pooling。
temporal pooling layer用在这里是为了使特征更加鲁邦,因为一帧的特征可能受到运动模糊,相机抖动等的影响,通过temporal pooling把多帧的特征pool到一起则可以比较好地解决这一问题。
这边没有使用3D conv,因为这里主要是为了捕获在时间上stable的特征,所以只在spatial的维度做特征提取,另外3D conv的参数量也更大,学起来更难。
这个branch表示的是视频帧上特征点的空间位移。在别的工作中,appearance motion通常是通过密集光流场来表示的,但是光流的计算通常耗时很大。因此我们想出了一种替代的方案,即直接将motion representation表示成cost volume。
cost volume的计算如下图,在相邻帧的low-level feature map上计算cost volume。给定一对feature map Ft F t 和 Ft+1 F t + 1 ,我们可以构建一个4维的cost volume Ct∈ℝH∗W∗(2ΔH+1)∗(2ΔW+1) C t ∈ R H ∗ W ∗ ( 2 Δ H + 1 ) ∗ ( 2 Δ W + 1 ) ,也就是说feature map上的每一个点都和其领域 (2ΔH
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- yrrf.cn 版权所有 赣ICP备2024042794号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务