光流是用于估计两帧之间每个像素运动的方法。在计算机视觉领域中,这是一个至今仍未解决的难题。即使最好的方法也会受到物体的快速移动、遮挡、模糊等等问题的限制而无法作出准确的推算,但我们仍有方法不断改进。RAFT 是 ECCV2020 的 best paper,它将一种全新的模型结构引入到光流领域,是一个划时代意义的光流算法,也已经有若干篇论文基于它的结构来拓展。它的模型由三个部分组成:特征提取层、相关性分析层和一个迭代更新结构。
通过卷积神经网络从输入图片中提取特征向量,特征矩阵分辨率较低(解码器
于此同时使用一个上下文网络用于从第一张输入图片中提取特征,这个上下文网络的结构
得到两个图片的特征矩阵
通过对相关矩阵后两个维度进行卷积核尺寸为1、2、4、8的卷积池化,构建一个四层的金字塔
引入一个
假设当前光流估计
具体来说,
之后根据这个局部邻域从相关性张量中进行索引,对于金字塔的每一层使用
通过这种方式,使用不同金字塔层级上的局部邻域进行相关性体积的索引,可以获得更丰富的上下文信息,这在处理计算机视觉任务时可能是有益的。这样的操作通常在光流估计和其他涉及局部特征的任务中使用。