摘要:视频目标检测是计算机视觉领域中一项具有挑战性的任务. 由于视频目标受尺度多变、运动模糊等影响, 同时现有算法在特征聚合方面存在不足, 限制了检测性能提升. 为提高视频目标检测精度, 本文提出了一种基于Transformer的视频目标检测方法. 首先, 设计了一种基于时空可变形注意力的时空特征聚合层, 并将其融合到Transformer编码器中实现对目标帧与参考帧的多尺度时空特征聚合编码; 其次, 提出了一种通过特征-查询交互实现查询增强的方法, 在Transformer解码器中直接利用参考帧的时空特征来增强目标查询, 使目标查询可以充分学习全局时空信息. 该方法充分利用Transformer编码-解码架构的优势, 有效增强了目标帧特征与查询的时空信息表示能力. 在ImageNet VID和UA-DETRAC数据集上的实验结果显示, 该方法在基于ResNet-101骨干网络上的平均精度(mAP)可达到86.0%和90.9%.