基于Transformer与时空特征聚合的视频目标检测
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

青岛市科技惠民示范项目(23-2-8-smjk-20-nsh)


Video Object Detection Based on Transformer and Spatio-temporal Feature Aggregation
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    视频目标检测是计算机视觉领域中一项具有挑战性的任务. 由于视频目标受尺度多变、运动模糊等影响, 同时现有算法在特征聚合方面存在不足, 限制了检测性能提升. 为提高视频目标检测精度, 本文提出了一种基于Transformer的视频目标检测方法. 首先, 设计了一种基于时空可变形注意力的时空特征聚合层, 并将其融合到Transformer编码器中实现对目标帧与参考帧的多尺度时空特征聚合编码; 其次, 提出了一种通过特征-查询交互实现查询增强的方法, 在Transformer解码器中直接利用参考帧的时空特征来增强目标查询, 使目标查询可以充分学习全局时空信息. 该方法充分利用Transformer编码-解码架构的优势, 有效增强了目标帧特征与查询的时空信息表示能力. 在ImageNet VID和UA-DETRAC数据集上的实验结果显示, 该方法在基于ResNet-101骨干网络上的平均精度(mAP)可达到86.0%和90.9%.

    Abstract:

    Video object detection is a challenging task in the field of computer vision. Due to the influence of varying scales and motion blur in video objects, as well as the insufficient feature aggregation in existing algorithms, the improvement of detection performance is constrained. To enhance the accuracy of video object detection, this study proposes a method based on Transformer. First, this study designs a spatio-temporal feature aggregation layer based on spatio-temporal deformable attention and integrates it into the Transformer encoder to achieve multi-scale spatio-temporal feature aggregation encoding between the target frame and reference frames. Second, a method to enhance queries through feature-query interaction is proposed. Specifically, the spatio-temporal features of reference frames are directly utilized in the Transformer decoder to augment the target queries, allowing them to fully learn global spatio-temporal information. The method fully leverages the advantages of the Transformer encoder-decoder architecture, which effectively enhances the spatio-temporal representation capabilities of both target frame features and queries. Experimental results on the ImageNet VID and UA-DETRAC datasets demonstrate that the proposed method achieves an average precision (mAP) of 86.0% on the ImageNet VID dataset and 90.9% on the UA-DETRAC dataset, respectively, using a ResNet-101 backbone network.

    参考文献
    相似文献
    引证文献
引用本文

孟德晗,孙祥洪,关权,王文婧,秦玉华.基于Transformer与时空特征聚合的视频目标检测.计算机系统应用,2025,34(10):143-153

复制
分享
相关视频

文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2025-02-21
  • 最后修改日期:2025-03-14
  • 录用日期:
  • 在线发布日期: 2025-08-26
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62661041 传真: Email:csa@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号