摘要:针对现有的多光谱行人检测算法存在多模态相互作用不足和融合方法缺乏远程依赖性, 导致在低光照背景下小尺度行人检测性能不足的问题, 提出了一种融合自适应双重注意力和轴向注意力Transformer的多光谱小尺度行人检测算法(adaptive dual attention and axial attention Transformer network, ADATNet). 采用双分支CSPDarknet53网络分别提取可见光和红外图像中的深度特征, 充分保留两种模态的特有信息. 设计两个特征交叉融合模块: 自适应双重注意力模块(adaptive dual attention module, ADAM)和轴向注意力Transformer特征增强(axial attention Transformer feature enhancement, ATFE)模块, 其中ADAM旨在强化模型对关键特征的关注, 同时抑制不相关或冗余的信息; ATFE关联多模态特征的位置编码来融合增强的特征, 在确保计算效率的同时捕获长距离依赖关系. 将融合后的特征输入至检测头以输出最终检测结果. 实验结果表明, ADATNet在KAIST数据集上的MR–2降低至7.08%, 同时在FLIR和LLVIP数据集上的mAP50分别达到82.8%和97.6%, 较基线方法提升4.7%和1.9%, 具有良好的检测性能.