摘要:现有基于多模态的图像异常检测方法存在以下不足: 在异常区域提取阶段易出现异常平滑现象, 同时在缺陷检测过程中面临细粒度感知能力不足与判别效率低下的问题, 最终导致整体检测性能下降. 为此, 提出多模态融合下的非对称师生网络图像异常检测模型(multimodal image anomaly detection with asymmetric teacher-student network, MATS), 包括跨模态异常放大器(CAA)、多扩张率局部注意力(MDLA)模块和FastKAN前馈网络. 首先, 跨模态放大器通过扩展与压缩辅助特征, 与目标特征融合后放大异常区域并减少噪声, 解决后续检测时的异常平滑问题. 随后, MDLA模块通过不同扩张率卷积并结合局部注意力提取多尺度特征以提高异常区域细粒度感知能力, 并结合归一化流(NF)生成正常样本的条件概率分布; FastKAN模块通过更轻量化的特征处理以实现高效判别异常, 生成与教师输出一致的特征图, 用于逐像素距离计算以评估异常程度. 在测试阶段, 教师与学生网络输出差异较大的区域被判断为异常. 在公开的工业图像数据集MVTec AD和MVTec 3D-AD上的实验结果表明, 该方法在多模态异常检测和定位方面具有先进的性能.