摘要:针对复杂场景下视频异常检测中时空动态建模不充分与场景语义适配性不足的问题, 提出骨架引导的时空行为-场景对齐网络(spatio-temporal behavior-scene alignment network, ST-BSAN). 该模型通过双核心模块协同优化实现鲁棒检测: 动态时空注意力模块(dynamic spatio-temporal attention module, DSTAM)集成空间与时间自注意力, 突破传统固定图结构与局部时序建模限制, 自适应捕捉关节动态关联与长程时序突变; 行为-场景对齐模块(behavior-scene alignment module, BSAM)构建动态记忆库, 通过余弦相似度度量行为-场景语义一致性, 抑制跨场景误检. 同时引入扩散概率模型生成多样化正常行为假设, 以DSTAM输出特征为条件约束生成过程, 解决单峰预测对正常行为多样性覆盖不足的问题. 在HR-STC和UBnormal数据集上的实验显示, ST-BSAN的帧级AUC分别达79.9%和70.1%, 较基线方法提升2.3%和1.8%. 消融实验验证了DSTAM与BSAM的协同效应.