2026, 35(2):1-22. DOI: 10.15888/j.cnki.csa.010058 CSTR: 32024.14.csa.010058
摘要:随着大语言模型(large language model, LLM)的快速发展, 其在推荐系统可解释性方面的应用成为研究热点. 本文系统地综述了LLM在推荐系统可解释性研究中的进展, 从领域研究现状、评价指标、数据集到应用场景进行了全面梳理. 从技术角度将现有研究分为基于LLM的推荐系统和LLM辅助型推荐系统, 并依据是否需要微调对此分类进一步细分. 在评价指标方面, 总结了人工评价与自动评价指标, 其中自动评价指标又包括传统指标、结合LLM指标以及拓展指标. 此外, 本文还整理了公开和私有数据集的使用情况, 强调了评论数据在可解释推荐中的重要性. 最后, 探讨了LLM在多个领域推荐系统可解释性方面的实际应用, 并分析了当前研究面临的挑战及未来可行的研究方向.
2026, 35(2):23-39. DOI: 10.15888/j.cnki.csa.010061 CSTR: 32024.14.csa.010061
摘要:皮肤癌是一种常见的严重癌症, 其中黑色素瘤致死率高, 而早期发现并治疗可有效提升皮肤癌患者生存率. 皮肤癌的皮肤镜图像、宏观图像、组织病理图像都是用来进行皮肤癌诊断的重要手段, 使用人工智能技术可有效提升对这3种图像分类的效率并降低诊断成本. 而深度学习因其具有自动提取特征的特性, 更加适应于细节丰富的皮肤癌图像分类任务. 本文综述了对皮肤癌诊断中3种常用图像进行分类任务的相关研究, 详细分析了3种图像因其图像特质不同而存在的不同的技术侧重点, 并对临床落地面临的困难进行了针对性分析. 最后, 对未来的发展与挑战进行了展望, 以进一步推动人工智能在皮肤癌诊断的广泛应用.
2026, 35(2):40-52. DOI: 10.15888/j.cnki.csa.010075 CSTR: 32024.14.csa.010075
摘要:针对车载边缘计算(vehicular edge computing, VEC)中路侧单元(road side unit, RSU)资源受限和高负载的难题, 以及现有的任务卸载优化方案局限于降低时延或能耗, 忽视了边缘节点所面临的安全问题, 提出一种基于信任感知和近端策略优化算法(PPO)的任务卸载方案. 首先, 构建VEC网络架构, 利用周围空闲车辆的计算资源, 将任务在本地执行或卸载至RSU、空闲服务车辆进行计算处理, 以降低系统整体时延与能耗. 其次, 构建一种基于多源赋权和奖惩机制的动态反馈信任评估模型, 实现对边缘节点可信度的量化评估. 最后, 利用基于深度强化学习的PPO算法对任务卸载策略进行优化. 实验结果表明, 相较于DQN、D3QN和TASACO算法, 所提方案具有更好的收敛性和稳定性, 而且在任务执行时延和能耗等方面优于现有方案.
2026, 35(2):53-64. DOI: 10.15888/j.cnki.csa.010045 CSTR: 32024.14.csa.010045
摘要:现有基于多模态的图像异常检测方法存在以下不足: 在异常区域提取阶段易出现异常平滑现象, 同时在缺陷检测过程中面临细粒度感知能力不足与判别效率低下的问题, 最终导致整体检测性能下降. 为此, 提出多模态融合下的非对称师生网络图像异常检测模型(multimodal image anomaly detection with asymmetric teacher-student network, MATS), 包括跨模态异常放大器(CAA)、多扩张率局部注意力(MDLA)模块和FastKAN前馈网络. 首先, 跨模态放大器通过扩展与压缩辅助特征, 与目标特征融合后放大异常区域并减少噪声, 解决后续检测时的异常平滑问题. 随后, MDLA模块通过不同扩张率卷积并结合局部注意力提取多尺度特征以提高异常区域细粒度感知能力, 并结合归一化流(NF)生成正常样本的条件概率分布; FastKAN模块通过更轻量化的特征处理以实现高效判别异常, 生成与教师输出一致的特征图, 用于逐像素距离计算以评估异常程度. 在测试阶段, 教师与学生网络输出差异较大的区域被判断为异常. 在公开的工业图像数据集MVTec AD和MVTec 3D-AD上的实验结果表明, 该方法在多模态异常检测和定位方面具有先进的性能.
2026, 35(2):65-75. DOI: 10.15888/j.cnki.csa.010071 CSTR: 32024.14.csa.010071
摘要:临近降水预报是一项重要的时空序列预测任务, 在农业、交通等诸多气象相关领域有广泛应用. 基于深度学习的雷达回波外推是目前常用的临近预报方法, 然而现有方法在捕捉雷达回波的复杂时空模式时存在局限. 随着时间推移这些方法的性能显著下降, 难以准确预测降水的时空演变. 本文提出一种融合全局模式和局部变化的GloCal-Net模型. 该模型基于混合Mamba-Transformer专家的U-Net架构, 旨在通过优化特征提取机制, 增强对雷达回波序列复杂模式的捕捉能力. 为验证所提出的模型, 在九江真实雷达数据集上进行了对比实验和消融实验. 与主流深度学习模型相比, 本文提出的模型在2 h外推任务中, Heidke技能得分表现相当, 关键成功指数提升了4.19%, 分别达到0.36和0.29; 学习感知图像块相似性指标降低了3.70%, 降至0.31; 结构相似性指标提高了2.07%, 达到72.37%. 这些实验结果表明, GloCal-Net在多个关键性能指标上均有所改善, 同时验证了各部分的有效性.
2026, 35(2):76-91. DOI: 10.15888/j.cnki.csa.010063 CSTR: 32024.14.csa.010063
摘要:以ChatGPT、DeepSeek为代表的大语言模型(简称大模型)高速发展, 在各种任务中得到广泛使用, 如文本生成、智能助理等. 但这些大模型也面临着严峻的隐私安全风险. 特别地, 在医疗、金融等高安全需求的场景中, 模型窃取与数据隐私泄露等威胁往往是阻碍大模型应用的重要因素. 现有针对大模型推理保护的安全方案通常存在一些局限性, 或缺少对推理计算过程的运行时保护, 或因计算与通信的高昂代价而面临实用性挑战. 机密计算能够基于可信执行环境(TEE)硬件构建安全推理环境, 是实现大语言模型安全推理的一种实用且有效的安全技术. 由此, 本文提出了一种基于机密计算的大语言模型安全推理应用方案, 通过远程证明确保推理计算环境、模型权重参数和模型镜像文件的完整性, 采用基于TEE硬件的机密互联实现大模型推理流量的加密保护, 通过隔离不同用户的推理上下文等方式在多用户场景中保护提示词隐私. 该方案对大语言模型推理的全过程、全链路进行安全保护, 同时对运行环境进行完整性验证, 从而实现高效安全的机密大语言模型推理. 此外, 本文基于异构TEE服务器(SEV和CSV)平台实现了一个原型系统, 并对系统的安全性和性能进行了评估. 结果表明, 在实现预期安全目标的同时, 本文方案引入的性能损耗理论上不超过原生AI模型推理开销的1%, 实际应用中这种差异可以忽略不计.
2026, 35(2):92-102. DOI: 10.15888/j.cnki.csa.010088 CSTR: 32024.14.csa.010088
摘要:人脸表情识别在日常生活中得到了越来越广泛的应用. 针对人脸表情识别模型参数复杂、易受背景干扰和高延迟等问题, 本文提出了一种边云协同融合高效通道注意力(efficient channel attention, ECA)机制的轻量化表情识别方法. 在云端部署通用模型并利用大规模数据集进行训练, 同时在边缘端迁移学习云端模型的浅层卷积层作为特征提取器, 提升特征提取和泛化能力, 降低过拟合风险. 在此基础上, 引入ECA机制, 使模型聚焦于人脸表情特征区域、抑制无用信息, 进一步提升识别准确性与鲁棒性; 此外, 采用深度可分离卷积, 有效减少模型参数量, 同时保证表达能力, 显著降低边缘设备的计算资源消耗. 最终, 在边缘端完成识别任务, 减少数据传输开销并提升响应速度. 实验结果表明, 该方法在CK+数据集和FER2013数据集上的准确率分别达到了98.76%和71.93%. 与传统方法相比, 在保证较高准确率的同时, 显著减少了模型参数量并降低了识别时延, 验证了该方法在边缘端表情识别任务中的准确性与高效性.
2026, 35(2):103-122. DOI: 10.15888/j.cnki.csa.010070 CSTR: 32024.14.csa.010070
摘要:针对动态环境给同步定位与建图(SLAM)带来的挑战, 本文提出一种融合激光雷达、相机和惯性测量单元(IMU)的检测优先紧耦合激光-视觉-惯性SLAM系统. 首先, 通过图像与点云信息融合获取带语义标签的点云聚类结果; 其次, 应用跟踪算法获取目标的运动状态信息; 继而利用被追踪的动态目标剔除冗余特征点; 最终采用因子图联合优化IMU预积分量, 并实现系统内激光里程计与视觉里程计的紧耦合. 为验证所提SLAM框架性能, 在公开数据集(KITTI与UrbanNav)和实际场景数据上进行了测试. 实验结果表明: 在公开数据集的高动态场景和普通场景中, 相较于LeGO-LOAM、LIO-SAM和LVI-SAM算法, 本算法的均方根误差(RMSE)分别降低了44.56% (4.47 m)和4.15% (4.62 m). 通过实际场景数据测试, 该算法有效降低了动态物体对地图构建的直接影响.
2026, 35(2):123-131. DOI: 10.15888/j.cnki.csa.010106 CSTR: 32024.14.csa.010106
摘要:晶圆级芯片凭借更高的集成密度、更优的互连特性和更低的功耗, 已成为“后摩尔时代”集成电路领域未来的关键技术方向. 然而, 传统仿真方法在应对晶圆级芯片仿真时, 存在仿真效率低、跨芯粒通信建模缺失以及异构计算资源处理能力不足等问题. 针对晶圆级芯片架构的仿真需求, 本文提出了一种基于算子与芯粒协同的晶圆级芯片架构并行离散仿真方法, 通过算子与芯粒的协同并行离散仿真有效提高了系统的仿真效率. 首先, 构建基础的标准化芯粒库和算子库, 为架构仿真提供基础支持. 然后, 基于算子库将复杂应用计算任务拆分为多个算子, 协同多个芯粒实现并行离散仿真, 并结合通信模型确保了系统仿真结果的准确性. 仿真结果表明, 相对于常规的基于SST和Gem5仿真方法, 所提出的系统仿真方法不仅支持异构芯粒间通信的仿真建模, 而且在平均精度损失小于1.3%的情况下, 实现了4.8倍以上平均速度提升, 显著提升了晶圆级芯片系统的仿真效率.
2026, 35(2):132-140. DOI: 10.15888/j.cnki.csa.010059 CSTR: 32024.14.csa.010059
摘要:针对岩石薄片图像超分辨率重建过程中因纹理复杂导致现有重建方法效果不理想的问题, 提出面向岩石薄片图像的超分辨率网络模型(super-resolution denoising diffusion probability model of rock slice, rsDDPMSR). 针对传统上采样方法往往会导致伪影和低分辨率图像先验信息利用不充分的问题提出分层特征增强网络(layered feature enhancement network, LFE-Net), 利用双通路网络对平稳小波变换分解后的高频与低频分量进行分层特征增强. 为引导扩散模型的生成方向并提供丰富先验信息, 将经过LFE-Net增强后的低分辨率特征与目标高分辨率加噪图像特征通道拼接作为扩散模型的条件输入. 在U-Net的基础上设计了双编码器多尺度噪声预测网络(ACA-U-Net)有效处理岩石薄片多尺度信息并在跳跃连接中引入时间感知的自适应交叉注意力机制适配扩散模型不同去噪阶段的特征分布变化增强模型对关键区域的关注程度, 有效提升图像重建细节. 实验结果表明, rsDDPMSR在2×、4×、8×放大倍数下, 峰值信噪比(PSNR)和结构相似度(SSIM)相比于CAMixerSR、SDFlow、IDM和SR3等主流重建方法具有更优的重建效果.
2026, 35(2):141-153. DOI: 10.15888/j.cnki.csa.010083 CSTR: 32024.14.csa.010083
摘要:近年来, 联邦学习(federated learning, FL)作为一种分布式机器学习范式, 因其能够在保护数据隐私的同时实现模型训练, 已在智能医疗、金融服务、物联网以及车联网等领域得到广泛应用. 在车联网(IoV)环境中, 由于节点高度动态和车辆资源的异构性, 并非所有客户端都适合参与联邦训练, 因此高效且鲁棒的客户端选择策略对于模型性能与系统效率至关重要. 然而, 传统FL方法大多依赖静态或启发式的客户端选择机制, 难以适应IoV场景中频繁变化的环境状态与客户端特性. 为此, 本文提出一种基于熵正则化近端策略优化(entropy regularization proximal policy optimization, ERPPO)的动态客户端选择方法, 并结合置信度加权聚合策略. 该方法通过在近端策略优化(proximal policy optimization, PPO)目标函数中引入策略熵正则项, 增强客户端选择策略的探索性, 以避免陷入局部最优. 同时, 置信度聚合机制基于客户端模型更新方差自适应调整聚合权重, 提升全局模型的收敛稳定性与鲁棒性. 实验结果表明, 所提方法在保障模型精度的前提下, 有效降低了通信开销, 并在动态环境下展现出优于传统方法的综合性能.
2026, 35(2):154-164. DOI: 10.15888/j.cnki.csa.010066 CSTR: 32024.14.csa.010066
摘要:加密技术的广泛应用给恶意活动提供了藏匿的机会, 对网络安全监测体系带来了巨大挑战. 现有的加密流量检测方法主要是在单个数据包级别提取统计流量特征, 因此可能会由于潜在的IP分片而破坏原始连续通信行为中隐含的特征. 此外, 大多数方法对于网络流的交互模式建模粒度较粗, 未能深入挖掘对等实体间的通信意图, 难以适应新型恶意软件通信行为和通信量的变化. 本文以交互为分析粒度, 提出了方法ISG-Net (interaction state graph-net). 该方法基于状态转换构建流量交互状态图, 并引入了融合流量时序信息的自注意力编码模型. 特别地, 本文通过交互状态图获取蕴含全局信息的交互状态表示, 然后对每次交互进行细粒度的特征提取, 以融合得到会话(双向流)的表示. 在3个数据集上的实验结果表明, 在加密恶意流量检测任务中, 本文方法在准确性、鲁棒性和容错性均优于现有算法.
2026, 35(2):165-174. DOI: 10.15888/j.cnki.csa.010081 CSTR: 32024.14.csa.010081
摘要:棉花作为我国重要的经济作物, 其病害问题对产量和质量造成了显著影响, 快速而准确地识别病害类型至关重要, 然而现有的目标检测模型大多侧重于提高检测精度而忽略检测效率, 这些模型通常存在着计算量大、参数量大、难以在资源受限的边缘设备上部署的问题. 本文针对这些问题提出一种改进的YOLO11算法——SDP-YOLO. 该算法以StarNet作为主干网络, 从而有效减少模型的参数量; 提出DRBNCSPELAN4模块代替颈部网络中的C3K2, 强化特征中语义信息和位置信息, 提高模型特征提取能力; 提出轻量级部分卷积检测头EPCD, 提高模型对重要特征的提取能力并且显著减少复杂度; 使用 Wise-IoU边界损失函数, 提升网络边界框回归性能和对目标病害的检测效果. 实验结果表明, 改进后模型的参数量、浮点运算总数和模型大小比原方法分别降低了 43.8%、49.2%和39.6%, 同时检测精度提升1.3%, FPS增加40 f/s, 显著提升了检测效率.
2026, 35(2):175-186. DOI: 10.15888/j.cnki.csa.010093 CSTR: 32024.14.csa.010093
摘要:随着数字孪生虚拟现实技术的应用越来越广泛, 针对大规模室内建筑点云语义分割中整体精度有限、小物体识别精度低及边界分割模糊等问题, 提出一种大规模室内点云语义分割的方法RandLA-CGNet. 在编码层中构建局部-全局上下文融合(local-global context fusion, LGCF)模块, 在保留局部邻域信息的同时融入整体上下文语义; 在解码层设计范数门控通道特征(norm-gated channel feature, NGCF)模块, 通过对网络特征图的通道维度进行自适应重标定, 增强有用信息、抑制冗余噪声, 增强对细节和边界的敏感性, 提高模型的精细化识别能力; 最后采用融合型损失函数(focused cross-entropy loss, FCE loss), 在保证模型对大多数样本稳定收敛和整体精度的同时, 增加对难分样本与少数类样本的关注, 从而提升模型在边界区域和稀有类别上的分割性能. 实验结果表明, 本文提出的模型在 S3DIS 数据集上经六折交叉验证OA、mAcc和mIoU分别提升至88.8%、83.4%和71.9%, 较基准模型分别提高0.8%、1.4%和1.9%. 与主流算法相比, 较LG-Net分别提升0.5%、1.0%和1.1%, 总体精度以及平均交并比较FGC-AF提升0.2%和0.7%. RandLA-CGNet 在保持整体性能优势的同时, 对小物体以及边界细节分割的 IoU 提升了1%–6%, 有效提升对低频类别与复杂边界的识别能力, 为点云语义分割任务中少样本类别与细节边界的精准建模提供有效解决方案.
2026, 35(2):187-200. DOI: 10.15888/j.cnki.csa.010060 CSTR: 32024.14.csa.010060
摘要:中药是治疗疾病的重要药物资源, 历经数千年的临床实践与应用. 为推动中药现代化并发掘其在新适应症上的应用潜力, 本文借鉴西药领域药物重定位的研究经验, 结合近年来新兴的网络医学理论, 提出两种基于随机游走的中药-症状潜在治疗关系预测模型: M-RW与GO-DREAMwalk. 两种模型分别引入了中药与症状的路径信息和功能信息, 并以此指导随机游走过程, 生成节点序列后输入到异构Skip-gram模型, 学习节点的嵌入向量表示. 随后, 结合中药-症状关联标签与嵌入向量训练XGBoost分类器, 最终在肝硬化临床数据上对模型进行测试与评估. 在临床有效任务中, 两种模型的高排名预测准确率分别达到了0.0798和0.0684, 相较于机制驱动方法Proximity分别提升了145%与110%, 相较于数据驱动方法node2vec和edge2vec, 分别提升了40%、20%, 以及53%、31%. 此外, 通过Rank Aggregation方法聚合两种模型的预测结果, 准确率分别提升了75%和105%, 进一步增强了模型的预测能力. 两种模型在真实临床数据上的预测结果均具备良好的预测性能, 充分展现了其在中药重定位中的应用潜力, 有望推动中药在新适应症上的有效应用.
2026, 35(2):201-208. DOI: 10.15888/j.cnki.csa.010092 CSTR: 32024.14.csa.010092
摘要:神经辐射场(neural radiance field, NeRF)相较于传统的三维重建方法, 能够有效捕获隐式神经表征, 实现高质量的三维重建与新视角合成任务, 然而其需要大量的原始数据进行训练. 为了解决这一问题, 本文借助变分自编码器(variational autoencoder, VAE)能够捕捉潜在空间表示的能力, 将其与神经辐射场结合提出一种方法来提高低训练数据量下的三维场景生成效果. 首先, 通过构造变分自编码器的编码器, 选取训练数据中一定比例的原始图片构成向量集, 通过编码器对向量集进行压缩, 从而捕捉其中的潜在特征向量作为输入层数据的全局场景信息补充. 其次, 构造自适应增强采样算法动态调整采样点的分布密度, 增强神经辐射场对场景中细节信息的捕捉能力. 本文选取3个公开数据集进行对比实验, 实验结果验证了本方案的有效性, 同时, 所提出的方法在原始训练数据量缺失的情况下能达到与对比网络在完整训练数据量近似的三维重建结果.
2026, 35(2):209-225. DOI: 10.15888/j.cnki.csa.010072 CSTR: 32024.14.csa.010072
摘要:在无人机红外小目标检测领域, 复杂地面背景与目标尺寸微小的特性常使检测模型出现漏检或误检问题. 针对这一情况, 本研究以YOLOv7框架为基础, 设计出一种轻量级的高精度红外小目标检测算法, 命名为UAV-YOLO (unmanned aerial vehicle-you only look once). 首先, 考虑到检测目标多为小目标, 对YOLOv7基础网络进行轻量化改造, 将ELAN、ELAN-W和CARAFE模块中的1×1卷积以及颈部网络的1×1卷积替换为GSConv, 同时去除检测效率不高的P5检测头, 并新增专门用于检测小目标的P2检测头. 不仅提升了检测效率, 还大幅减少了参数量, 实现了模型的轻量化. 其次, 在骨干网络中融入了改进后的金字塔池化模块SPPFCSPC. 该模块的加入, 能够有效扩展模型的感知范围, 从而提高对红外小目标的检测精度. 然后, 把内容感知特征重组(CARAFE)架构集成到YOLOv7中. 这一架构可以更好地保留和优化小目标的特征表示. 同时, 在检测头前引入CA (coordinate attention)注意力机制模块. 该模块能够精准定位小目标, 让检测头更容易聚焦于关键区域. 最后, 采用归一化高斯Wasserstein距离(NWD)损失来替代CIoU. 这种替代降低了模型对位置偏差的敏感性, 进一步提升了检测效率. 实验数据显示, 与原始模型相比, 该模型的mAP达到了95.7%, 比YOLOv7基础模型提升了5.2%; 而参数量仅为 12.0M, 下降了67.7%. 这些优化改进在保证高精度的同时, 大幅减少了参数量, 充分验证了基于YOLOv7的红外小目标检测模型的实用性, 使检测性能得到了显著提升.
2026, 35(2):226-236. DOI: 10.15888/j.cnki.csa.010077 CSTR: 32024.14.csa.010077
摘要:敏捷需求过程模型适用于频繁的需求迭代场景. 该方法强调以用户为中心的设计理念, 采用简洁的文本表述方式, 不依赖复杂流程和工具. 将需求模型引入敏捷开发流程, 能有效解决对敏捷方法认知不足等问题, 但在频繁的需求迭代场景中, 引入的需求模型往往面临维护困难、版本过时等问题. 在频繁进行需求迭代的敏捷开发过程中, 模型的复杂性导致需求模型的手动维护消耗大量资源. 为解决这一问题, 本文提出基于多智能体的敏捷需求过程模型MA-ARP. 该模型通过构建多智能体自动处理系统, 利用其推理与识别能力, 根据需求变化动态更新需求模型. 该方法能有效降低敏捷开发过程中需求模型的维护成本. 通过案例研究和综合评估表明, 该方法可实现需求模型的自动更新与维护, 在多数选定的需求工程过程评估指标中达到或超过二级标准.
2026, 35(2):237-247. DOI: 10.15888/j.cnki.csa.010094 CSTR: 32024.14.csa.010094
摘要:在噪声中等规模量子(noisy intermediate-scale quantum, NISQ)时代, 由于硬件耦合约束, CNOT门往往无法直接执行, 需要引入额外的SWAP门将逻辑量子比特映射至合适的物理位置, 以确保电路的可执行性. 为了减少传统量子比特映射过程中由于 SWAP 操作引起的额外开销, 提出多策略量子麻雀搜索算法(multi-strategy quantum sparrow search algorithm, MQSSA), 并应用于量子比特映射中. 基于作用于同一量子比特对的非近邻(non-nearest neighbour, non-NN) CNOT门的个数, 定义量子比特联动次数; 结合CNOT门物理间距, 定义联动量子门集; 根据量子比特联动次数以及SWAP门数量构建适应度函数; 同时将适应度最优的个体定义为发现者, 通过引入量子叠加态机制, 使发现者具备并行搜索能力, 可以同时探索多个位置, 扩大搜索空间. 此外, 为了避免陷入局部最优, MQSSA引入高斯噪声作为跟随者位置更新扰动机制, 增强跳出局部最优能力; 设置警戒者机制维持搜索多样性. 实验结果表明, 在t|ket 和Qiskit编译器中, MQSSA的 SWAP 门数量分别平均减少37.5%和46.6%, 硬件开销分别平均减少13.3%和13.2%. 这表明算法在量子比特映射中的表现更加高效, 提升了优化结果质量.
2026, 35(2):248-261. DOI: 10.15888/j.cnki.csa.010082 CSTR: 32024.14.csa.010082
摘要:针对金属杆件表面缺陷检测中存在的微小缺陷漏检、背景干扰及实时性不足等问题, 提出改进RT-DETR的高效检测算法 RDGS-DETR. 设计轻量化特征提取模块RPFN (reparameterized-partial feature network), 融合结构重参数化与稀疏通道计算, 在减少参数量的同时提升微小裂纹特征表达; 构建动态特征精炼融合模块(dynamic feature refinement fusion module, DFRFM), 集成动态上采样算子 DySample, 通过自适应偏移预测提高曲面成像场景下的多尺度特征对齐精度; 引入几何感知归一化损失(geometric-sensitive normalized loss, GSNL)函数, 解决传统IoU对非重叠小目标敏感度不足及复杂缺陷回归偏差问题; 设计稀疏全局交互注意力模块(sparse global interaction attention, SGIA), 采用高效加法注意力机制, 以线性复杂度实现缺陷区域的全局上下文建模. 实验结果表明, 相较于原始模型, RDGS-DETR推理速度提升 8.55 f/s, mAP@0.5 提升 2.8%, 并验证了鲁棒性. 该算法兼顾精度与实时性, 为智能制造场景下的金属杆件表面质检提供可靠支撑.
2026, 35(2):262-268. DOI: 10.15888/j.cnki.csa.010076 CSTR: 32024.14.csa.010076
摘要:随着智慧城市建设的深入推进, 建筑边缘区域的安全问题日益严峻, 人员意外坠落与高空坠物事件频发, 亟需更加智能、高效的监测手段. 针对当前目标检测方法在小目标、遮挡目标及高速运动目标识别中的时序建模能力不足的问题, 本文提出一种融合多种时间语义增强机制的视频检测框架, 用于实现人员与坠落物的一体化检测. 所提方法在 Faster R-CNN 主干结构上集成了3种时序感知模块: 运动感知模块(MAM)、时间区域兴趣点对齐操作符(TROI Align)和序列级语义聚合头部(SELSA Head), 分别从运动显著性建模、空间对齐和语义聚合这3个角度, 提升模型对复杂时序场景中动态目标的感知能力. 为支撑模型训练与评估, 本文构建了一个覆盖建筑边缘多场景、多类风险目标的视频数据集. 实验结果表明, 本文方法在“人员临边行为检测”与“高空坠物检测”两个子任务中表现出良好效果, 展现出良好的跨任务鲁棒性与实际应用潜力.
2026, 35(2):269-279. DOI: 10.15888/j.cnki.csa.010065 CSTR: 32024.14.csa.010065
摘要:质子交换膜燃料电池(proton exchange membrane fuel cell, PEMFC)作为一种新型可再生清洁能源设备具有巨大的市场应用价值. PEMFC在复杂多变的运行工况下长时间连续工作易发生水管理故障. 然而, 传统的故障诊断方法难以有效地从动态变化的监测数据中提取出关键故障特征. 为此, 提出了一种基于深度平行残差神经网络的PEMFC故障诊断方法. 该方法首先将采集的电流、电压等多源信号进行数据处理; 然后, 设计了一种深度平行残差神经网络(deep parallel residual neural network, DP-ResNet)解决残差网络多尺度特征提取能力不足的问题; 最后, 将提出的算法应用于质子交换膜燃料电池在负载变化工况下的水管理故障数据集进行诊断验证. 实验结果表明, 提出的DP-ResNet模型在真实的PEMFC实验数据集中对水淹故障的诊断准确率高达99.46%. 该方法相比于传统机器学习Decision-tree、GaussianNB、KNN和CNN算法具备更高的特征提取能力和诊断精度.

