2025, 34(10):1-15. DOI: 10.15888/j.cnki.csa.009975 CSTR: 32024.14.csa.009975
摘要:颅内出血(intracranial hemorrhage, ICH)是临床常见的急危重症之一, 具有极高的死亡率和致残率. 在医学影像处理领域, 深度学习技术的迅速发展为ICH分割任务提供了强大的技术支持. 本文系统总结了ICH分割领域的主要公开数据集和评价指标, 并对基于深度学习的分割方法进行了全面综述, 涵盖卷积神经网络(convolutional neural network, CNN)模型、U-Net及其改进模型, 以及其他新兴的深度学习技术. 重点总结了各类模型的主要改进思路, 并对ICH分割过程中遇到的关键问题进行了归纳与分析. 最后, 本文探讨了当前研究中面临的主要挑战, 并提出了未来可能的研究方向和解决方案.
2025, 34(10):16-31. DOI: 10.15888/j.cnki.csa.009979 CSTR: 32024.14.csa.009979
摘要:随机抽样一致性(RANSAC)算法是一种经典的参数估计方法, 常用于影像匹配、影像拼接、三维重建等计算机视觉任务. 算法首先通过随机抽样最小样本集生成假设, 然后基于此样本集拟合并评价模型参数, 迭代上述步骤, 直到满足迭代停止条件, 迭代过程中最优拟合模型即为输出结果. 随机抽样一致性算法在处理仅含单模型的数据集时效果显著, 但是模型拟合的速率受采样过程影响, 且模型精度受模型估计子制约. 为推进随机抽样一致性技术的发展, 本文对当前主流的随机抽样一致性算法进行了梳理、分析、介绍和总结. 以改进思路为分类标准对现有文献进行整理: 假设生成时, 通过只采样高质量点或添加几何约束等方法, 提升采样质量; 模型精化时, 聚合多模型或结合局部优化等方法调整模型参数; 假设验证时, 构建预筛选机制减少错误模型的验证, 降低计算开销. RANSAC的很多变体通过修改这些细节来提高计算速度和鲁棒性. 本文详细介绍了RANSAC及其各个变体的实现原理, 并在公共的数据集上对它们的性能进行定量与定性实验分析, 给出了它们的综合性能评价.
2025, 34(10):32-43. DOI: 10.15888/j.cnki.csa.009977 CSTR: 32024.14.csa.009977
摘要:为了提升图像去噪网络对局部与全局信息的捕捉能力, 本文提出一种基于特征金字塔网络(feature pyramid network, FPN)和空间频率块(spatial frequency block, SFB)的Swin Transformer图像去噪网络(SwinFPSFNet). 该网络由3个阶段组成: 在浅层特征提取阶段, 设计了特征金字塔网络以增强局部特征提取能力; 在深层特征提取阶段, 结合快速傅里叶卷积(fast Fourier convolution, FFC)设计空间频率块, 用于同时捕捉全局与局部信息; 最后, 通过聚合浅层与深层特征, 进一步增强网络去噪能力. 此外, 本文构建了一种高斯噪声退化模型并结合多种数据增强策略, 以提升网络的泛化能力. 在CBSD68、Kodak24和Urban100数据集上的实验结果表明, 与当前主流去噪方法如BM3D、DnCNN、FFDNet、SwinIR等相比, SwinFPSFNet能够兼顾局部与全局信息, 在噪声抑制和保留图像细节方面表现出显著优势.
2025, 34(10):44-51. DOI: 10.15888/j.cnki.csa.009991 CSTR: 32024.14.csa.009991
摘要:随着数字病理学的快速发展, 病理切片图像的高分辨率、大视野拼接在临床诊断、组织分析和研究中具有重要意义. 通过图像拼接技术, 可将单视野图像拼接为全视野数字切片图像, 但现有拼接算法在处理大规模病理切片图像时, 面临计算复杂度高、拼接误差大、细节丢失等问题, 限制了其在实际医学应用中的效果. 为解决上述问题, 设计一种面向病理切片的显微图像快速拼接算法, 首先基于相位相关法和邻域搜索进行配准, 随后利用图论模型优化拼接路径, 最后通过改进的三角函数权重法实现图像融合, 获得完整视野的高质量病理切片图像. 实验结果表明, 对于分辨率为230万的测试图像, 本文算法配准精度优于4像素, 拼接速度超过20 f/s.
2025, 34(10):52-61. DOI: 10.15888/j.cnki.csa.009971 CSTR: 32024.14.csa.009971
摘要:多人多目3D人体姿态估计任务旨在从多目视图中预测多个人体关键点的位置, 是计算机视觉中的基本问题. 深度的缺失和3D计算的巨大成本, 导致从RGB图像中估计多人的姿态变得复杂且不准确, 为此研究人员提出了多种有效的解决方法. 其中, 基于体素表示的方法利用相机参数从多目视图中获取3D体素特征, 但因为体素的离散设计, 不可避免地带来量化误差. 针对这一问题, 本文提出了基于神经辐射场(neural radiance field, NeRF)的多人多目3D人体姿态估计方法PoseNeRF, 该方法首次以双分支联合训练的方式, 将NeRF结构以端到端可微的形式嵌入到多人多目3D人体姿态估计中. PoseNeRF包含NeRF分支、Pose分支及共享参数机制. 具体而言, NeRF分支利用多目图像的增强特征训练NeRF分支网络, 使其中的几何多层感知机(geometric multi-layer perceptron, G-MLP)能够表示具体位置的不透明度; Pose分支从3D体素特征中预测出人体中心位置和关键点位置; 共享参数机制利用NeRF分支共享的G-MLP提供不透明度, 优化3D体素特征. 为了验证方法的有效性, 本文在CMU Panoptic、Campus、Shelf数据集上进行了大量实验. 结果表明, 本方法在CMU Panoptic数据集上, AP25指标相较VoxelPose和Faster VoxelPose有明显提升, 分别为2.1%和6.0%; 在MPJPE中误差为1.4 mm, 小于Faster VoxelPose; 在Campus数据集、Shelf数据集上也相较VoxelPose有一定提升.
2025, 34(10):62-75. DOI: 10.15888/j.cnki.csa.009966 CSTR: 32024.14.csa.009966
摘要:传统深度学习技术在结构光显微图像超分辨率重建中往往难以同时兼顾局部细节与全局结构特征, 尤其在稀疏输入和低光照强度条件下表现受限. 本研究针对这一问题, 开展了不同光照强度下, 结构光照射的宽场(wide-field, WF)显微成像实验, 构建了多种光照条件下的显微图像数据对. 提出了一种基于多尺度卷积的分层-融合特征聚合算法(MSCF-HFNet), 通过编码器-解码器结构结合多尺度特征提取与融合机制, 实现了从低频到高频图像的高效映射, 显著提升了模型在低对比度和复杂结构场景下的重建能力. 实验结果表明, 与对比模型(EDSR、scU-Net和DFCAN)相比, MSCF-HFNet在PSNR和SSIM指标上分别平均提升了5.81%和4.60%, MSE指标降低了16.81%. 此外, FWHM的分辨率评价显示, MSCF-HFNet实现了120 nm以下的空间分辨率, 相较于其他模型提升了13.89%. 同时进行数据集仿真, 验证了模型在跨域数据集上仍能够在模型复杂度和重建精度之间达成了良好平衡, 展现出卓越的鲁棒性和一致性.
2025, 34(10):76-85. DOI: 10.15888/j.cnki.csa.010005 CSTR: 32024.14.csa.010005
摘要:针对水下环境光照不足、噪声干扰, 以及小目标的聚集导致的遮挡和误检、漏检问题, 提出了一种基于YOLO11n改进的水下目标检测模型. 提出小波池化卷积网络(WPCN), 通过小波池化技术分解特征, 保留低频子带, 避免频率混叠, 并且使用剪枝优化, 在保持推理速度的同时, 提高了检测精度. 引入单头视觉Transformer(SHSA)与卷积门控线性模块(CGCM), 提升对复杂场景的适应性. 提出共享可重参数化卷积检测头(RLD-Head), 通过共享卷积层减少参数量, 并利用重参数化技术避免性能损失, 适应资源受限设备. 设计了Wise-inner-MPDIoU损失函数, 提高了检测精度. 与原模型相比, mAP50提升了3.8个百分点, mAP50-95提升了4.3个百分点, 参数量减少了30.6%, 计算量减少了30.1%, 证明了该方法在水下目标检测方面的优势.
2025, 34(10):86-100. DOI: 10.15888/j.cnki.csa.009974 CSTR: 32024.14.csa.009974
摘要:针对现有的多光谱行人检测算法存在多模态相互作用不足和融合方法缺乏远程依赖性, 导致在低光照背景下小尺度行人检测性能不足的问题, 提出了一种融合自适应双重注意力和轴向注意力Transformer的多光谱小尺度行人检测算法(adaptive dual attention and axial attention Transformer network, ADATNet). 采用双分支CSPDarknet53网络分别提取可见光和红外图像中的深度特征, 充分保留两种模态的特有信息. 设计两个特征交叉融合模块: 自适应双重注意力模块(adaptive dual attention module, ADAM)和轴向注意力Transformer特征增强(axial attention Transformer feature enhancement, ATFE)模块, 其中ADAM旨在强化模型对关键特征的关注, 同时抑制不相关或冗余的信息; ATFE关联多模态特征的位置编码来融合增强的特征, 在确保计算效率的同时捕获长距离依赖关系. 将融合后的特征输入至检测头以输出最终检测结果. 实验结果表明, ADATNet在KAIST数据集上的MR–2降低至7.08%, 同时在FLIR和LLVIP数据集上的mAP50分别达到82.8%和97.6%, 较基线方法提升4.7%和1.9%, 具有良好的检测性能.
2025, 34(10):101-109. DOI: 10.15888/j.cnki.csa.009958 CSTR: 32024.14.csa.009958
摘要:分布式文件系统(DFS)能够高效管理数据中心的存储资源, 已经成为支撑众多数据密集型应用的核心基础设施. 为了降低执行文件系统操作时路径解析的开销, 分布式文件系统普遍采用了客户端元数据缓存, 同时在客户端之间同步元数据修改以保证元数据缓存的一致性. 但是现有的元数据缓存一致性方案在引入了高昂性能开销的情况下, 仍然未能正确同步全部的目录树修改, 导致正确性问题. 针对这一现状, 本文提出了一种维护元数据缓存一致性的轻量级机制, 通过基于并发广播机制的目录树修改方法以及基于惰性广播和墓碑机制的目录删除方法, 既突破了现有方案的性能瓶颈又解决了正确性缺陷. 实验结果表明, 这种机制使得分布式文件系统中目录树修改操作的延迟降低了65.8%–66.9%, 吞吐量提升了2.94–4.53倍. 此外, 在运行Spark作业时, 作业提交的延迟下降了43.6%.
2025, 34(10):110-121. DOI: 10.15888/j.cnki.csa.009965 CSTR: 32024.14.csa.009965
摘要:为提升方面情感三元组抽取(aspect sentiment triplet extraction, ASTE)的准确性和效率, 本文提出了一种结合图卷积和图注意力网络的ASTE模型, 模型引入图卷积网络, 结合双向机器阅读理解框架, 进一步集成了多头图注意力网络, 利用其自注意力机制动态分配权重, 增强了模型对文本中复杂和隐含语义关系的识别能力, 提升了对情感表达的精准捕捉. 在此基础上, 引入对比学习以增强全局语义特征, 结合强化学习, 通过智能体与环境交互、依据奖励反馈优化策略, 促使模型更精准地识别三元组. 在4个公开数据集上的广泛实验验证了模型在ASTE任务上的卓越性能, 和现有的模型相比, 准确率、召回率和F1值均有显著提升.
2025, 34(10):122-132. DOI: 10.15888/j.cnki.csa.009970 CSTR: 32024.14.csa.009970
摘要:深度神经网络极易遭受对抗样本的攻击, 这些对抗样本通过施加难以觉察的扰动, 便能误导模型做出错误的判断, 尽管在白盒环境下, 对抗样本的攻击成功率极高, 但在黑盒环境中其迁移性会显著下降. 为解决这一问题, 本文提出一种特征-频域双判别对抗样本迁移性增强方法. 具体而言, 特征判别器实现原始图像和对抗样本在高维特征空间的语义分离. 频域判别器利用图像的高频特征深入分析对抗样本的细微变化, 使其学会有效区分原始图像和对抗样本. 在训练过程中, 两个判别器协同工作, 共同引导生成器优化对抗样本的质量, 同时生成器对扰动进行随机像素丢弃, 以避免扰动过度集中于图像的某一特定区域. 实验结果表明, 该方法在黑盒模型上的迁移性优于VMI-FGSM、TTP、MultiANDA等方法, 证明了所提方法的有效性.
2025, 34(10):133-142. DOI: 10.15888/j.cnki.csa.009964 CSTR: 32024.14.csa.009964
摘要:代码异味是软件源代码中存在的不良设计问题, 它影响着代码可维护性, 可读性以及可扩展性. 研究人员可以通过检测代码异味确定待重构的代码, 进而改善代码质量. 过去的研究广泛将机器学习技术应用于代码异味检测, 虽取得一定成果, 但在检测准确性、泛化能力方面仍存在局限. 本文构建两种模型: 直接同构集成CNN和RNCNN (random forest-negative correlation learning-CNN), 来检测4种代码异味(Data class, God class, Feature envy, Long method), 利用基于随机森林的特征选择技术提取更重要的特征, 利用深度学习技术对代码的结构特征进行建模, 再使用负相关学习同构集成深度学习模型方法训练模型, 进行异味检测. 与基线工作相比, 本研究的F1值最高提升4.93%.
2025, 34(10):143-153. DOI: 10.15888/j.cnki.csa.009959 CSTR: 32024.14.csa.009959
摘要:视频目标检测是计算机视觉领域中一项具有挑战性的任务. 由于视频目标受尺度多变、运动模糊等影响, 同时现有算法在特征聚合方面存在不足, 限制了检测性能提升. 为提高视频目标检测精度, 本文提出了一种基于Transformer的视频目标检测方法. 首先, 设计了一种基于时空可变形注意力的时空特征聚合层, 并将其融合到Transformer编码器中实现对目标帧与参考帧的多尺度时空特征聚合编码; 其次, 提出了一种通过特征-查询交互实现查询增强的方法, 在Transformer解码器中直接利用参考帧的时空特征来增强目标查询, 使目标查询可以充分学习全局时空信息. 该方法充分利用Transformer编码-解码架构的优势, 有效增强了目标帧特征与查询的时空信息表示能力. 在ImageNet VID和UA-DETRAC数据集上的实验结果显示, 该方法在基于ResNet-101骨干网络上的平均精度(mAP)可达到86.0%和90.9%.
2025, 34(10):154-161. DOI: 10.15888/j.cnki.csa.009993 CSTR: 32024.14.csa.009993
摘要:针对汽车门板装配环境中海绵条大小不一、与背景色差较小的问题, 提出了一种基于改进YOLO11n的检测模型. 本文提出C3k2_IDWC模块, 通过多分支特征提取机制优化标准卷积, 以增强模型的多尺度特征提取能力; 同时, 提出DSWTHead检测头, 利用小波变换卷积提取全局结构特征和细节纹理信息, 并通过逐点卷积整合通道间信息, 优化全局与细节信息的建模, 增强检测头的上下文信息; 此外, 引入ADown模块进一步提升模型全局信息建模和特征表达能力. 实验结果表明, 与原始YOLO11n模型相比, 改进模型在准确率、召回率、mAP@0.5和mAP@0.5:0.95上均取得了较好提升, 分别提高了9.3%、18.1%、11.6%和18.6%, 同时降低了参数量和计算量, 有效提升了汽车门板海绵条的检测精度.
2025, 34(10):162-172. DOI: 10.15888/j.cnki.csa.009978 CSTR: 32024.14.csa.009978
摘要:基于全切片图像(whole slide image, WSI)的癌症诊断与分类预测已成为病理学领域的重要研究方向. 然而, WSI图像通常具有极大的尺寸和复杂的结构, 现有方法难以捕捉病理图像中形态各异的图像块之间的复杂联系, 特别是两者之间的空间距离较远时. 为了解决这一问题, 本文提出了一个基于图神经网络的深度学习模型Bi-DDRGNN, 用于实现精确的癌症诊断与亚型分类. Bi-DDRGNN的结构包括有向动态图注意力网络分支DD-GAT和邻域全连接的残差图卷积网络ResGCN. 通过分别从全局视角和邻域视角两个角度构建图结构, Bi-DDRGNN能够有效捕捉图像块之间的长距离依赖关系和局部细节特征, 从而更好地处理WSI中的复杂结构. 具体而言, DD-GAT通过构建有向边和动态调整的注意力机制, 在图像块之间传递信息, 进而捕捉不同区域之间的长程依赖关系; ResGCN模块利用空间邻接关系, 将图像块在局部范围内进行连接, 捕捉WSI的局部特征, 并通过残差连接增强了模型对局部细节的表达能力. 此外, Bi-DDRGNN还通过引入一个特征融合模块GF来有效聚合两分支路径的图特征, 提升最终的分类精度和模型的表达能力. 在3个公开数据集TCGA-NSCLC、TCGA-BRAC、CAMELYON16上进行的广泛实验表明, Bi-DDRGNN的性能优于其他先进算法, 充分证明了模型的有效性.
2025, 34(10):173-183. DOI: 10.15888/j.cnki.csa.009994 CSTR: 32024.14.csa.009994
摘要:无人机航拍图像目标检测在实时监控、异常检测等领域具有重要应用, 但航拍图像中复杂的背景、目标尺度变化大和小目标比例高等问题增加了检测难度. 为此, 本文提出了一种改进的目标检测算法AMD-YOLOv8. 首先, 该算法采用微小目标检测头替代大目标检测头, 有效保留小目标特征信息; 引入动态目标检测头Dyhead, 通过对水平维度、空间维度以及通道维度进行细粒度的注意力调整, 显著提高了模型对目标细节特征的提取能力. 其次, 设计出多尺度全局注意力模块MSGA, 利用不同卷积核运算和全局上下文布局, 增强对远距离小目标的检测能力. 然后, 提出了双向密集扩展特征金字塔网络BDEFPN, 该网络通过扩展尺度和密集连接, 实现了高效的多尺度信息融合. 最后, 采用LAMP剪枝策略对模型进行轻量化处理, 通过自适应评估层间冗余连接并进行删除, 有效降低计算量并加块推理速度. 实验结果表明, 改进后的AMD-YOLOv8在VisDrone2019数据集上, 参数量比YOLOv8n减少46.0%, mAP50提升了8.6%, FPS达到98.3 f/s; 在UAVDT数据集的测试结果进一步验证了该算法优越的泛化能力, 证明了其在无人机航拍图像检测中的有效性.
2025, 34(10):184-194. DOI: 10.15888/j.cnki.csa.009995 CSTR: 32024.14.csa.009995
摘要:针对水下检测背景复杂、光线暗淡、目标遮挡重叠等问题, 本文提出一种基于YOLOv8n改进的实时水下目标检测算法. 首先, 构造特征融合模块SEHAP, 使P2层与P3层融合, 再经过EHAPOKM学习全局到局部的特征, 以提高识别小目标和低分辨率图像的准确率. 其次, 增加一个轻量化的检测头SLDH, 使用共享卷积, 并将其与ASL缩放特征尺度模块结合, 在降低参数量和计算量的情况下, 减少精度损失. 随后, 增加C2f-EGMSC模块, 采用分组卷积更好地提取不同层次的特征. 最后在部分C2f-EGMSC模块后使用注意力机制BAM, 使模型同时关注通道和空间维度信息, 提升模型性能, 将改进后的模型命名为ESE-YOLOv8. 基于RUOD数据集上的实验结果表明ESE-YOLOv8可以达到85.2%的检测精度, 相较于原始算法提升1.2个百分点, 参数量下降了36.7%. 改进后的模型兼顾了轻量化和精度, 为水下环境部署提供了可行的解决方案.
2025, 34(10):195-205. DOI: 10.15888/j.cnki.csa.010003 CSTR: 32024.14.csa.010003
摘要:无人机高空小目标识别在城市建设、军事侦察和航海监控等领域具有重要应用价值. 针对航拍图像目标微小、背景复杂及遮挡等难题, 本文提出APW-YOLOv8算法, 引入自适应空间相关性金字塔注意力机制ASCPA, 通过空间金字塔编码(SPE)提取多尺度空间信息, 并利用空间相关特征重标定模块(SCFM)实现浅层与深层特征的深度融合, 显著增强了模型对多尺度信息的感知能力. 此外, APW-YOLOv8在Neck部分新增P2小目标检测层, 通过拼接浅层与深层特征图, 进一步强化了小目标特征提取能力. 同时, 引入Inner-CIoU损失函数并结合尺度因子优化损失计算, 提升多尺度特征提取性能. 在VisDrone2019数据集上, APW-YOLOv8的mAP@0.5和mAP@0.5:0.95分别达到31.9%和18.8%, 较YOLOv8n提升3.7%和2.3%. 在超远距离遥感RSOD数据集上, mAP@0.5和mAP@0.5:0.95较YOLOv8n提升3.7%和2%. 实验结果表明, APW-YOLOv8有效解决了小目标漏检与误检问题, 为复杂空域检测提供了高效、实用的解决方案, 具有广阔应用前景.
2025, 34(10):206-216. DOI: 10.15888/j.cnki.csa.009968 CSTR: 32024.14.csa.009968
摘要:针对现有随机卷积核变换(random convolutional kernel transformation, ROCKET)方法在特征提取深度和非线性建模能力上的局限性, 本研究提出ML-ROCKET. 该方法将ROCKET扩展为多层结构, 逐层提取非线性特征, 丰富特征表示并提高分类精度. ML-ROCKET采用二维卷积结构和顺序池化操作, 增强对多变量交互关系和时间序列内部特征的捕捉能力. 此外, 通过引入顺序特征去除(sequential feature detachment, SFD)剪枝策略, 进一步优化ML-ROCKET的性能与推理速度. 实验结果表明, ML-ROCKET在UCR的109个单变量数据集和UEA的26个多变量数据集上的分类精度与最先进的模型相当, 且训练效率显著超越了大多数现有方法.
2025, 34(10):217-228. DOI: 10.15888/j.cnki.csa.009992 CSTR: 32024.14.csa.009992
摘要:针对基于单图人脸重建, 由于模型复杂训练难度大以及特征提取精度有限导致生成效果不佳的问题, 本研究提出一种以MobileNetV2为基础网络结构的三维人脸重建精度提升方法. 该方法结合三维密集面对齐(3D dense face alignment, 3DDFA)模型, 引入自适应空间特征融合(adaptive spatial feature fusion, ASFF)技术和卷积块注意力模块 (convolutional block attention module, CBAM). 与传统卷积模型对比, 所提方法在减少模型复杂度的同时提升了模型对局部特征的提取精度; 与3DDFA模型对比, 所提方法在不影响识别速度的前提下提升了模型的特征提取精度. 在AFLW数据集和AFLW2000-3D数据集上与3DDFA模型进行了对比实验, 实验结果表明本方法在两个数据集上的重建精度分别提升了11.27%和11.41%.
2025, 34(10):229-237. DOI: 10.15888/j.cnki.csa.009973 CSTR: 32024.14.csa.009973
摘要:在当前互联网信息多元分布的背景下, 单文档信息抽取的传统范式已难以满足用户对事件全局认知的需求. 针对多源文本数据中信息冗余与观点碎片化的问题, 本文提出基于过滤机制的多维度文本摘要生成模型(FM-MDSG), 该框架通过3阶段创新架构实现跨源信息的结构化融合, 首先采用微调RoBERTa模型构建层次化语义表征, 捕获输入文本的上下文依赖. 其次, 设计双层过滤机制, 同步执行基于注意力权重的显著性检测与领域自适应的冗余抑制, 筛选出信息密度优化的语义单元. 最后, 构建知识增强的ERNIE解码器, 通过动态门控策略实现多层级语义特征的协同生成. 在CSL数据集上的实验表明, 该模型ROUGE-1/2/L的F值分别达到55.37%、47.28%和49.56%, ROUGE-L较经典基线模型提升6.8个百分点. 消融实验进一步验证, 过滤机制通过噪声抑制带来9.22%的ROUGE-1性能增益. 该模型实现了对异构来源证据的系统性整合, 能够在开放域场景下重构多视角观测的完整事件范式.
2025, 34(10):238-246. DOI: 10.15888/j.cnki.csa.009969 CSTR: 32024.14.csa.009969
摘要:针对CLIP在弱监督语义分割任务中存在的细粒度建模不足与空间敏感性缺失问题, 本文提出了一种基于全局-局部嵌入动态融合的弱监督语义分割模型GLE-CLIP. 该模型通过双向交叉注意力模块(BCA)构建文本语义与图像局部特征的交互关系, 生成鉴别性更强的局部嵌入; 同时设计动态注意力融合机制(DAF), 以相似度驱动的权重分配策略自适应平衡全局语义与局部细节. 具体而言, 首先通过定位解码器提取多尺度像素级嵌入, 利用文本到像素以及像素到文本的双向交叉注意力来增强模态对齐, 并结合全局嵌入的动态投影实现跨粒度特征融合. 在PASCAL VOC 2012和MS COCO数据集上的实验表明, 通过本方法训练的分割模型的性能超越现有大部分语言监督方法, mIoU分别达75.%与47.9%. 消融实验证实了交叉注意力模块与动态融合机制的有效性, 可视化结果进一步揭示了方法对高频细节的捕捉能力.
2025, 34(10):247-257. DOI: 10.15888/j.cnki.csa.009967 CSTR: 32024.14.csa.009967
摘要:在遥感图像中, 建筑物的精准识别对于城市规划和管理至关重要. 然而, 由于城市区域内建筑物的密集分布以及现有方法对边界定位精度的不足, 建筑物的准确检测和区分仍然面临挑战. 为解决这一问题, 本文提出了一种基于交并比(IoU)监督的旋转框建筑物检测方法. 该方法通过设计交并比定位精度监督网络, 有效减弱了复杂场景下邻近建筑物的干扰, 提高了检测框的定位精度. 此外, 采用环形平滑标签来解决因角度周期性变化引发的损失振荡问题. 实验结果表明, 该方法在Building-OBB数据集上达到了93.31%的mAP和95.19%的召回率, 并在DOTA数据集上实现了76.93%的mAP, 充分验证了该方法的有效性.
2025, 34(10):258-265. DOI: 10.15888/j.cnki.csa.009960 CSTR: 32024.14.csa.009960
摘要:本文提出了一种医学问诊对话意图融合生成网络(medical dialogue intention fusion generation network, MedIFG-Net), 能够在线上问诊平台中通过多轮医患对话生成门诊病历文书, 帮助医生快速总结患者的病史资料并生成病历文书. 为识别医生与患者的对话意图, 本文基于ERNIE模型提出了一种对话意图识别方法. 为了将对话与意图结合起来, 本文还提出了一种注意力融合方法. 使用以上两种方法, 通过从多轮对话中分析和识别意图信息并进行融合, 能够更高效、精确地生成门诊病历. 实验结果表明, 本文提出的方法在性能上显著优于传统方法, 具有更强的生成能力和实际应用价值.

