潜在空间下扩散模型图像生成
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:


Image Generation Based on Diffusion Model in Latent Space
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    本文旨在解决传统图像生成模型在复杂场景下潜在空间表示能力不足及高分辨率图像生成保真度低的问题, 提出一种基于改进矢量变分自编码器(improved vector quantized variational autoencoder, IVQ-VAE)和特征融合Transformer扩散(feature-fused Transformer diffusion, FFTD)模型的双阶段训练框架. IVQ-VAE通过引入注意力机制、残差块和多重损失函数, 显著提升潜在空间的语义表达能力与生成图像的保真度, 克服了传统编码器在复杂图像特征捕获上的局限性; FFTD模型基于Transformer架构, 结合多分辨率采样和自适应特征融合, 进一步增强模型对复杂图像结构的建模能力. 双阶段训练策略首先预训练IVQ-VAE以生成高质量潜在表示, 随后冻结其参数, 利用去噪扩散隐式模型(DDIM)训练FFTD模型以优化噪声预测和图像生成的过程, 该框架在CelebA-HQ和AFHQ等数据集上生成图像的细节保真度和视觉质量均有显著提升, 验证了其在高分辨率图像生成中的有效性.

    Abstract:

    Aiming to address the problems of traditional image generation models, including insufficient latent space representation capability in complex scenes and low fidelity in high-resolution image generation, this study proposes a two-stage training framework based on an improved vector quantized variational autoencoder (IVQ-VAE) and a feature-fused Transformer diffusion (FFTD) model. By introducing the attention mechanism, residual blocks, and multi-component loss function, IVQ-VAE significantly enhances the semantic representation capability of the latent space and fidelity of generated images, overcoming the limitations of traditional encoders in capturing complex image features. Built on a Transformer architecture, FFTD further improves the modeling capacity of complex image structures by integrating multi-resolution sampling and adaptive feature fusion. The two-stage training strategy first pre-trains IVQ-VAE to generate high-quality latent representations, then freezes its parameters, and trains FFTD by employing a denoising diffusion implicit model (DDIM) to optimize the noise prediction and image generation process. This framework achieves significant improvements in detail fidelity and visual quality of the generated images on datasets such as CelebA-HQ and AFHQ, validating its effectiveness in high-resolution image generation.

    参考文献
    相似文献
    引证文献
引用本文

刘浩南,陈姚节,高登科.潜在空间下扩散模型图像生成.计算机系统应用,,():1-14

复制
分享
相关视频

文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2025-08-27
  • 最后修改日期:2025-09-24
  • 录用日期:
  • 在线发布日期: 2026-01-19
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62661041 传真: Email:csa@iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号