摘要:本文旨在解决传统图像生成模型在复杂场景下潜在空间表示能力不足及高分辨率图像生成保真度低的问题, 提出一种基于改进矢量变分自编码器(improved vector quantized variational autoencoder, IVQ-VAE)和特征融合Transformer扩散(feature-fused Transformer diffusion, FFTD)模型的双阶段训练框架. IVQ-VAE通过引入注意力机制、残差块和多重损失函数, 显著提升潜在空间的语义表达能力与生成图像的保真度, 克服了传统编码器在复杂图像特征捕获上的局限性; FFTD模型基于Transformer架构, 结合多分辨率采样和自适应特征融合, 进一步增强模型对复杂图像结构的建模能力. 双阶段训练策略首先预训练IVQ-VAE以生成高质量潜在表示, 随后冻结其参数, 利用去噪扩散隐式模型(DDIM)训练FFTD模型以优化噪声预测和图像生成的过程, 该框架在CelebA-HQ和AFHQ等数据集上生成图像的细节保真度和视觉质量均有显著提升, 验证了其在高分辨率图像生成中的有效性.