摘要:深度强化学习(deep reinforcement learning, DRL)在计算机集群调度任务中展现出了巨大潜力. 然而, 现有的基于深度强化学习的集群调度方法缺乏足够的泛化性, 导致其无法有效应对高度动态且变化频繁的集群环境. 为了应对这一挑战, 提出了一种改进元学习优化深度强化学习集群调度方法MRLScheduler. 该方法的核心在于对元学习的两项改进: 首先, 引入了基于扩散模型的数据生成模块, 该模块在元学习的初始化阶段生成多样化的合成数据, 用于扩充和优化多任务数据集. 然后, 引入了基于扩散模型的经验回放模块, 该模块在元学习跨任务训练中利用历史任务数据生成合成经验, 用于对历史经验的重用. 最后, 将改进后的元学习集成到深度强化学习的集群调度算法中, 对处于高度动态且变化频繁的集群环境中的智能体进行策略微调, 从而改善智能体的泛化能力. 实验结果表明, MRLScheduler优于其他基线算法, 有效地提升了深度强化学习集群调度算法的泛化能力.