摘要:多智能体强化学习是多智能体系统研究的重要组成部分, 在复杂协同任务中成效显著. 然而, 在需要长期决策的场景下, 由于长期回报的估计难度更大, 且难以对环境中的不确定性进行精准建模, 多智能体的表现往往不佳. 为解决上述问题, 本文提出了一种基于分位数回归的多智能体记忆强化学习模型. 该模型不仅选择性地利用了历史决策经验用于辅助长期决策, 还通过分位数函数对回报分布进行建模, 从而有效地捕捉了回报的不确定性. 该模型由记忆索引模块、隐式分位数决策网络和值分布分解模块这3部分组成, 其中记忆索引模块利用历史决策经验生成内在奖励, 促进智能体充分利用已有经验. 隐式分位数决策网络通过分位数回归, 对奖励分布进行建模, 为长期决策提供有力支持. 值分布分解模块将整体的回报分布分解为单个智能体的回报分布, 用于辅助单个智能体策略的学习. 本文的算法在星际争霸环境中进行了广泛的实验, 实验结果表明, 本文提出的方法提升了智能体在长期决策任务中的表现, 并具有较快的收敛速度.