格点量子色动力学组态产生和胶球测量的大规模并行及性能优化
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家重点研发计划(2017YFB0203202);国家自然科学基金面上项目(11575197)


Performance Optimizing for Large-Scale Lattice Quantum Chromodynamics of Configuration Generating and Glueball Measurement
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 增强出版
  • |
  • 文章评论
    摘要:

    格点量子色动力学(Lattice Quantum Chromo Dynamics,LQCD)是目前已知能系统研究夸克及胶子间低能强相互作用的非微扰计算方法.计算结果的统计和系统误差原则上都是可控的,并能逐步减少.基于格点QCD的基本原理,更大的格子体积意味着可以计算更大空间的物理过程,并且可以对空间进行更加精细的划分,从而得到更加精确的结果.因而大体系的格点计算对QCD理论研究有着重要意义,但对程序计算性能提出了更高要求.本文针对格点QCD组态生成和胶球测量的基本程序,进行了其大规模并行分析和性能优化的研究.基于格点QCD模拟采用的blocking和even-odd算法,我们设计了基于MPI和OpenMP的并行化算法,同时设计优化数据通信模块:针对复矩阵的矩阵乘等数值计算,提出了向量化的计算优化方法:针对组态文件输出瓶颈,提出了并行输出组态文件的实施方法.模拟程序分别在Intel KNL和“天河2号”超级计算机x86_64队列进行了测试分析,证实了相应的优化措施的有效性,并进行了相应的并行计算效率分析,最大测试规模达到了1728个节点(即41472 CPU核).

    Abstract:

    Lattice Quantum Chromo Dynamics (LQCD) is a non-perturbative method for the study of low-energy strong interactions between quarks and gluons. The statistical and systematic uncertainties of the results from LQCD are in principle all under control and can be reduced steadily. Based on LQCD theory, larger volume of lattice grids can calculate physical processes in larger space. And one can divide the space more meticulously to obtain more accurate results. Therefore, large system LQCD calculation is of great significance to the study of QCD theory, but is demanding for higher program computing performance. In this work, the large-scale parallel analysis and performance optimization of LQCD configuration generating and glueball measurement program are studied. Based on the blocking and even-odd algorithms used in LQCD simulation, we design a parallel algorithm based on MPI and OpenMP, and design an optimized data communication module. Aiming at the bottleneck of configuration file output, the solution of configuration file parallel output is put forward. The simulation programs are tested and analyzed on an Intel KNL platform and the x86_64 queues of “Tianhe 2” supercomputer. The results verify the effectiveness of the corresponding optimization measures, and the efficiency of parallel simulation is also analyzed. The maximum size of the test is 1728 nodes (i.e. 41 472 CPU cores).

    参考文献
    相似文献
    引证文献
引用本文

田英齐,毕玉江,贺雨晴,马运恒,刘朝峰,徐顺.格点量子色动力学组态产生和胶球测量的大规模并行及性能优化.计算机系统应用,2019,28(9):25-32

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2019-02-21
  • 最后修改日期:2019-03-08
  • 录用日期:
  • 在线发布日期: 2019-09-09
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号