数值模拟是宇宙学中重要的研究方法, 可以帮助科学家了解宇宙演化过程和验证理论模型. 可视化是分析模拟数据最有效的手段之一, 通过对模拟数据的可视化和交互式探索可以极大提高科学家的分析效率. 随着超级计算机的发展和宇宙学理论的不断完善, 数值模拟的规模越来越大并且精度越来越高, 这对可视化产生了多种分析需求和数据处理挑战. 本文概述了宇宙数值模拟中可视化的主要方法, 并且通过多个研究案例展示了可视化方法在宇宙模拟数据分析中的作用. 最后, 本文总结了当前研究的热点和面临的挑战.
Cosmological simulation is an important research method that can help scientists understand the universe’s evolution process and verify the theoretical model. Visualization is one of the most effective ways of analyzing simulation data. Scientists can improve analysis efficiency through visualization and interactive exploration of the simulation data. With the development of supercomputers and cosmology theory, numerical simulation achieves a larger scale and higher accuracy, which brings a variety of requirements and challenges for scientific visualization. In this study, we summarize the main algorithms of visualization in cosmological simulation and demonstrate the role of visualization in analyzing the simulation data through multiple research cases. In addition, we also point out the current research hotspots and challenges.
数值模拟是宇宙学中重要的研究方法, 它既可以帮助科学家验证理论模型和了解宇宙演化过程, 也可以与观测数据对比来完善理论模型以加深对宇宙的了解. 因此, 数值模拟为天文研究和天文观测提供了有力的数值实验方法和理论验证工具, 并已经成为现代天体物理研究中不可缺少的基本研究方法[
科学可视化作为一种高效的数据分析手段, 在科学模拟数据的分析中越来越重要. 科学可视化的正式提出是在20世纪80年代, 它利用图形学相关方法来帮助用户理解科学概念和了解科学数据. 传统的统计分析方法常常是分析宇宙模拟数据中各种结构的总体属性, 例如结构的质量、密度、状态和形态等, 但这种方式难以高效形象地了解和利用数值模拟数据. 科学可视化可以直观地将模拟数据中的多个物理量(例如密度、温度、压力、速度等)和特征结构展现给科学家, 同时还可以探索多个物理量之间的相互关系, 并允许科学家进行交互式分析, 这极大地提高了数据分析的效率. 此外, 针对模拟数据的时序分析, 可视化所生成的时序演化动画可以详细展示模拟中每个特征的演化过程和不同物理属性的动态变化, 这是传统的统计分析方法无法达到的.
超级计算机的发展使得计算能力快速地增长, 这同时也推动了宇宙数值模拟研究的发展. 科学家可以使用更大规模的数据进行更高精度的宇宙数值模拟, 随着模拟规模的增长, 模拟产生的数据也呈现爆炸式增长. 例如, 当前最大的宇宙学N体数值模拟所使用的数据规模达到为2万亿粒子, 模拟过程中每次数据的保存需要大约130 TB的存储空间, 通常保存单次宇宙数值模拟的数据需要PB级别的存储空间[
科学可视化领域发展出了多种可视化技术以应对复杂多样的可视化任务. 初期的可视化研究主要关注如何将数据展示, 即数据的绘制, 这是宇宙数值模拟数据可视化分析的基础. 近些年来, 由于数据量的剧增和数据内容的复杂多样, 通常采用多种技术与可视化相结合的方法来满足数据可视化分析的需求. 概括来说, 针对宇宙数值模拟可视化的研究以模拟数据的绘制为基础, 以模拟数据规模的增长和数据分析研究的发展为推动, 在近些年来呈现出以下几个方面的研究主题:
1) 交互可视化: 利用交互技术辅助用户对可视化内容进行交互式分析, 以实现特定任务分析为目的.
2) 并行可视化: 利用并行计算或者GPU计算加速对数据的处理并提高数据绘制效率, 以达到分析或者绘制大规模模拟数据的目的.
3) 原位可视化: 利用原位处理方法, 在模拟的计算节点上对数据进行原位处理, 解决I/O瓶颈和存储限制的问题, 以达到超大规模数据可视化与分析的目的.
4) 机器学习与可视化: 利用机器学习的相关算法对数值模拟数据进行处理和分析, 然后进行可视化分析, 以提高数据分析的能力和效率.
本文首先介绍了宇宙数值模拟的数据结构和发展趋势, 然后对当前所使用的模拟数据绘制算法进行总结. 在此基础上, 介绍了当前主要研究主题下的多个研究案例, 归纳了不同研究主题下的研究主线, 最后进行了总结和展望.
宇宙数值模拟起源于20世纪70年代, 最早的宇宙数值模拟为Peebles等[
宇宙数值模拟程序所使用的模拟数据结构可以简单分为两类, 即网格数据和离散数据. 网格数据中又分为均匀网格和非均匀网格, 网格数据是将三维模拟空间划分为网格, 每个格点记录相关的物理变量. 模拟程序在使用网格数据进行计算时, 引力的计算以网格为基本单位, 模拟所保存的模拟数据格式为网格数据. 离散数据即粒子数据, 使用大量的粒子数据来覆盖三维模拟空间, 粒子属性包含位置、速度、质量、加速度等多个物理量. 模拟程序在使用粒子数据进行模拟的过程中, 引力的计算以粒子或者网格为基本单位, 模拟所保存的模拟数据格式为粒子数据.
年代-数值模拟数据规模示意图[
数值模拟程序所保存的数据无法直观地展示, 需要进行数据处理和绘制, 模拟数据的绘制是可视化分析的基础. 数据的绘制方法从对原始数据的操作上可以分为3类, 即直接映射绘制、光滑核处理绘制和数据重组织绘制. 本章节将介绍每种绘制算法的基本原理, 并且给出在同一数据集下每种算法的可视化展示图像.
直接映射即数据不经过处理, 直接映射到图像完成绘制. 直接映射绘制是出现最早的绘制方法, 早在20世纪初, Whiting[
对于数值模拟为网格数据的2D图像绘制, 仅需要将三维的网格数据处理成二维网格, 然后根据图像大小进行映射即可完成数据的绘制, 过程示意图如
对于离散数据的2D图像绘制, 需要将粒子数据进行转换, 转换为均匀网格数据然后进行映射以完成粒子数据的绘制. 如
对于3D图像的绘制, 网格数据可以转换成体数据然后采用体绘制, 而粒子数据3D图像绘制也是将粒子转换成空间网格数据然后进行体绘制. 直接映射的可视化效果的2D图像和3D图像如
网格映射示意图
粒子映射示意图
不同绘制算法效果展示图
数据直接映射的绘制效果一般, 为了提高绘制效果, 通常采用光滑核处理, 常用的光滑核为高斯光滑, 高斯分布函数公式如式(1)所示.
在使用过程中, 可以通过控制高斯分布函数中的标准差
使用光滑核函数对数据进行处理时, 针对于网格数据通常是对原始数据进行处理, 经过处理后的数据再经过直接映射然后完成数据的绘制. 针对于粒子数据, 采用的方式是将空间中的每个粒子转换成空间高斯分布函数, 然后再进行均匀网格的转换. 此外, 当把粒子转换成空间高斯分布函数时, 也可以采用抛雪球算法[
数据重组织绘制通常用于天文模拟中粒子数据的绘制, 即将粒子数据重组成其他形态再进行映射和绘制. 目前最常使用的方法是Kaehler等[
四面体网格算法是在模拟的初始时刻, 根据粒子的位置进行划分, 即空间上相邻8个粒子组成一个六面体, 然后将六面体切分成6个四面体, 每个四面体之间没有相交, 四面体的构建示意图如
四面体构建示意图[
在初始时刻完成四面体网格构造后, 记录每个四面体的粒子组成, 保持模拟过程中四面体组成粒子的不变, 每次绘制时以四面体为基本单位.
在模拟数据渲染的基础上和多种可视化任务的推动下, 发展出了多个可视化研究方向. 本节将依次探讨交互可视化、并行可视化、原位可视化和机器学习与可视化这些近年来的可视化研究热点, 并进行归纳和总结.
交互可视化分析技术是使用交互式技术帮助用户进行模拟数据的分析, 其主要优势是通过交互完成特定的分析任务. 对于宇宙数值模拟的交互可视化分析根据分析的内容可以分为两类, 一类是对模拟数据的全局属性和参数进行分析, 另一类是对宇宙特定的结构进行分析.
对模拟数据的属性和参数进行交互分析, 主要是对模拟数据的展示维度、展示区域、展示内容和时序属性等进行交互. 早期交互主要是对数据展示维度和时空位置等进行交互式分析, 例如Swayne等[
不同模拟间的多属性时序差异分析[
另一类是对宇宙特定的结构进行分析, 通常分析的目标结构集中在暗晕. 暗晕是模拟中由于粒子聚合而形成的密度高点, 是物质的三维塌缩而形成的. 对于暗晕的分析, 根据交互对象可以分为分析区域的选择和分析目标的选择. 分析区域的交互选择即用户通过交互操作对展示的目标区域进行选择[
区域暗晕交互式分析流程图[
计算机硬件的发展为并行计算提供了有力的支撑, 并行计算的发展也为可视化提供了新的技术. 为了处理和绘制大规模的模拟数据, 越来越多研究中采用了并行计算. 根据并行加速的内容, 可以将并行可视化分为两类, 第一类是并行的数据处理, 第二类是并行的数据绘制.
对于并行的数据处理, 即通过并行计算对大规模数据进行快速预处理, 将处理后的数据进行可视化展示. 例如Woodring等[
对于并行的数据绘制, 即利用并行技术对数据的绘制进行加速. 例如Kaehler等[
随着超级计算机的发展, 模拟的规模越来越大, 但存储能力的增长却难以满足大规模模拟的数据存储要求. 由于存储资源的限制, 无法将所需的全部模拟数据进行保存、分析和可视化. 原位可视化是解决这种问题的最有效的方法. 原位可视化即在模拟运行的过程中, 在模拟的计算节点上对数据进行原位处理, 将处理后的数据进行保存以供事后的可视化分析. 原位可视化与传统后处理形式的可视化在流程上的对比如
原位数据压缩处理是通过使用压缩或者采样算法在原位进行处理以降低数据量, 进而可以保存更多的数据. 例如Woodring等[
传统可视化与原位可视化对比图[
原位的图像渲染处理是模拟运行过程中, 在原位阶段运行数据绘制算法, 将原始数据直接可视化, 仅需要存储或者传输图像数据, 从而极大地降低数据量. Whitlock等[
原位特征提取处理是通过使用数据分析或处理算法, 将专家最关心的特征进行提取和保存, 减少不必要的存储以达到超大规模原位可视化分析的目的. Li等[
原始数据与特征提取算法的对比可视化[
机器学习作为一种有效的数据处理和分析手段, 已经应用在越来越多的领域. 随着深度学习研究发展, 极大的推动了其他领域深度学习相关应用研究的产生. 在宇宙数值模拟可视化研究中, 机器学习算法的应用也逐渐成为一个热点.
Preston等[
He等[
InSituNet可视化软件界面[
总体来说, 机器学习算法作为数据分析和数据处理的手段, 支撑了可视化分析. 通过机器学习算法和可视化技术的结合, 极大提高数据分析效率.
超级计算机的发展使得数值模拟的规模会继续增加, 特别是E级超级计算机的到来为科学数据的可视化分析带来新的机遇和挑战, 可视化作为分析超大规模数值模拟数据最有效的手段在未来的作用也将越来越突出. 在数据分析需求的推动下, 宇宙数值模拟可视化研究将会呈现新的发展趋势.
深度学习相关的研究在许多领域已崭露头角, 特别是近些年来深度神经网络的发展和应用, 极大的提高数据分析的能力与效率. 当前已经出现了一些将深度神经网络用于天文数据可视化分析的探索, 并取得非常好的效果. 未来在天文数据可视化中的应用会越来越多, 例如可视化技术结合深度神经网络对天文数据中特征结构的识别、追踪、分类和预测等将会是一个重要的研究方向.
超大规模数据分析的需求使得原位可视化研究越来越迫切, 随着E级计算的到来, 大规模数据分析的挑战会日益突出. 原位可视化作为一种有效分析超大规模数据的手段已经取得了多项研究成果, 但目前仍存在一些问题. 例如, 如何实现在原位可视化分析中基于原位的时序数据分析方法, 以及如何设计通用性的原位分析框架. 此外, 数据分析算法的发展(如数据挖掘算法、深度神经网络、并行数据处理等)也为原位可视化分析提供了新的数据分析思路.
在可视化交互方面, 目前还是多以鼠标和键盘的方式进行交互, 新型的交互设备将会为交互分析提供新的方法, 例如增强现实设备和虚拟现实设备的出现为科学数据的展示和交互提供了新的工具. 增强现实设备和虚拟现实设备提供的三维沉浸式环境适合展示科学模拟数据, 特别是天文模拟中模拟对象本就是三维空间, 这种三维沉浸式环境可以更加真实的展示模拟对象的演化特征, 并且带来的交互方式提高了数据分析的效率. 因此, 交互式设备的发展为科学数据分析中的交互方法带来新的研究内容.
本文首先介绍了宇宙数值模拟的发展和目前常用的数据绘制方法, 并在此基础上根据近年来宇宙数值模拟可视化研究的内容讨论了当前主要的可视化研究方向: 交互可视化、并行可视化、原位可视化、机器学习与可视化. 通过展示每个研究方向的具体案例, 归纳总结了当前的研究状态, 并根据发展趋势讨论了下一步研究的方法和方向.
可视化作为最有效的数据分析手段, 在宇宙模拟数据分析中已经取得了大量的研究成果, 但目前该领域仍存在许多需求和挑战, 仍需进一步的研究和发展.
冯珑珑, 朱维善. 现代宇宙学中的数值模拟技术和应用. 中国科学: 物理学 力学 天文学, 2013, 43(6): 687–707.
Potter D, Stadel J, Teyssier R. PKDGRAV3: Beyond trillion particle cosmological simulations for the next era of galaxy surveys. Computational Astrophysics and Cosmology, 2017, 4(1): 2.
Springel V, White SDM, Jenkins A,
Gao L, Navarro JF, Frenk CS,
Wang J, Bose S, Frenk CS,
Peebles PJE. Structure of the coma cluster of galaxies. Astronomical Journal, 1970, 75: 13–20.
Miyoshi K, Kihara T. Development of the correlation of galaxies in an expanding universe. Astronomical Society of Japan, Publications, 1975, 27(2): 333–346.
White SDM. The dynamics of rich clusters of galaxies. Monthly Notices of the Royal Astronomical Society, 1976, 177(3): 717–733.
Aarseth SJ, Gott III JR, Turner EL. N-body simulations of galaxy clustering. I. initial conditions and galaxy collapse times. The Astrophysical Journal, 1979, 228: 664–683.
Efstathiou G, Eastwood JW. On the clustering of particles in an expanding universe. Monthly Notices of the Royal Astronomical Society, 1981, 194(3): 503–525.
Davis M, Efstathiou G, Frenk CS,
White SDM, Frenk CS, Davis M,
Carlberg RG, Couchman HMP. Mergers and bias in a cold dark matter cosmology. The Astrophysical Journal, 1989, 340: 47–68.
Suto Y, Suginohara T. Redshift-space correlation functions in the cold dark matter scenario. The Astrophysical Journal, 1991, 370: L15–L18.
Warren MS, Quinn PJ, Salmon JK,
Gelb JM, Bertschinger E. Cold dark matter. I. the formation of dark halos. The Astrophysical Journal, 1994, 436: 467–490.
Jenkins A, Frenk CS, Pearce FR,
Governato F, Babul A, Quinn T,
Bode P, Ostriker JP, Turok N. Halo formation in warm dark matter models. The Astrophysical Journal, 2001, 556(1): 93–107.
Colberg JM, White SDM, Yoshida N,
Wambsganss J, Bode P, Ostriker JP. Giant arc statistics in concord with a concordance lambda cold dark matter universe. The Astrophysical Journal, 2004, 606(2): L93–L96.
Li M, Pan J, Gao L,
Teyssier R, Pires S, Prunet S,
Angulo RE, Springel V, White SDM,
Kim J, Park C, Rossi G,
Whiting SF. Use of graphs in teaching astronomy. Popular Astronomy, 1905, 13: 185–190.
Kaehler R, Hahn O, Abel T. A novel approach to visualizing dark matter simulations. IEEE Transactions on Visualization and Computer Graphics, 2012, 18(12): 2078–2087.
Swayne DF, Cook D, Buja A. XGobi: Interactive dynamic data visualization in the X Window system. Journal of Computational and Graphical Statistics, 1998, 7(1): 113–130.
Teuben PJ, Hut P, Levy S,
Price DJ. SPLASH: An interactive visualisation tool for smoothed particle hydrodynamics simulations. Publications of the Astronomical Society of Australia, 2007, 24(3): 159–173.
Haroz S, Heitmann K. Seeing the difference between cosmological simulations. IEEE Computer Graphics and Applications, 2008, 28(5): 37–45.
Shan GH, Xie MJ, Li FA,
Scherzinger A, Brix T, Drees D,
Rapp T, Peters C, Dachsbacher C. Visual analysis of large multivariate scattered data using clustering and probabilistic summaries. IEEE Transactions on Visualization and Computer Graphics, 2021, 27(2): 1580–1590.
Woodring J, Heitmann K, Ahrens J,
Jin ZF, Krokos M, Rivi M,
Tallada P, Carretero J, Casals J,
Hassan AH, Fluke CJ, Barnes DG,
Yang L, Szalay A. A GPU-based visualization method for computing dark matter annihilation signal. Astronomical Data Analysis Software and Systems XXII. San Francisco: Astronomical Society of the Pacific, 2013, 475: 73.
单桂华, 田东, 谢茂金, 等. 千万亿次科学计算的原位可视化. 计算机辅助设计与图形学学报, 2013, 25(3): 286–293.
Woodring J, Ahrens J, Figg J,
He WB, Wang JP, Guo HQ,