AMD EPYC(霄龙)处理器提供了绝佳的PCI-E和内存带宽,帮助加速了大型强子对撞机的亚原子粒子研究
科学是依据实验数据对理论进行检验的过程。但是,如果测试设备包含欧洲核子研究组织(CERN)大型强子对撞机 (LHC)的粒子探测器,则原始碰撞数据每秒将多达40TB。许多碰撞数据无关紧要,因此,首先要做的是在信息到达时进行筛选,并提取出最有可能提供关键洞察数据的相关结果。这是一项繁重的高性能计算任务,需要使用尽可能最强大的服务器硬件。
“借助 AMD EPYC(霄龙)CPU,我们能够持续数天显示来自服务器的每秒 1 TB 以上的数据。在服务器上而不是像过去那样需要超级计算机才能实现这一过程是种重大进步。”
Niko Neufeld,CERNLHCb在线计算项目负责人
CERN为即将在2021年进行的大型强子对撞机重启已经做了很长时间的准备,并且一直在寻找能够满足海量数据吞吐量处理需求的硬件平台。CERN LHCb在线计算项目负责人Niko Neufeld解释说:“我们需要将每台服务器的数据保存到每台服务器上。这就像拼图一样。在拼完一块图之后,必须对所传入的全部数据进行此项操作。这对I/O带来了棘手的挑战。”于是,Neufeld选择了第二代AMD EPYC处理器,原因是该产品能够提供实验所需的处理性能、内存速度和带宽。
完成美丽的拼图
Neufeld进行的实验名为LHCb。Neufeld解释说:“字母B表示beauty(美丽)。这是自然界中六类夸克之一,也是我们研究的主要目标之一。”夸克是一种基本粒子,是物质的基本组成部分。夸克结合在一起,形成称为强子的复合粒子,其中最稳定的元素是质子和中子。
LHCb实验旨在调查大爆炸后发生了什么,使物质得以生存,并形成了我们今天所知道的宇宙。观察美夸克衰变的行为有助于解释为什么宇宙主要由物质而非反物质构成。Neufeld补充说:“在美夸克中,这种差异要比其他夸克更为明显。”
实验通过将强子与LHCb检测器碰撞而产生了美夸克,但它们寿命很短,必须迅速收集数据才能对其行为进行检测。原始数据流首先由进行初始诠释的定制FPGA卡处理。Neufeld说:“每台服务器都映射到不同地理位置的检测器。检测器划分为不同的部分,然后,每台服务器以点对点方式连接到检测器的这一部分。但是,接下来需要将所有数据片段放在同一个位置,因为只有这样才能对这些内容进行有意义的计算。”
Neufeld继续说:“单台服务器无法完成数据处理任务,因此,您需要进行数据的全交换。”这项活动需要快速处理数据,采用高带宽访问大量内存,以及与负责将服务器彼此连接的I/O设备快速连接。对于后一种情况,LHCb的每台服务器使用四个Mellanox 200Gbit InfiniBand适配器,而这些适配器需要通过尽可能最快的互连而实现全容量运行。Neufeld表示:“数据来自不同方向,而且这些数据由不同的服务器处理,然后,这些数据必须汇总在一起。”
AMD+LHCb案例研究
AMD EPYC处理器提供了超高速I/O和内存
“目前,没有可与AMD EPYC设计相媲美的商用替代设备,也没有其他平台能够提供这么多具有Gen4能力的插槽以及如此强大的运行能力。因此,第二代AMD EPYC CPU平台具有架构优势。”
Niko Neufeld,CERN LHCb在线计算项目负责人
LHCb过去曾经使用过AMD Opteron处理器,而且Neufeld已经在工作流的最后阶段测试了基于第一代AMD EPYC处理器的服务器,其中来自收集器的数据通过打包以供与LHCb实验相关的各级研究机构使用。这次尝试提供了积极的经验,而且第二代AMD EPYC CPU对产品规格进行了改进,使其成为更密集数据采集阶段的极具吸引力的解决方案。
AMD EPYC CPU的高内核数对于数据处理非常有益,而对128个PCI Express 4.0通道的支持更是一项出色的功能,使每台服务器中的四个Mellanox网卡能够无瓶颈地运行。Neufeld说:“借助 AMD EPYC(霄龙)CPU,我们能够持续数天显示来自服务器的每秒 1 TB 以上的数据。在服务器上而不是像过去那样需要超级计算机才能实现这一过程是种重大进步。”
Neufeld表示:“系统总内存池也很重要。传入的数据量非常多。数据无法从FPGA卡直接传输到网卡,而是必须进入主内存然后返回。另外,我们还需要大量的内存。”LHCb的每台服务器采用512GB内存。Neufeld继续说:“Rome平台满足这一需求,因为它提供了多个内存通道,并且支持极快带宽。这是一个高度平衡的平台。”由于采用8TB 3200MHz DDR4,第二代AMD EPYC CPU可完美满足RAM要求,与PCI Express总线的能力相当。
AMD EPYC CPU的扩展空间
从2019年5月到9月,CERN对第二代AMD EPYC CPU平台进行了认证,然后选择将其作为LHCb实验的解决方案。Neufeld解释说:“该解决方案使我们将服务器数量减少了三分之一。这不仅节省了成本,而且在构建高速、低延迟的网络时减少服务器数量也是一个优势。更大规模的网络会遇到更多的冲突问题。系统越紧凑就越好。”
AMD EPYC CPU将为LHCb提供进行进一步开展试验所需的升级途径。“我们不具备Google或Facebook的计算能力,但AMD EPYC CPU使我们能够在相对较小而且紧凑的系统中进行所需的处理工作。这在10-15年前是不可能实现的。现在,我们有了扩展的空间。借助相同的EPYC技术,我们可以在同一空间内将容量增加一倍。在接下来的几年,我们的计划是增加探测器和传感器的数量。这将为我们提供很大的扩展空间。EPYC使我们能够做更多事情。”
Neufeld总结说:“目前,没有可与AMD EPYC设计相媲美的商用替代设备,也没有其他平台能够提供这么多具有PCIe Gen4能力的插槽以及如此强大的运行能力。因此,第二代AMD EPYC CPU平台具有架构优势。”