在上一篇文章《IBM Platform HPC应用及组件解析》中,我们介绍了Platform HPC在单一产品中提供完整的高性能计算(HPC)管理解决方案,在本文中将更为详细的解读Platform HPC的运行模式、集群节点、管理节点、计算节点、可视化节点、登陆节点、集群网络、公共网络、配置网络、管理网络、应用网络。
运作模式
图中示例的高可用环境是用于显示如何设计一个Platform HPC集群部署,这只是几种可能配置之一。在我们的示例中,有4个网络(公共网络、配置网络、管理网络和应用网络)以及一个共享的集群存储,外加一个双节点GPFS集群。
集群节点
管理节点、计算节点和可视化节点可以用于Platform HPC集群中,每个节点都有自己的作用。
管理节点
管理节点是第一个安装在集群中的节点,每个集群都需要一个管理节点。它控制集群中的其他节点。在PHPC的早期版本中,这个节点也被称为头节点或者主节点。管理节点的角色是一个在用户站点的部署节点,包含在集群中运行应用所需的所有软件组件。在管理节点连接到一个集群节点之后,它为计算节点配置和部署客户端软件。安装在管理节点上的软件提供以下功能:
-行政、管理和监控集群
-安装计算节点
-无状态和有状态的管理
-资源库管理和更新
-集群配置管理
-HPC套件管理
-配置模板管理
-应用模板管理
-使用Platform MPI套件加速并行应用处理和应用扩展
-使用Platform LSF套件进行工作负载管理、监控和报告
-用户登录、编制和提交作业到集群
-充当防火墙把集群与外部节点和网络阻隔开
-充当服务器面向多个服务,例如DHCP、TFTP、HTTP以及可选的DNS、LDAP、NFS以及NTP
计算节点
计算节点是专为计算密集型应用设计,以满足计划用例的功能要求。计算机节点是通过管理节点配置和更新的,在集群中执行计算任务。工作负载管理系统(Platform LSF)在计算节点上设置作业位置数和CPU核心数。
在计算节点配置好之后,会安装操作系统(OS)分布、Platform LSF套件(工作负载管理代理、监控和资源管理代理)、Platform MPI套件以及其他定制软件(用户定义)。这个计算节点中可以有一些本地磁盘用于操作系统和临时存储运行应用。也可以配置操作系统在无盘系统上启动,以提高I/O性能(使用无状态配置)。
计算节点还加载NFS,或者可以配置GPFS实现共享存储。这些计算节点可以协同工作使用MPI解决问题。这是由连接到高速互连网络实现的。一些应用在模拟过程中不要求每个计算节点上必须有大磁盘存储空间。不过,大型模型可能不适合可用的内存空间,必须在核心外解决,然后从强大的本地存储中受益。
可视化节点
可视化节点和计算节点一样,但它包含一个或者多个图形处理单元(GPU)以渲染3D图形、计算机辅助工程(CAE)设计、产品部件动态模拟验证、或者单个组件上的应力分析。每个GPU是否可以支持多个并发的互动片段取决于应用。
预处理和后处理应用大多是连续的,因此,这个节点中应该有足够的处理器资源来应对计算要求。可视化节点通常有一些本地磁盘空间用于操作系统和运行应用的临时存储。可视化节点还加载NFS或者GPFS文件系统实现共享存储。
登录节点
登录节点的功能是作为到集群的网关。当用户希望通过公共网络访问集群的时候,他们必须在可以登录到其他集群节点之前首先登录到登录节点。一般情况下,我们建议使用这个方法作为防止管理节点未授权访问的最佳实践。
集群网络
PHPC集群中使用了多个网络。每个集群可能都有一个专门的网络,或者与其他集群共享一个公共网络。
公共网络
公共网络将PHPC集群连接到公司网络。
配置网络
配置网络(专有网络)是一个内部网络,配置和管理集群节点。公共网络上的节点不能访问配置网络,配置网络通常是千兆以太网。一般情况下,配置网络有以下用途:
-集群管理和监控
-工作负载管理和监控
-消息传递
通常的做法是使用一个高速低延迟的互连网络来传递消息。
管理网络
管理网络(BMC网络)是一个提供了带外部访问集群节点以管理硬件的网络。这个网络提供了对每个集群节点的CMM和IMM的访问。公共网络上的节点不能访问管理网络。(如果需要公共访问,可配置切换到公共网络以实现公共网络和管理网络之间的路由。)
应用网络
这个网络(计算网络)主要是被应用(例如MPI应用)用来跨多个节点的一个应用内不同任务间有效共享数据的。这个网络通常用于应用访问共享存储的一个数据路径。应用网络使用了一个高速互连,例如10Gb/40Gb以太网或者QDR/FDR InfiniBand。
如果PHPC集群包括一个可视化节点,那就必须有一个从外部网络到计算网络的路由。如果系统是只针对批量工作安装的话就没有必要使用这个路由了(除了管理节点)。可能使用虚拟本地局域网络(VLAN)将这些网络结合起来。
这些集群网络可以结合成为一个或者两个物理网络,在一些配置下最大限度降低网络成本和精简布线。目前PHPC提供了这两种结合部署的选择和支持。
一个典型的联合部署可能是以下示例之一:
-结合管理网络和配置网络,外加一个专用的高速互连用于应用。如果高速互连是InfiniBand的话通常是这种情况
-结合配置网络和应用网络,使用万兆以太网,外加一个专用的管理网络。当管理工作在底座上有专门的开关的话,可以实现这种网络架构
IBM Platform HPC极大的减少了高性能计算的应用复杂性,成为主流的企业级系统平台,简单的实现“将成千上万台计算机当成一台来管理和使用”,轻松构建和维护高性能计算/分析云平台。