选择一个作业队列

摘要

MOST MSI系统使用作业队列来有效和公平管理当计算被执行。工作是使用一套特殊的计算硬件的自动排队等候名单。当工作都在排队提交到作业队列,计算他们一行等到可用相应的资源而成。有不同的作业队列不同的资源和限制。在提交作业,这是非常重要的,选择其中具有资源和限制尤其适用于计算任务队列。

这份执行埃斯特要考虑的因素。当轮廓选择作业队列。这些因素是重要的当选择在什么地方工作。这份执行埃斯特所有MSI系统,并与一起最好使用 队列 它概述了每个队列的资源限制页。

请注意,梅萨比的“最宽”队列需要使用特殊的权限。请提交您的代码在回顾: help@msi.umn.edu.

方针

还需要考虑在选择作业队列特定程序或自定义脚本的几个重要因素。在大多数情况下,作业通过脚本在PBS提交的描述 作业提交和调度

整体系统

微星每个系统包含集管理作业队列不同的硬件资源和政策限制。目前微星有两个主要系统:超级计算机梅萨比梅萨比的扩张和mangi。梅萨比有各种各样适合多种作业类型不同的队列。 Mangi适用于更加作业类型的异构系统。 mangi应该是你的第一选择当MSI做任何计算。在梅萨比互动队列用于交互式软件主要是一个在本质上是图形和测试。哪个系统选择很大程度上取决于哪个系统对软件的适当/脚本队列。检查 队列 页以确定最合适的系统。

作业walltime(walltime =)

walltime工作是从一开始就工作的结束时间(就像使用在墙壁上的时钟衡量),而不是花费时间等待包括运行。这是相反的CPUTIME,衡量花在所有内核的岗位上工作的累计时间。有不同的作业队列walltime不同的限制,重要的是要选择一个队列具有足够高的walltime,使你的工作完成。超出职位要求walltime被系统杀死让路给其他工作。 walltime唯一的限制是最大值,并且可以随时要求更短的walltime,这会降低你的时间在队列中等待的金额,让您的工作开始。如果你不能确定有多少你的工作将需要walltime与较短的队列开始walltime限制,并仅在需要移动到其他人。 

工作节点和核心(节点= X:PPN = Y)

许多计算不得不使用多个内核(PPN),或(不常)多个节点,以提高提高运算速度的能力。某些作业队列有多少节点最低或最高值和核心使用作业可能。如果 节点共享 为队列可以请求整个节点上比存在更少的核(PPN)被使能。节点如果未启用共享然后,你必须要求等同于整个节点的多个资源。梅萨比最宽和大队列 不允许 节点共享.

工作存储器(MEM =)

这项工作需要存储器这是一个重要的因素,当选择一个队列。可要求对工作的存储器(RAM)量最大是通过在与该队列相关联的硬件的存储器的限制。梅萨比有两个队列(ram256g和ram1t)具有高内存的硬件,硬件的内存是通过ram1t队列中可用最大。 

用户和组的限制

有效地共享资源,许多队列具有对工作或核心特定用户或组可以同时使用限制的数量。如果工作流需要很多工作要完成,它可以帮助选择哪个队列将让许多作业同时运行。 

特殊的硬件

一些队列包含有特殊的硬件,GPU加速器和固态硬盘划伤是最常见的节点。如果计算需要使用特殊的硬件,然后选择与提供的正确的硬件队列是非常重要的。此外,这些队列可能需要额外的资源来指定(例如,GPU节点需要“:图形处理器= X”)。

队列拥堵

某些特别是在次超载队列,可能会提交的作业。这样的情况下,它可以帮助将作业发送到队列,利用率较低 (节点状态)。发送作业利用率较低队列可以减少等待时间和提高吞吐量。必须小心,以确保计算将适合队列限制范围内。