选择一个作业队列

摘要

大多数MSI系统使用作业队列高效和计算执行时相当管理。作业队列是使用一组特定的计算硬件的自动待岗。当计算作业提交到作业队列,他们在队列中排队等候,直到合适的资源可用。不同的工作队列具有不同的资源和局限性。提交作业时,这是非常重要的,选择具有资源和限制适用于特定的计算任务队列。

本文件概述因素选择作业队列时要考虑的。选择在什么地方工作时,这些因素都是非常重要的。这份文件是在所有微星系统,并与一起最好使用 队列 它概述了每个队列的资源限制页。

请注意,梅萨比的“最宽”队列需要特别许可使用。请提交您的代码在回顾: help@msi.umn.edu.

方针

有特定程序或自定义脚本选择工作队列时需要考虑几个重要因素。在大多数情况下,如在作业通过PBS提交脚本 作业提交和调度

整体系统

每个MSI系统包含作业队列管理整套的硬件具有不同的资源和政策上的限制。微星目前有两个主要系统:超级计算机梅萨比和梅萨比的扩张mangi。梅萨比有各种各样的适用于许多不同的工作类型的队列。 mangi适用于更加作业类型的异构系统。 微星做任何计算时mangi应该是您的第一选择。所述梅萨比交互式队列主要用于交互式软件本质上是图形化的,和测试。该系统的选择很大程度上取决于该系统有适合您的软件/脚本队列。检查 队列 页面以确定最合适的系统。

作业walltime(walltime =)

工作walltime是从开始到工作的结束时间(就像使用在墙壁上的时钟衡量),这还不包括花在等待运行时间。这是相对于CPUTIME,它测量的累计时间花在岗位上工作的所有核心。不同的作业队列有不同的walltime限制,并选择一个队列具有足够高的walltime,使你的工作,完全是很重要的。超出工作要求walltime被系统杀死让路给其他工作。 walltime限制仅是最大值,并且可以随时要求更短的walltime,这会降低你的时间在队列中等待的金额,让您的工作开始。如果你不确定多少walltime你的工作将需要先从队列较短walltime限制,并仅在需要移动到其他人。 

工作节点和核心(节点= X:PPN = Y)

许多计算不得不使用多个核(PPN),或(较不频繁)多个节点,为了提高计算速度的能力。某些作业队列具有最大值或最小值的数量的节点和核心的作业可以使用。如果 节点共享 为队列可以请求整个节点上比存在更少的核(PPN)被使能。如果未启用节点共享,那么你必须要求等同于整个节点的多个资源。梅萨比最宽和大队列 不允许 节点共享.

工作存储器(MEM =)

选择一个队列时作业要求的内存是一个重要因素。可以请求的作业的存储器(RAM)量最大是通过在与该队列相关联的硬件的存储器的限制。梅萨比具有两个队列(ram256g和ram1t)具有高内存硬件,最大存储器硬件是可通过ram1t队列。 

用户和组的限制

高效地共享资源,许多队列对的工作或核的特定用户或用户组可以同时使用数的限制。如果工作流需要很多工作要完成,它可以帮助选择队列,这将使许多作业同时运行。 

特殊的硬件

一些队列包含有特殊的硬件,GPU加速器和固态硬盘划伤是最常见的节点。如果计算需要使用特殊的硬件,然后选择与提供的正确的硬件队列是非常重要的。此外,这些队列可能需要额外的资源来指定(例如,GPU节点需要“:图形处理器= X”)。

队列拥堵

在特定的时间特定的队列可能会超载提交的作业。在这种情况下,它可以帮助将作业发送到队列,利用率较低 (节点状态)。发送作业利用率较低队列可以减少等待时间和提高吞吐量。必须小心,以确保计算将适合队列限制范围内。