了解作业和任务状态

在 HPC Pack 中,作业和任务具有几乎相同的生命周期状态。 主要生命周期状态是 配置排队运行已完成失败已取消。 作业和任务还会经历短暂的过渡状态。 下表汇总了所有生命周期状态。

作业和任务状态

定义
配置 作业或任务在系统中,但尚未提交到队列。
提交 作业或任务已提交,正在等待验证,然后才能排队。
验证 HPC 作业计划程序服务正在验证作业或任务。 在验证期间,HPC 作业计划程序服务会确认权限,对作业所有者未指定的任何属性应用默认设置,并针对约束验证每个属性。 默认设置和约束由作业模板定义。 有关作业模板的详细信息,请参阅 了解作业模板 - 作业管理器。 HPC 作业计划程序服务还确认作业属性包含所有任务属性(例如,没有任务具有比作业的运行时更大的运行时)。

在验证期间,作业还可能通过群集管理员定义的自定义提交筛选器应用程序。

如果作业通过验证,则它会移动到 排队 状态。 如果作业未通过验证,作业会显示错误消息,作业将移动到“失败” 状态
已排队 作业或任务已通过验证,正在等待计划并激活(运行)。

当正在运行的作业、基本 任务或 参数扫描 子任务被 HPC 作业计划程序服务抢占时,它将移回 排队 状态(除非任务不可重新运行,在这种情况下,该任务被标记为 失败)。 注意: 在 HPC Pack 2012 中,排队 计划模式下抢占行为的默认选项是任务级即时抢占,而不是作业级抢占。
调度 此状态仅适用于任务。 HPC 作业计划程序服务已将资源分配给任务,并正在联系分配的节点以开始运行该任务。 任务启动时,它会移动到“正在运行” 状态
运行 作业或任务在一个或多个节点上运行。
完成 作业或任务已完成,作业或任务清理正在进行中。
已完成 作业或任务已成功完成。
失败 作业或任务无法完成、停止运行或返回指示失败的退出代码(默认情况下,任何非零退出代码)。

此外,正在运行的任务在以下情况下标记为“失败”失败

- 作业所有者或群集管理员取消任务。
- HPC 作业计划程序服务取消任务,因为它已超出其最大运行时。
- HPC 作业计划程序服务抢占未标记为可重新运行的任务。
- HPC 作业计划程序服务抢占按资源启动的子任务(节点准备节点发布服务 子任务)。

如果作业或任务因群集故障而无法启动,作业或任务会在标记为 “失败”之前自动重试指定的次数。
取消 作业或任务已取消,正在清理。
已取消 作业由作业所有者、群集管理员或 HPC 作业计划程序服务取消。 例如,如果 HPC 作业计划程序服务超过其运行时或被抢占,则可以取消作业。

任务在开始运行之前由作业所有者或群集管理员取消。 如果已取消正在运行的任务,该任务将标记为 失败

若要取消作业或任务,请参阅 取消作业或任务 - 作业管理器强制取消作业或任务 - 作业管理器

其他参考