HPC 作业停滞在取消模式下,并且新作业无法启动

本文针对正在运行的作业停滞在取消模式下的问题提供了解决方案,当Azure SQL数据库用于 HPC PACK 远程数据库时,新作业无法变为运行状态。

症状

取消正在运行的作业时,它们会卡在取消模式下,并且提交的新作业仍在队列中,而有可用于运行作业的计算节点。 重启节点无济于事。

同时,平台即服务 (PaaS) 数据库达到 100%,HPC 计划程序日志中会显示以下错误消息:

计划程序服务器正忙。 它现在无法处理客户端请求。 请稍后重试。

原因

出现此问题的原因是,由于 PaaS 数据库达到其性能限制,头节点压力过大。

解决方案

若要解决此问题,请将数据库事务单元 (DTU) 增加到与工作负荷匹配的 Azure 中计划程序数据库的更高 SKU。 HPC 计划程序数据库所需的最小初始 DTU 为 100 DTU。

References

有关详细信息,请参阅 步骤 1:准备远程数据库

联系我们寻求帮助

如果你有任何疑问或需要帮助,请创建支持请求联系 Azure 社区支持。 还可以向 Azure 反馈社区提交产品反馈。