HPC 作业停滞在取消模式下,并且新作业无法启动
本文针对正在运行的作业停滞在取消模式下的问题提供了解决方案,当Azure SQL数据库用于 HPC PACK 远程数据库时,新作业无法变为运行状态。
症状
取消正在运行的作业时,它们会卡在取消模式下,并且提交的新作业仍在队列中,而有可用于运行作业的计算节点。 重启节点无济于事。
同时,平台即服务 (PaaS) 数据库达到 100%,HPC 计划程序日志中会显示以下错误消息:
计划程序服务器正忙。 它现在无法处理客户端请求。 请稍后重试。
原因
出现此问题的原因是,由于 PaaS 数据库达到其性能限制,头节点压力过大。
解决方案
若要解决此问题,请将数据库事务单元 (DTU) 增加到与工作负荷匹配的 Azure 中计划程序数据库的更高 SKU。 HPC 计划程序数据库所需的最小初始 DTU 为 100 DTU。
References
有关详细信息,请参阅 步骤 1:准备远程数据库。
联系我们寻求帮助
如果你有任何疑问或需要帮助,请创建支持请求或联系 Azure 社区支持。 还可以向 Azure 反馈社区提交产品反馈。