HPC 计算节点未显示或处于错误状态

本文提供了在 Azure 上部署高性能计算 (HPC) 群集时计算节点未显示或处于错误状态的问题的解决方案。

症状

在 Azure 上部署 HPC 群集时,部署成功,但计算节点不会显示或处于错误状态。 计算节点上的 HpcNodeManager 服务日志中会显示证书和网络相关错误。

下面是网络错误示例:

System.Net.Sockets.SocketException:连接尝试失败,因为连接方在一段时间后未正确响应,或者建立连接失败,因为连接的主机无法响应 x.x.x.x:xxx

原因

出现此问题的原因是网络配置问题或某种类型的证书不匹配。

解决方案

检查计算节点上 HpcNodeManager 服务日志中的网络和证书错误。

更正证书不匹配(如果有)。 有关详细信息,请参阅 管理 HPC Pack 2019 群集的证书

若要解决上述错误的网络问题,请配置网络安全组规则和防火墙规则。 有关详细信息,请参阅 从 HPC Pack 群集突发到 Azure IaaS VM 中的“为 Azure 虚拟网络配置网络安全组”部分。

联系我们寻求帮助

如果你有任何疑问或需要帮助,请创建支持请求联系 Azure 社区支持。 还可以向 Azure 反馈社区提交产品反馈。