HPC 计算节点未显示或处于错误状态
本文提供了在 Azure 上部署高性能计算 (HPC) 群集时计算节点未显示或处于错误状态的问题的解决方案。
症状
在 Azure 上部署 HPC 群集时,部署成功,但计算节点不会显示或处于错误状态。 计算节点上的 HpcNodeManager 服务日志中会显示证书和网络相关错误。
下面是网络错误示例:
System.Net.Sockets.SocketException:连接尝试失败,因为连接方在一段时间后未正确响应,或者建立连接失败,因为连接的主机无法响应 x.x.x.x:xxx
原因
出现此问题的原因是网络配置问题或某种类型的证书不匹配。
解决方案
检查计算节点上 HpcNodeManager 服务日志中的网络和证书错误。
更正证书不匹配(如果有)。 有关详细信息,请参阅 管理 HPC Pack 2019 群集的证书。
若要解决上述错误的网络问题,请配置网络安全组规则和防火墙规则。 有关详细信息,请参阅 从 HPC Pack 群集突发到 Azure IaaS VM 中的“为 Azure 虚拟网络配置网络安全组”部分。
联系我们寻求帮助
如果你有任何疑问或需要帮助,请创建支持请求或联系 Azure 社区支持。 还可以向 Azure 反馈社区提交产品反馈。