HPC ジョブが取り消しモードで停止し、新しいジョブが開始されない

この記事では、取り消しモードでスタックしているジョブの実行に関する問題の解決策を示します。また、AZURE SQL データベースが HPC PACK リモート データベースで使用されている場合、新しいジョブを実行状態に変えることはできません。

現象

実行中のジョブを取り消すと、取り消しモードで停止し、ジョブを実行できるコンピューティング ノードがある間、送信された新しいジョブはキューに残ります。 ノードを再起動しても役に立ちません。

一方、サービスとしてのプラットフォーム (PaaS) データベースが 100% に達しており、HPC スケジューラ ログに次のエラー メッセージが表示されます。

スケジューラ サーバーがビジー状態です。 クライアント要求を処理できません。 後でもう一度やり直してください。

原因

この問題は、PaaS データベースがパフォーマンス制限に達しているため、ヘッド ノードが過度に負荷がかかっているために発生します。

解決方法

この問題を解決するには、データベース トランザクション ユニット (DTU) を、ワークロードに一致する Azure のスケジューラ データベースのより高い SKU に増やします。 HPC スケジューラ データベースに必要な最小初期 DTU は 100 DTU です。

関連情報

詳細については、「 手順 1: リモート データベースを準備する」を参照してください

お問い合わせはこちらから

質問がある場合やヘルプが必要な場合は、サポート要求を作成するか、Azure コミュニティ サポートにお問い合わせください。 Azure フィードバック コミュニティに製品フィードバックを送信することもできます。