Базовое устранение неполадок с ошибками node Not Ready

В этой статье описаны действия по устранению неполадок для восстановления узлов кластера Microsoft Служба Azure Kubernetes (AKS) после сбоя. В этой статье рассматриваются наиболее распространенные сообщения об ошибках, создаваемые при сбое узла, не готового к работе, и объясняется, как можно выполнять функцию восстановления узла для узлов Windows и Linux.

Подготовка к работе

Ознакомьтесь с официальным руководством по устранению неполадок кластеров Kubernetes. Кроме того, ознакомьтесь с руководством инженера Майкрософт по устранению неполадок Kubernetes. В этом руководстве содержатся команды для устранения неполадок модулей pod, узлов, кластеров и других функций.

Предварительные требования

  • Azure CLI версии 2.31 или более поздней версии. Если Azure CLI уже установлен, можно найти номер версии, выполнив команду az --version.

Базовое устранение неполадок

AKS постоянно отслеживает состояние работоспособности рабочих узлов и автоматически восстанавливает узлы, если они становятся неработоспособными. Платформа виртуальной машины Azure поддерживает виртуальные машины , которые сталкиваются с проблемами. AKS и виртуальные машины Azure работают вместе, чтобы минимизировать прерывания в работе кластеров.

Для узлов существует две формы пакетов пульса:

  • Обновляет состояние Node объекта.

  • Объекты аренды в пространстве имен kube-node-lease. Каждый из них Node имеет связанный Lease объект.

По сравнению с обновлениями состояния .a Node, это Lease упрощенный ресурс. Использование Lease объектов для пульса снижает влияние этих обновлений на производительность больших кластеров.

Kubelet отвечает за создание и обновление состояния .status для Node объектов. Он также отвечает за обновление Lease объектов, связанных с объектами Node .

  • Kubelet обновляет узел .status при изменении состояния или если не было обновления для настроенного интервала. Интервал по умолчанию для .status обновлений узлов составляет пять минут, что гораздо длиннее 40-секундного времени ожидания по умолчанию для недоступных узлов.
  • Kubelet создает и обновляет объект Lease каждые 10 секунд (интервал обновления по умолчанию). Lease обновления происходят независимо от обновлений узла .status. Lease Если обновление завершается ошибкой, kubelet повторяется, используя экспоненциальный обратный выход, который начинается в 200 миллисекунд и ограничен на семь секунд.

Вы не можете запланировать модуль pod на узле с состоянием NotReady или Unknown. Вы можете запланировать pod только на узлах, которые находятся в Ready состоянии.

Если узел находится в MemoryPressureсостоянии , DiskPressurePIDPressure необходимо управлять ресурсами, чтобы запланировать дополнительные модули pod на узле. Если узел находится в NetworkUnavailable режиме, необходимо правильно настроить сеть на узле.

AKS управляет жизненным циклом и операциями узлов агента. Изменение ресурсов IaaS, связанных с узлами агента, не поддерживается. Например, настройка узла через подключения SSH, обновление пакетов или изменение конфигурации сети на узле не поддерживается. Дополнительные сведения см. в статье о поддержке AKS для узлов агента.

Убедитесь, что выполнены следующие условия:

  • Кластер находится в состоянии "Успешно" (выполняется). Чтобы проверить состояние кластера в портал Azure, найдите и выберите службы Kubernetes и выберите имя кластера AKS. Затем на странице обзора кластера найдите состояние в Essentials. Или введите команду az aks show в Azure CLI.

    портал Azure снимок экрана страницы обзора кластера Служба Azure Kubernetes (A K S). В разделе

  • Пул узлов имеет состояние подготовки успешно и состояние "Запуск". Чтобы проверить состояние пула узлов на портал Azure, вернитесь на страницу кластера AKS и выберите пулы узлов. Кроме того, введите команду az aks nodepool show в Azure CLI.

    портал Azure снимок экрана пулов узлов кластера Служба Azure Kubernetes (A K S). Состояние подготовки выполнено успешно. Состояние Power запущено.

  • Необходимые порты исходящего трафика открыты в группах безопасности сети (NSG) и брандмауэре, чтобы получить IP-адрес сервера API. Дополнительные сведения см. в разделе "Обязательные правила исходящей сети" и полные доменные имена для кластеров AKS.

  • Узлы развернули последние образы узлов.

  • Узлы находятся в Running состоянии, а не Stopped Deallocatedв состоянии.

  • Кластер выполняет поддерживаемую AKS версию Kubernetes.

Дополнительная информация

Сведения об устранении неполадок с Not Ready состоянием узла см. в разделе "Устранение неполадок" в работоспособном узле на состояние "Не готово".

Заявление об отказе от ответственности за контактные данные сторонней организации

Корпорация Майкрософт предоставляет контактные данные сторонних производителей в целях получения дополнительных сведений по данной теме. Эти данные могут быть изменены без предварительного уведомления. Корпорация Майкрософт не гарантирует точность контактных данных сторонних производителей.