Устранение неполадок с кластером с идентификатором события 1135
Эта статья поможет вам диагностировать и устранить событие с идентификатором 1135, которое может быть зарегистрировано во время запуска службы кластеров в среде отказоустойчивой кластеризации.
Применимо к: Windows Server 2022, Windows Server 2019, Windows Server 2016, Azure Stack HCI, версии 21H2 и 20H2
Попробуйте наш виртуальный агент . Он поможет вам быстро определить и устранить распространенные проблемы с репликацией Active Directory.
Начальная страница
Событие с идентификатором 1135 указывает, что один или несколько узлов кластера были удалены из активного членства в отказоустойчивом кластере. Он может сопровождаться следующими симптомами:
Отработка отказа кластера\nods, которые удаляются из активного членства в отказоустойчивом кластере:
Возникла проблема с удалением узлов из активного членства в отказоустойчивом кластере
Идентификатор события 1069:
Идентификатор события 1069 — доступность кластеризованной службы или приложения
Событие с идентификатором 1177 для потери кворума:
Идентификатор события 1177 — кворум и подключение, необходимые для кворума
Событие с идентификатором 1006 для службы кластера остановлено:
Проверка и сетевые тесты будут рекомендованы в качестве одного из начальных шагов по устранению неполадок, чтобы убедиться, что нет проблем с конфигурацией, которые могут быть причиной проблем.
Проверьте, установлены ли рекомендуемые горячие исправления
Служба кластеров — это основной программный компонент, который контролирует все аспекты работы отказоустойчивого кластера и управляет базой данных конфигурации кластера. Если вы видите событие с идентификатором 1135, рекомендуется установить исправления, упомянутые в следующих статьях, и перезагрузить все узлы кластера, а затем проверить, возникает ли проблема.
- Рекомендуемые исправления и обновления для отказоустойчивых кластеров под управлением Windows Server 2012 R2
- Рекомендуемые исправления и обновления для отказоустойчивых кластеров под управлением Windows Server 2012
- Рекомендуемые исправления и обновления для отказоустойчивых кластеров Windows Server 2008 R2 с пакетом обновления 1 (SP1)
Проверьте, запущена ли служба кластера на всех узлах.
Выполните следующую команду в соответствии с операционной системой Windows, чтобы убедиться, что служба кластера постоянно работает и доступна.
Для кластера Windows Server 2008 R2
В командной строке с повышенными привилегиями выполните cluster.exe node /stat
.
Для кластера Windows Server 2012 и Windows Server 2012 R2
Выполните следующий командлет PowerShell: Get-ClusterResource
Служба кластера постоянно работает и доступна ли на всех узлах?
Несколько сценариев события с идентификатором 1135
Мы хотим, чтобы вы более подробно изучили журналы системных событий на всех узлах кластера. Просмотрите событие с идентификатором 1135, которое отображается на узлах, и скопируйте все экземпляры этого события. Это сделает его удобным для вас, чтобы посмотреть на них и проверить.
Event ID 1135
Cluster node ' **NODE A** ' was removed from the active failover cluster membership. The Cluster service on this node may have stopped.
This could also be due to the node having lost communication with other active nodes in the failover cluster.
Run the Validate a Configuration wizard to check your network configuration.
If the condition persists, check for hardware or software errors related to the network adapters on this node.
Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.
Существует три типичных сценария:
Сценарий А.
Вы просматриваете все события и все узлы в кластере указывают на то, что УЗЕЛ A потерял связь.
Вполне возможно, что при отображении системных журналов на узле A в нем есть события для всех остальных узлов в кластере.
Решение
Это вполне свидетельствует о том, что во время проблемы либо из-за перегрузки сети, либо иным образом связь с NODE A была потеряна.
Необходимо проверить и проверить проблемы с конфигурацией сети и обменом данными. Не забудьте найти проблемы, связанные с узлом A.
Сценарий Б.
Вы просматриваете события на узлах и говорите, что кластер распределен по двум сайтам. NODE A, NODE B и NODE C на сайте 1 и NODE D & УЗЕЛ E на сайте 2.
На узлах A, B и C вы увидите, что зарегистрированные события предназначены для подключения к узлам D & E. Аналогичным образом, когда вы видите события на узлах D & E, они указывают на то, что мы потеряли связь с A, B и C.
Решение
Если вы видите аналогичные действия, это свидетельствует о том, что произошел сбой связи по ссылке, которая соединяет эти сайты. Рекомендуется проверить подключение между сайтами. Если это подключение осуществляется через глобальную сеть, мы рекомендуем вам проверить подключение к поставщику услуг Интернета вещей о подключении.
Сценарий В.
Вы просматриваете события на узлах и видите, что имена узлов не соответствуют ни одному конкретному шаблону. Предположим, что кластер распределен по двум сайтам. NODE A, NODE B и NODE C на сайте 1 и NODE D & NODE E на сайте 2.
- На узле A: отображаются события для узлов B, D, E.
- На узле B: отображаются события для узлов C, D, E.
- На узле C: отображаются события для узлов A, B, E.
- На узле D: отображаются события для узлов A, C, E.
- На узле E: отображаются события для узлов B, C, D.
- Или любые другие сочетания.
Решение
Такие события возможны, когда сетевые каналы между узлами задыхаются и сообщения связи кластера не поступают своевременно, что позволяет кластеру чувствовать, что обмен данными между узлами теряется, что приводит к удалению узлов из членства в кластере.
Проверка кластерных сетей
Рекомендуется просмотреть кластерные сети, по очереди проверив следующие три варианта, чтобы продолжить работу с этим руководством по устранению неполадок.
Проверка исключения антивирусной программы
Исключите следующие расположения файловой системы из проверки на вирусы на сервере, на котором выполняются службы кластеров:
- Путь к файлу-свидетелю FileShare
- Папка %Systemroot%\Cluster
Настройте компонент проверки в реальном времени в антивирусной программе, чтобы исключить следующие каталоги и файлы:
Каталог конфигурации виртуальной машины по умолчанию (C:\ProgramData\Microsoft\Windows\Hyper-V)
Пользовательские каталоги конфигурации виртуальных машин
Каталог виртуальных жестких дисков по умолчанию (C:\Users\Public\Documents\Hyper-V\Virtual Hard Disks)
Пользовательские каталоги виртуальных жестких дисков
Пользовательские каталоги данных репликации, если вы используете реплику Hyper-V
Каталоги моментальных снимков
mms.exe
Примечание.
Этот файл может потребоваться настроить как исключение процесса в антивирусной программе.
Vmwp.exe
Примечание.
Этот файл может потребоваться настроить как исключение процесса в антивирусной программе.
Кроме того, при использовании динамической миграции вместе с общими томами кластера исключите путь к CSV C:\Clusterstorage и все его подкаталоги. Если вы устраняете проблемы с отработкой отказа или общие проблемы со службами кластеров и установлено антивирусное программное обеспечение, временно удалите антивирусную программу или проверка с производителем программного обеспечения, чтобы определить, работает ли антивирусная программа со службами кластеров. Просто отключить антивирусную программу в большинстве случаев недостаточно. Даже если антивирусная программа отключена, драйвер фильтра по-прежнему загружается при перезагрузке компьютера.
Проверка конфигурации сетевого порта в брандмауэре
Служба кластеров контролирует операции кластера серверов и управляет базой данных кластера. Кластер представляет собой набор отдельных компьютеров, которые действуют как одна система. Руководителям, программистам и пользователям кластер виден в качестве единой системы. Программное обеспечение распределяет данные между узлами кластера. В случае сбоя одного из таких узлов находящиеся в его ведении службы и данные предоставляются другими узлами. Когда восстанавливается или добавляется новый узел, программное обеспечение кластера перемещает на него часть данных.
Имя системной службы: ClusSvc
Для приложений | Протокол | Порты |
---|---|---|
Служба кластеров | UDP | 3343 |
Служба кластеров | TCP | 3343 (этот порт не требуется во время операции объединения узлов) |
RPC | TCP | 135 |
Администратор кластера | UDP | 137 |
Kerberos; | UDP/TCP | 464* |
SMB | TCP | 445 |
Случайно выделенные порты с высоким уровнем UDP** | UDP | Произвольный номер порта в диапазоне от 1024 до 65535 Случайный номер порта от 49152 до 65535*** |
Примечание.
Кроме того, для успешной проверки в отказоустойчивых кластерах Windows в Windows Server 2008 и более поздних версиях разрешите входящий и исходящий трафик для ICMP4, ICMP6.
- Дополнительные сведения см. в статье Создание отказоустойчивого кластера Windows Server 2012 завершается сбоем с 0xc000005e ошибки.
- Дополнительные сведения о настройке этих портов см. в разделе "Ссылки" статьи Общие сведения о службах и требования к сетевым портам для Windows.
Это диапазон в Windows Server 2012, Windows 8, Windows Server 2008 R2, Windows 7, Windows Server 2008 и Windows Vista.
Кроме того, выполните следующую команду, чтобы проверка конфигурации сетевых портов в брандмауэре. Например: эта команда помогает определить порт 3343 available\open, используемый для отказоустойчивого кластера:
netsh advfirewall firewall show rule name="Failover Clusters (UDP-In)" verbose
Запуск отчета о проверке кластера для любых ошибок или предупреждений
Средство проверки кластера выполняет набор тестов, чтобы убедиться, что оборудование и параметры совместимы с кластеризация отработки отказа.
Следуйте этим инструкциям:
Запустите отчет о проверке кластера для любых ошибок или предупреждений. Дополнительные сведения см. в статье Общие сведения о тестах проверки кластера: сеть.
Проверьте наличие предупреждений и ошибок для сетей. Дополнительные сведения см. в статье Общие сведения о проверках кластера: сеть.
Проверка порядка сетевых привязок списка
Этот тест перечисляет порядок привязки сетей к адаптерам на каждом узле.
На вкладке Адаптеры и привязки перечислены подключения в том порядке, в котором сетевые службы получают доступ к подключениям. Порядок этих подключений отражает порядок отправки по проводу универсальных вызовов и пакетов TCP/IP.
Чтобы изменить порядок привязки сетевых адаптеров, выполните следующие действия:
- Нажмите кнопку Пуск, выберите Выполнить, введитеncpa.cpl, а затем нажмите кнопку ОК. Доступные подключения можно просмотреть в разделе Локальная сеть и High-Speed Интернет в окне Connections сети.
- В меню Дополнительно выберите Дополнительные параметры, а затем перейдите на вкладку Адаптеры и привязки .
- В области Connections выберите подключение, которое нужно переместить выше в списке. Используйте кнопки со стрелками для перемещения подключения. Как правило, карта, которая взаимодействует с сетью (подключение к домену, маршрутизация в другие сети и т. д.), должна быть первой привязкой (верхней части списка) карта).
Узлы кластера являются несколькими системами. Приоритет сети влияет на DNS-клиент для исходящего сетевого подключения. Сетевые адаптеры, используемые для взаимодействия с клиентом, должны находиться в верхней части в порядке привязки. Ненаправляемые сети можно разместить с более низким приоритетом. В Windows Server 2012 и Windows Server 2012 R2 адаптер сетевого драйвера кластера (NETFT.SYS) автоматически помещается в нижней части списка привязок.
Проверка сетевого взаимодействия
Задержка в сети также может привести к этому. Пакеты не могут быть потеряны между узлами, но они могут не добраться до узлов достаточно быстро до истечения времени ожидания.
Этот тест проверяет, могут ли протестированные серверы взаимодействовать с приемлемой задержкой во всех сетях.
Например: в разделе Проверка сетевого взаимодействия могут отображаться следующие сообщения о проблемах с задержкой сети:
Succeeded in pinging network interface node003.contoso.com IP Address 192.168.0.2 from network interface node004.contoso.com IP Address 192.168.0.3 with maximum delay 500 after 1 attempt(s).
Either address 10.0.0.96 is not reachable from 192.168.0.2 or **the ping latency is greater than the maximum allowed 2000 ms**
This may be expected, since network interfaces node003.contoso.com - Heartbeat Network and node004.contoso.com - Production Network are on different cluster networks
Either address 192.168.0.2 is not reachable from 10.0.0.96 or **the ping latency is greater than the maximum allowed 2000 ms**
This may be expected, since network interfaces node004.contoso.com - Production Network and node003.contoso.com - Heartbeat Network for MSCS are on different cluster networks
Для кластера с несколькими сайтами можно увеличить значения времени ожидания. Дополнительные сведения см. в разделе Настройка параметров пульса и DNS в отказоустойчивом кластере с несколькими сайтами.
Обратитесь к поставщику услуг Интернета на наличие проблем с подключением к глобальной сети.
Проверьте, возникли ли какие-либо из следующих проблем.
Сетевые пакеты, потерянные между узлами
Проверка потери пакетов с помощью производительности
Если пакет потерян по проводу где-то между узлами, то пульс завершится ошибкой. Мы легко узнаем, является ли это проблемой, используя Монитор производительности для просмотра счетчика "Сетевой интерфейс\Пакеты получены отбрасываются". После добавления этого счетчика просмотрите значения Среднее, Минимальное и Максимальное. Если они имеют значение больше нуля, буфер получения необходимо настроить для адаптера.
Если сетевой пакет на платформе виртуализации VMware потерян, см. раздел "Кластер, установленный на платформе виртуализации VMware".
Обновление драйверов сетевого адаптера
Эта проблема может возникнуть из-за устаревших драйверов сетевого адаптера\Компоненты интеграции (IC)\VmTools или неисправных сетевых адаптеров. Если между узлами на физических компьютерах потеряны сетевые пакеты, установите обновления драйверов сетевого адаптера. Старые или устаревшие сетевые карта драйверы и (или) встроенное ПО. Иногда простая неправильная настройка сетевого карта или коммутатора также может привести к потере пульса.
Кластер, установленный на платформе виртуализации VMware
Проверьте проблемы с адаптером VMware в случае среды VMware.
Эта проблема может возникнуть, если пакеты удаляются во время больших пиков трафика. Убедитесь, что фильтрация трафика не выполняется (например, с помощью фильтра почты). После исключения этой возможности постепенно увеличьте количество буферов в гостевой операционной системе и проверьте.
Чтобы уменьшить число отбросов трафика, выполните следующие действия.
- Нажмите кнопку Пуск, выберите Выполнить, введите
devmgmt.msc
и нажмите клавишу ВВОД. - Разверните узел Сетевые адаптеры, щелкните правой кнопкой мыши vmxnet3 и выберите Пункт Свойства.
- Выберите вкладку Дополнительно.
- Выберите Маленькие буферы Rx и увеличьте значение. Значение по умолчанию — 512, а максимальное — 8192.
- Выберите Rx Ring #1 Размер и увеличьте значение. Значение по умолчанию — 1024, а максимальное — 4096.
Чтобы проверить проблемы с адаптером VMware в среде VMware, ознакомьтесь со следующими статьями:
- Узлы удаляются из членства в отказоустойчивом кластере в VMware ESX?.
- Большая потеря пакетов на уровне гостевой операционной системы на VMXNET3 vNIC в ESXi
Обратите внимание на перегрузку сети
Перегрузка сети также может вызвать проблемы с сетевым подключением.
Убедитесь, что сеть настроена в соответствии с рекомендациями MS и поставщиков, см. статью Настройка сетей отказоустойчивого кластера Windows.
Проверка конфигурации сети
Если это по-прежнему не работает, проверка, если вы видели секционированную сеть в графическом интерфейсе кластера или вы включили объединение сетевых карт в сетевой карте пульса.
Если вы видите секционированную сеть в графическом интерфейсе кластера, см. раздел "Секционированные" кластерные сети , чтобы устранить проблему.
Если в сетевом адаптере пульса включено объединение сетевых карт, проверка функции программного обеспечения для объединения в зависимости от рекомендации поставщика объединения.
Обновление драйверов сетевого адаптера
Эта проблема может возникать из-за устаревших драйверов сетевого адаптера или неисправных сетевых адаптеров.
Если между узлами на физических компьютерах потеряны сетевые пакеты, обновите драйвер сетевого адаптера. Старые или устаревшие сетевые карта драйверы и (или) встроенное ПО.
Иногда простая неправильная настройка сетевого карта или коммутатора также может привести к потере пульса.
Проверка конфигурации сети
Если это по-прежнему не работает, проверка, видели ли вы секционированную сеть в графическом интерфейсе кластера или вы включили объединение сетевых карт в сетевой карте пульса.