Risolvere il problema del cluster con l'ID evento 1135

Questo articolo consente di diagnosticare e risolvere l'ID evento 1135, che può essere registrato durante l'avvio del servizio cluster nell'ambiente Clustering di failover.

Si applica a: Windows Server 2022, Windows Server 2019, Windows Server 2016, Azure Stack HCI, versioni 21H2 e 20H2

Provare l'agente virtuale : consente di identificare e risolvere rapidamente i problemi comuni di replica di Active Directory.

Pagina iniziale

L'ID evento 1135 indica che uno o più nodi del cluster sono stati rimossi dall'appartenenza al cluster di failover attivo. Può essere accompagnato dai seguenti sintomi:

Una convalida e i test di rete sono consigliati come uno dei passaggi di risoluzione dei problemi iniziali per assicurarsi che non ci siano problemi di configurazione che potrebbero causare problemi.

Il servizio cluster è il componente software essenziale che controlla tutti gli aspetti del funzionamento del cluster di failover e gestisce il database di configurazione del cluster. Se viene visualizzato l'ID evento 1135, è consigliabile installare le correzioni indicate negli articoli seguenti e riavviare tutti i nodi del cluster, quindi osservare se si verificano problemi.

Verificare se il servizio cluster è in esecuzione in tutti i nodi

Seguire il comando seguente in base al sistema operativo Windows per verificare che il servizio cluster sia in esecuzione e disponibile in modo continuo.

Per il cluster Windows Server 2008 R2

Da un prompt dei comandi con privilegi elevati eseguire cluster.exe node /stat.

Per Windows Server 2012 e Windows Server 2012 cluster R2

Eseguire il cmdlet di PowerShell seguente: Get-ClusterResource

Il servizio cluster è in esecuzione e disponibile in modo continuo in tutti i nodi?

Diversi scenari di ID evento 1135

Si vuole esaminare più da vicino i log eventi di sistema in tutti i nodi del cluster. Esaminare l'ID evento 1135 visualizzato nei nodi e copiare tutte le istanze di questo evento. Questo renderà conveniente per voi a guardare loro e rivedere.

Event ID 1135
Cluster node ' **NODE A** ' was removed from the active failover cluster membership. The Cluster service on this node may have stopped. 
This could also be due to the node having lost communication with other active nodes in the failover cluster. 
Run the Validate a Configuration wizard to check your network configuration. 
If the condition persists, check for hardware or software errors related to the network adapters on this node. 
Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.

Esistono tre scenari tipici:

Scenario A

Si stanno esaminando tutti gli eventi e tutti i nodi nel cluster indicano che il NODO A ha perso la comunicazione.

Diagramma che mostra il nodo A, il nodo B e il nodo C che comunicano correttamente.

Diagramma che mostra che il nodo A ha perso la comunicazione con il nodo B e il nodo C.

È possibile che quando si visualizzano i log di sistema nel NODO A, siano presenti eventi per tutti i nodi rimanenti nel cluster.

Soluzione

Ciò suggerisce che al momento del problema, a causa della congestione della rete o in caso contrario, la comunicazione con il NODO A è stata persa.

È consigliabile esaminare e convalidare i problemi di configurazione e comunicazione della rete. Ricordarsi di cercare i problemi relativi al nodo A.

Scenario B

Si stanno esaminando gli eventi nei nodi e si supponga che il cluster sia distribuito tra due siti. NODE A, NODE B e NODE C nel sito 1 e NODE D & NODE E nel sito 2.

Diagramma che mostra che il sito 1 comunica correttamente con il sito 2 tramite un collegamento WAN.

Nei nodi A, B e C gli eventi registrati sono per la connettività ai nodi D & E. Analogamente, quando vengono visualizzati gli eventi nei nodi D & E, gli eventi suggeriscono che la comunicazione con A, B e C è andata persa.

Diagramma che mostra che Site 1 ha perso la connessione wan link con Site 2.

Soluzione

Se viene visualizzata un'attività simile, è indicativo che si sia verificato un errore di comunicazione, tramite il collegamento che connette questi siti. È consigliabile esaminare la connessione tra i siti, se si tratta di una connessione WAN, è consigliabile verificare con l'ISP la connettività.

Scenario C

Si stanno esaminando gli eventi nei nodi e si nota che i nomi dei nodi non si discostono con alcun modello specifico. Si supponga che il cluster sia distribuito in due siti. NODO A, NODO B e NODO C nel sito 1 e NODO D & NODO E nel sito 2.

  • Nel nodo A: vengono visualizzati gli eventi per i nodi B, D, E.
  • Nel nodo B: vengono visualizzati eventi per i nodi C, D, E.
  • Nel nodo C: vengono visualizzati eventi per i nodi A, B, E.
  • Nel nodo D: vengono visualizzati eventi per i nodi A, C, E.
  • Nel nodo E: vengono visualizzati gli eventi per i nodi B, C, D.
  • O qualsiasi altra combinazione.

Diagramma dello scenario C che mostra che il cluster è distribuito in due siti.

Soluzione

Tali eventi sono possibili quando i canali di rete tra i nodi vengono soffocati e i messaggi di comunicazione del cluster non raggiungono tempestivamente, rendendo il cluster in grado di sentire che la comunicazione tra i nodi viene persa con conseguente rimozione dei nodi dall'appartenenza al cluster.

Esaminare le reti cluster

È consigliabile esaminare le reti cluster controllando le tre opzioni seguenti una alla volta per continuare questa guida alla risoluzione dei problemi.

Verificare la presenza di esclusione antivirus

Escludere i percorsi del file system seguenti dall'analisi antivirus in un server che esegue Servizi cluster:

  • Percorso del server di controllo FileShare
  • Cartella %Systemroot%\Cluster

Configurare il componente di analisi in tempo reale all'interno del software antivirus per escludere le directory e i file seguenti:

  • Directory di configurazione predefinita della macchina virtuale (C:\ProgramData\Microsoft\Windows\Hyper-V)

  • Directory di configurazione di macchine virtuali personalizzate

  • Directory predefinita dell'unità disco rigido virtuale (C:\Users\Public\Documents\Hyper-V\Virtual Hard Disks)

  • Directory personalizzate dell'unità disco rigido virtuale

  • Directory dei dati di replica personalizzate, se si usa la replica Hyper-V

  • Directory snapshot

  • mms.exe

    Nota

    Potrebbe essere necessario configurare questo file come esclusione del processo all'interno del software antivirus.

  • Vmwp.exe

    Nota

    Potrebbe essere necessario configurare questo file come esclusione del processo all'interno del software antivirus.

Inoltre, quando si usa Live Migration insieme ai volumi condivisi del cluster, escludere il percorso CSV C:\Clusterstorage e tutte le relative sottodirectory. Se si stanno risolvendo problemi di failover o problemi generali relativi ai servizi cluster e al software antivirus, disinstallare temporaneamente il software antivirus o rivolgersi al produttore del software per determinare se il software antivirus funziona con i servizi cluster. La semplice disabilitazione del software antivirus non è sufficiente nella maggior parte dei casi. Anche se si disabilita il software antivirus, il driver di filtro viene ancora caricato quando si riavvia il computer.

Verificare la configurazione della porta di rete nel firewall

Il Servizio cluster controlla le operazioni del cluster di server e gestisce il database del cluster. Un cluster è un insieme di computer indipendenti che agiscono come un singolo computer. I responsabili, i programmatori e gli utenti vedono il cluster come un singolo sistema. Il software distribuisce i dati tra i nodi del cluster. Se un nodo non funziona, altri nodi forniscono i servizi e i dati precedentemente forniti dal nodo mancante. Quando un nodo viene aggiunto o ripristinato, il software del cluster esegue la migrazione di alcuni dati a tale nodo.

Nome del servizio di sistema: ClusSvc

Applicazione Protocollo Porte
Servizio cluster UDP 3343
Servizio cluster TCP 3343 (questa porta è necessaria durante un'operazione di aggiunta al nodo).
RPC TCP 135
Amministrazione cluster UDP 137
Kerberos UDP/TCP 464*
SMB TCP 445
Porte UDP elevate allocate in modo casuale** UDP Numero di porta casuale compreso tra 1024 e 65535
Numero di porta casuale compreso tra 49152 e 65535***

Nota

Inoltre, per la convalida corretta nei cluster di failover windows in Windows Server 2008 e versioni successive, consentire il traffico in ingresso e in uscita per ICMP4, ICMP6.

Questo è l'intervallo in Windows Server 2012, Windows 8, Windows Server 2008 R2, Windows 7, Windows Server 2008 e Windows Vista.

Eseguire inoltre il comando seguente per verificare la configurazione della porta di rete nel firewall. Ad esempio: questo comando consente di determinare la porta 3343 disponibile\open usata per il cluster di failover:

netsh advfirewall firewall show rule name="Failover Clusters (UDP-In)" verbose

Eseguire il report convalida cluster per eventuali errori o avvisi

Lo strumento di convalida del cluster esegue una suite di test per verificare che l'hardware e le impostazioni siano compatibili con il clustering di failover.

Seguire queste istruzioni:

  1. Eseguire il report Convalida cluster per eventuali errori o avvisi. Per altre informazioni, vedere Informazioni sui test di convalida del cluster: Rete

    Screenshot dei risultati dopo l'esecuzione del report convalida cluster per eventuali errori o avvisi.

  2. Verificare la ricerca di avvisi ed errori per Le reti. Per altre informazioni, vedere Informazioni sui test di convalida del cluster: rete.

    Screenshot dei risultati per categoria.

    Screenshot di Convalida configurazione di Windows Firewall in Rete.

Controllare l'ordine di associazione di rete elenco

Questo test elenca l'ordine in cui le reti sono associate alle schede in ogni nodo.

La scheda Adapters and Bindings (Schede e associazioni ) elenca le connessioni nell'ordine in cui le connessioni sono accessibili dai servizi di rete. L'ordine di queste connessioni riflette l'ordine in cui vengono inviate al cavo chiamate/pacchetti TCP/IP generici.

Seguire la procedura seguente per modificare l'ordine di associazione delle schede di rete:

  1. Selezionare Start, selezionare Esegui, digitare ncpa.cple quindi selezionare OK. È possibile visualizzare le connessioni disponibili nella sezione LAN e High-Speed Internet della finestra Rete Connections.
  2. Nel menu Avanzate selezionare Impostazioni avanzate e quindi selezionare la scheda Adattatori e associazioni .
  3. Nell'area Connections selezionare la connessione da spostare più in alto nell'elenco. Usare i pulsanti freccia per spostare la connessione. Come regola generale, la scheda che comunica con la rete (connettività di dominio, routing ad altre reti e così via) deve essere la prima scheda associata (in cima all'elenco).

I nodi del cluster sono sistemi multi-homed. La priorità di rete influisce sul client DNS per la connettività di rete in uscita. Le schede di rete usate per la comunicazione client devono trovarsi nella parte superiore nell'ordine di associazione. Le reti non indirizzate possono essere posizionate con priorità inferiore. In Windows Server 2012 e Windows Server 2012 R2, la scheda Cluster Network Driver (NETFT.SYS) viene inserita automaticamente nella parte inferiore dell'elenco degli ordini di associazione.

Controllare la convalida della comunicazione di rete

La latenza sulla rete potrebbe anche causare questo problema. I pacchetti potrebbero non andare persi tra i nodi, ma potrebbero non arrivare ai nodi abbastanza velocemente prima della scadenza del periodo di timeout.

Questo test convalida che i server testati possano comunicare con latenza accettabile in tutte le reti.

Ad esempio: in Convalida comunicazione di rete potrebbero essere visualizzati i messaggi seguenti per i problemi di latenza di rete:

Succeeded in pinging network interface node003.contoso.com IP Address 192.168.0.2 from network interface node004.contoso.com IP Address 192.168.0.3 with maximum delay 500 after 1 attempt(s).
Either address 10.0.0.96 is not reachable from 192.168.0.2 or **the ping latency is greater than the maximum allowed 2000 ms** 
This may be expected, since network interfaces node003.contoso.com - Heartbeat Network and node004.contoso.com - Production Network are on different cluster networks
Either address 192.168.0.2 is not reachable from 10.0.0.96 or **the ping latency is greater than the maximum allowed 2000 ms** 
This may be expected, since network interfaces node004.contoso.com - Production Network and node003.contoso.com - Heartbeat Network for MSCS are on different cluster networks

Per il cluster multisito, è possibile aumentare i valori di timeout. Per altre informazioni, vedere Configurare heartbeat e impostazioni DNS in un cluster di failover multisito.

Verificare con ISP eventuali problemi di connettività WAN.

Verificare se si verifica uno dei problemi seguenti.

Pacchetti di rete persi tra i nodi
  1. Controllare la perdita di pacchetti usando le prestazioni

    Se il pacchetto viene perso sul cavo da qualche parte tra i nodi, gli heartbeat avranno esito negativo. È possibile scoprire facilmente se si tratta di un problema usando Monitor prestazioni per esaminare il contatore "Interfaccia di rete\Pacchetti ricevuti scartati". Dopo aver aggiunto questo contatore, esaminare i numeri Average, Minimum e Maximum e se sono valori superiori a zero, il buffer di ricezione deve essere regolato per l'adattatore.

    Screenshot della finestra Aggiungi contatori.

    Se si verifica una perdita di pacchetti di rete nella piattaforma di virtualizzazione VMware, vedere la sezione "Cluster installato nella piattaforma di virtualizzazione VMware".

  2. Aggiornare i driver della scheda di interfaccia di rete

    Questo problema può verificarsi a causa di driver di scheda di interfaccia di rete obsoleti\Componenti di integrazione (IC)\VmTools o schede di interfaccia di rete non aggiornate. Se sono presenti pacchetti di rete persi tra i nodi nei computer fisici, assicurarsi di avere gli aggiornamenti del driver della scheda di rete. Driver e/o firmware di schede di rete obsoleti o obsoleti. A volte, una semplice configurazione errata della scheda di rete o del commutatore può anche causare la perdita di heartbeat.

Cluster installato nella piattaforma di virtualizzazione VMware

Verificare i problemi dell'adattatore VMware in caso di ambiente VMware.

Questo problema può verificarsi se i pacchetti vengono eliminati durante picchi di traffico elevati. Assicurarsi che non si verifichi alcun filtro del traffico, ad esempio con un filtro di posta elettronica. Dopo aver eliminato questa possibilità, aumentare gradualmente il numero di buffer nel sistema operativo guest e verificare.

Per ridurre le interruzioni del traffico burst, seguire questa procedura:

  1. Selezionare Start, selezionare Esegui, digitare devmgmt.msc e premere INVIO.
  2. Espandere Schede di rete, fare clic con il pulsante destro del mouse su vmxnet3 e scegliere Proprietà.
  3. Scegliere la scheda Avanzate.
  4. Selezionare Buffer Rx piccoli e aumentare il valore. Il valore predefinito è 512 e il massimo è 8192.
  5. Selezionare Rx Ring #1 Size (Dimensioni) e aumentare il valore. Il valore predefinito è 1024 e il massimo è 4096.

Controllare gli articoli seguenti per verificare i problemi relativi alla scheda VMware in caso di ambiente VMware:

Si noti una congestione della rete

La congestione della rete può anche causare problemi di connettività di rete.

Verificare che la rete sia configurata in base alle raccomandazioni di MICROSOFT e fornitore, vedere Configurazione delle reti del cluster di failover di Windows.

Controllare la configurazione di rete

Se ancora non funziona, controllare se è stata visualizzata una rete partizionata nella GUI del cluster o se il teaming della scheda di interfaccia di rete è abilitato nella scheda di interfaccia di rete heartbeat.

Se viene visualizzata una rete partizionata nella GUI del cluster, vedere Reti cluster "partizionate" per risolvere il problema.

Se il teaming della scheda di interfaccia di rete è abilitato nella scheda di interfaccia di rete heartbeat, controllare la funzionalità software di teaming in base alle raccomandazioni del fornitore del team.

Aggiornare i driver della scheda di interfaccia di rete

Questo problema può verificarsi a causa di driver di scheda di interfaccia di rete obsoleti o schede di interfaccia di rete difettose.

Se sono presenti pacchetti di rete persi tra i nodi nei computer fisici, aggiornare il driver della scheda di rete. Driver e/o firmware di schede di rete obsoleti o obsoleti.

A volte, una semplice configurazione errata della scheda di rete o del commutatore può anche causare la perdita di heartbeat.

Controllare la configurazione di rete

Se ancora non funziona, controllare se è stata visualizzata una rete partizionata nella GUI del cluster o se il teaming della scheda di interfaccia di rete è abilitato nella scheda di interfaccia di rete heartbeat.