Tolerância a falhas e eficiência de armazenamento em clusters do Azure Stack HCI e do Windows Server

Aplica-se a: Azure Stack HCI, versões 22H2 e 21H2; Windows Server 2022, Windows Server 2019

Este artigo explica as opções de resiliência disponíveis e descreve os requisitos de escala, a eficiência do armazenamento e as vantagens e compensações gerais de cada um.

Visão geral

Os Espaços de Armazenamento Diretos fornecem tolerância a falhas, geralmente chamada de "resiliência", para seus dados. Sua implementação é semelhante ao RAID, mas é distribuído em vários servidores e implementado no software.

Assim como ocorre com o RAID, há algumas maneiras diferentes pelas quais os Espaços de Armazenamento podem fazer isso, que tornam as compensações diferentes entre tolerância padrão, eficiência de armazenamento e a complexidade de computação. Estes se enquadram em duas categorias: "espelhamento" e "paridade", esta última às vezes chamada de "codificação de apagamento".

Espelhamento

O espelhamento fornece tolerância a falhas por manter várias cópias de todos os dados. Isso é mais parecido com RAID-1. Como esses dados são distribuídos e colocados não é trivial (veja este blog para saber mais), mas é absolutamente verdade dizer que qualquer dado armazenado usando espelhamento é escrito, em sua totalidade, várias vezes. Cada cópia é gravada em um hardware físico diferente (unidades diferentes em servidores diferentes) que supostamente falhariam de forma independente.

Você pode escolher entre dois sabores de espelhamento – "bidirecional" e "tridirecional".

Espelho de duas vias

O espelhamento bidirecional grava duas cópias de tudo. Sua eficiência de armazenamento é de 50% – para gravar 1 TB de dados, você precisa de pelo menos 2 TB de capacidade de armazenamento físico. Da mesma forma, você precisa de pelo menos dois ''domínios de falha'' de hardware – com Espaços de Armazenamento Diretos, e isso significa dois servidores.

espelhamento de duas vias

Aviso

Se você tiver mais de dois servidores, recomendamos usar o espelhamento tridirecional.

Espelho de três vias

O espelhamento de três vias grava três cópias de tudo. Sua eficiência de armazenamento é de 33,3% – para gravar 1 TB de dados, você precisa de pelo menos 3 TB de capacidade de armazenamento físico. Da mesma forma, você precisa de pelo menos três domínios de falha de hardware – com Espaços de Armazenamento Diretos, e isso significa três servidores.

O espelhamento de três vias pode tolerar com segurança pelo menos dois problemas de hardware (unidade ou servidor) por vez. Por exemplo, se você estiver reiniciando um servidor quando, de repente, outra unidade ou servidor falhar, todos os dados permanecem seguros e continuamente acessíveis.

espelhamento de três vias

Parity

A codificação de paridade, muitas vezes chamada de "codificação de apagamento", fornece tolerância a falhas usando aritmética bitwise, o que pode ficar notavelmente complicado. A maneira como isso funciona é menos óbvia que o espelhamento, e há muitos recursos online excelentes (por exemplo, este Guia para Iniciantes na Codificação de Eliminação) de terceiros que pode ajudá-lo a ter uma ideia. Basta dizer que fornece melhor eficiência de armazenamento sem comprometer a tolerância a falhas.

O Storage Spaces oferece dois tipos de paridade – paridade "única" e paridade "dupla", esta última empregando uma técnica avançada chamada "códigos de reconstrução local" em escalas maiores.

Importante

É recomendado usar o espelhamento para a maioria das cargas de trabalho de detecção de desempenho. Para saber mais sobre como equilibras o desempenho e a capacidade de acordo com sua carga de trabalho, consulte Planejar volumes.

Paridade única

A paridade única mantém apenas um símbolo de paridade bit a bit, que fornece tolerância a falhas contra apenas uma falha de cada vez. Isso é mais parecido com o RAID-5. Para usar a paridade única, você precisa de pelo menos três domínios de falha de hardware – com Espaços de Armazenamento Diretos, e isso significa três servidores. Como o espelhamento triplo fornece mais tolerância a falhas na mesma escala, não incentivamos o uso da paridade única. Mas, ele está lá se você insistir em usá-lo, e é totalmente suportado.

Aviso

Não incentivamos o uso da paridade única porque ela só pode tolerar com segurança uma falha de hardware por vez. Se você estiver reiniciando um servidor quando repentinamente outra unidade ou servidor falha, você terá um tempo de inatividade. Se você tiver apenas três servidores, recomendamos usar o espelhamento de três vias. Se você tem quatro ou mais, consulte a próxima seção.

Paridade dupla

A paridade dupla implementa códigos de correção Reed-Solomon para manter os dois símbolos de paridade bit a bit, oferecendo assim a mesma tolerância a falhas que o espelhamento triplo (ou seja, até duas falhas de uma só vez), mas com mais eficiência de armazenamento. Isso é mais parecido com o RAID-6. Para usar a paridade dupla, você precisa de pelo menos quatro domínios de falha de hardware – com Espaços de Armazenamento Diretos, e isso significa quatro servidores. Nessa escala, a eficiência de armazenamento é de 50% – para armazenar 2 TB de dados, você precisa de 4 TB de capacidade de armazenamento físico.

paridade dupla

A eficiência de armazenamento da paridade dupla aumenta o número de domínios de falha de hardware que você tem, de 50% a 80%. Por exemplo, aos sete (com os Espaços de Armazenamento Diretos, ou seja, sete servidores) a eficiência salta para 66,7% – para armazenar 4 TB de dados, você precisa de apenas 6 TB de capacidade de armazenamento físico.

dual-parity-wide

Consulte a seção Resumo para a eficiência de códigos de reconstrução local e de paridade dupla em cada escala.

Códigos de reconstrução local

Os Espaços de Armazenamento introduzem uma técnica avançada desenvolvida pela Microsoft Research chamada "códigos de reconstrução local" ou LRC. Em grande escala, a paridade dupla usa o LRC para dividir sua codificação/decodificação em alguns grupos menores para reduzir a sobrecarga necessária para fazer gravações ou recuperar-se de falhas.

Com unidades de disco rígido (HDD), o tamanho do grupo é de quatro símbolos; com unidades de estado sólido (SSD), o tamanho do grupo é de seis símbolos. Por exemplo, veja a aparência do layout com unidades de disco rígido e 12 domínios de falha de hardware (ou seja, 12 servidores) – há dois grupos de quatro símbolos de dados. Ele atinge 72,7% de eficiência de armazenamento.

local-reconstruction-codes

Recomendamos este passo a passo detalhado, mas eminentemente legível, de como os códigos de reconstrução local lidam com vários cenários de falha e por que eles são atraentes, por Claus Joergensen.

Paridade acelerada por espelho

Um volume de Espaços de Armazenamento Direto pode ser parte espelho e parte paridade. As gravações são feitas primeiro na parte espelhada e, depois, são gradualmente movidas para a parte de paridade. Na verdade, isso usa o espelhamento para acelerar a codificação de eliminação.

Para misturar o espelhamento de três vias e a paridade dupla, você precisa de pelo menos quatro domínios de falha, o que significa quatro servidores.

A eficiência de armazenamento de paridade acelerada por espelho está entre o que você obteria usando apenas espelhamento ou apenas paridade e depende das proporções que você escolher.

Importante

É recomendado usar o espelhamento para a maioria das cargas de trabalho de detecção de desempenho. Para saber mais sobre como equilibras o desempenho e a capacidade de acordo com sua carga de trabalho, consulte Planejar volumes.

Resumo

Esta seção resume os tipos de resiliência disponíveis em Espaços de Armazenamento Diretos, os requisitos de escala mínimos para usar cada tipo, quantas falhas cada tipo pode tolerar e a eficiência de armazenamento correspondente.

Tipos de resiliência

Resiliência Tolerância a falhas Eficiência de armazenamento
Espelho de duas vias 1 50,0%
Espelho de três vias 2 33,3%
Paridade dupla 2 50,0% - 80,0%
Mixed 2 33,3% - 80,0%

Requisitos mínimos de escala

Resiliência Mínimo necessário de domínios de falha
Espelho de duas vias 2
Espelho de três vias 3
Paridade dupla 4
Mixed 4

Dica

A menos que você esteja usando tolerância a falhas em chassis ou rack, o número de domínios com falha se refere ao número de servidores. O número de unidades em cada servidor não afeta quais tipos de resiliência, você pode usar, desde que atenda aos requisitos mínimos de Espaços de Armazenamento Diretos.

Eficiência de paridade dupla para implantações híbridas

Esta tabela mostra a eficiência de armazenamento de códigos de paridade dupla e de reconstrução local em cada escala para implantações híbridas, que contêm unidades de disco rígido (HDD) e unidades de estado sólido (SSD).

Domínios de falha Layout Eficiência
2
3
4 RS 2+2 50,0%
5 RS 2+2 50,0%
6 RS 2+2 50,0%
7 RS 4+2 66,7%
8 RS 4+2 66,7%
9 RS 4+2 66,7%
10 RS 4+2 66,7%
11 RS 4+2 66,7%
12 LRC (8, 2, 1) 72,7
13 LRC (8, 2, 1) 72,7
14 LRC (8, 2, 1) 72,7
15 LRC (8, 2, 1) 72,7
16 LRC (8, 2, 1) 72,7

Eficiência de paridade dupla para implantações tudo flash

Esta tabela mostra a eficiência de armazenamento de códigos de paridade dupla e de reconstrução local em cada escala para implantações totalmente flash, que contêm apenas unidades de estado sólido (SSD). O layout de paridade pode usar tamanhos de grupo maiores e conseguir mais eficiência de armazenamento em uma configuração tudo flash.

Domínios de falha Layout Eficiência
2
3
4 RS 2+2 50,0%
5 RS 2+2 50,0%
6 RS 2+2 50,0%
7 RS 4+2 66,7%
8 RS 4+2 66,7%
9 RS 6+2 75,0%
10 RS 6+2 75,0%
11 RS 6+2 75,0%
12 RS 6+2 75,0%
13 RS 6+2 75,0%
14 RS 6+2 75,0%
15 RS 6+2 75,0%
16 LRC (12, 2, 1) 80,0%

Exemplos

A menos que você tenha apenas dois servidores, recomendamos usar espelhamento triplo e/ou paridade dupla, porque eles oferecem uma tolerância a falhas melhor. Mais especificamente, eles garantem que todos os dados continuem seguros e acessíveis continuamente, mesmo quando dois domínios com falha – com Espaços de Armazenamento Diretos, isso significa dois servidores – são afetados por falhas simultâneas.

Exemplos de onde tudo fica online

Estes seis exemplos mostram o que o espelhamento triplo e/ou a paridade dupla pode tolerar.

  • 1. Uma unidade perdida (inclui unidades de cache)
  • 2. Um servidor perdido

fault-tolerance-examples-1-and-2

  • 3. Um servidor e uma unidade perdidos
  • 4. Duas unidades perdidas em servidores diferentes

fault-tolerance-examples-3-and-4

  • 5. Mais de duas unidades perdidas, desde que, no máximo, dois servidores sejam afetados
  • 6. Dois servidores perdidos

fault-tolerance-examples-5-and-6

... Em todos os casos, todos os volumes permanecem online. (Verifique se que o cluster mantém quórum.)

Exemplos de onde tudo fica offline

Durante a vida útil, Espaços de Armazenamento podem tolerar qualquer número de falhas, uma vez que restauram a resiliência completa depois de cada uma, dando tempo suficiente. No entanto, no máximo, dois domínios de falha podem ser afetados com segurança por falhas em um dado momento. Estes são, portanto, exemplos do que o espelhamento triplo e/ou a paridade dupla não pode tolerar.

  • 7. Unidades perdidas em três ou mais servidores de uma só vez
  • 8. Três ou mais servidores perdidos simultaneamente

exemplos de tolerância de falha 7 e 8

Uso

Confira Criar volumes.

Próximas etapas

Para ler mais sobre os assuntos mencionados neste artigo, consulte o seguinte: