Implantar o SAS Grid 9.4 em arquivos NetApp do Azure

Azure NetApp Files
Azure Virtual Machines

O software de análise SAS fornece um conjunto de serviços e ferramentas para extrair insights de dados e tomar decisões inteligentes. As soluções SAS fornecem análise, inteligência artificial, business intelligence, inteligência do cliente, gestão de dados e inteligência de fraude e segurança.

Se você estiver implantando o SAS Grid no Azure, os Arquivos NetApp do Azure serão uma opção viável de armazenamento primário. Ao usar os serviços escalonáveis dos Arquivos NetApp do Azure, você pode dimensionar as alocações de armazenamento para cima ou para baixo a qualquer momento sem interrupção dos serviços. Você também pode ajustar o nível de serviço de armazenamento aos requisitos de desempenho dinamicamente.

O SAS oferece estas plataformas principais, que a Microsoft validou:

  • Grelha SAS 9.4
  • SAS Viya

O SAS Grid 9.4 foi validado no Linux.

Este artigo fornece informações gerais para executar o SAS Grid 9.4 no Azure, usando os Arquivos NetApp do Azure para armazenamento SASDATA. Ele também fornece orientação sobre opções de armazenamento para SASWORK. Essas diretrizes são baseadas na suposição de que você hospeda sua própria solução SAS no Azure, em seu próprio locatário. O SAS não fornece hospedagem para o SAS Grid no Azure.

Arquitetura

Diagrama que mostra uma arquitetura para executar a Grade SAS no Azure.

Baixe um arquivo do PowerPoint de todos os diagramas neste artigo.

Fluxo de dados

A camada de computação usa volumes SASDATA (e, opcionalmente, SASWORK) para compartilhar dados em toda a grade. SASDATA é um volume conectado a NFS nos Arquivos NetApp do Azure.

  • Um nó de computação lê os dados de entrada do SASDATA e grava os resultados no SASDATA.
  • Uma parte subsequente do trabalho de análise pode ser executada por outro nó na camada de computação. Ele usa o mesmo procedimento para obter e armazenar as informações que precisa processar.

Potenciais casos de utilização

Uma implantação de grade SAS escalável que usa arquivos NetApp do Azure é aplicável a estes casos de uso:

  • Análise financeira
  • Deteção de fraudes
  • Rastreio e proteção de espécies ameaçadas de extinção
  • Ciência e medicina
  • Análise e IA

Requisitos de desempenho de armazenamento

Para implantações do SAS 9.4 (SAS Grid ou SAS Analytics Pro) no Azure, os Arquivos NetApp do Azure são uma opção de armazenamento primário viável para clusters de Grade SAS de tamanho limitado. O SAS recomenda uma taxa de transferência de 100 MiB/s por núcleo físico. Dada essa recomendação, os clusters de Grade SAS que usam um volume de Arquivos NetApp do Azure para SASDATA (arquivos de dados SAS persistentes) são escalonáveis para 32 a 48 núcleos físicos em duas ou mais máquinas virtuais do Azure. Os tamanhos de cluster SAS são baseados na restrição de arquitetura de um único namespace SASDATA por cluster SAS e na largura de banda de volume única disponível dos Arquivos NetApp do Azure. A orientação de contagem principal será revisitada à medida que a infraestrutura do Azure (computação, rede e largura de banda de armazenamento por sistema de arquivos) aumenta ao longo do tempo.

Tipos de volume de Arquivos NetApp do Azure

Os Arquivos NetApp do Azure oferecem dois tipos diferentes de volumes para cargas de trabalho de armazenamento conectado à rede (NAS).

Os volumes regulares fornecem:

  • Até 4.500 MiB/s de leituras.
  • Até 1.500 MiB/s de gravações.
  • 460.000 operações de entrada/saída por segundo (IOPS).
  • Até 100 TiB de capacidade total.
  • Um tamanho mínimo de 100 GiB.

Grandes volumes, que atingiram disponibilidade geral em maio de 2024, fornecem:

  • Até 10.000 GiB/s de taxa de transferência.
  • Até 800.000 IOPS.
  • 1.000 TiB de capacidade total.
  • Capacidade mínima de 50 TiB.

Para obter mais informações, consulte Requisitos e considerações para grandes volumes.

Expectativas de desempenho de volume regulares dos Arquivos NetApp do Azure

Um único volume regular dos Arquivos NetApp do Azure pode lidar com até aproximadamente 4.500 MiB/s de leituras e 1.500 MiB/s de gravações. Dado um tipo de instância do Azure com largura de banda de saída suficiente, uma única máquina virtual (VM) pode consumir toda a largura de banda de gravação de um único volume regular do Azure NetApp Files. No entanto, apenas a maior VM única disponível no Azure pode consumir toda a largura de banda de leitura de um único volume. Se desejar mais largura de banda para a carga de trabalho, considere usar um grande volume de Arquivos NetApp do Azure.

SASDATA, a principal carga de trabalho compartilhada do SAS 9.4, tem uma relação de leitura/gravação de 80:20. Os números importantes por volume para uma carga de trabalho de 80:20 com 64 KiB de leitura/gravação são:

  • 2.400 MiB/s de taxa de transferência de leitura e 600 MiB/s de taxa de transferência de gravação que são executados simultaneamente. A taxa de transferência combinada é de cerca de 3.000 MiB/s.

Para obter mais informações, consulte Benchmarks de desempenho dos Arquivos NetApp do Azure para Linux.

Desempenho de grande volume para SAS Grid

Um único volume grande dos Arquivos NetApp do Azure pode lidar com até 10 GiB/s de taxa de transferência total, o que significa que o potencial de desempenho do SAS Grid pode ser muito maior quando você lida com escalas maiores.

A tabela a seguir mostra os resultados de desempenho para cargas de trabalho que usam a Grade SAS em um grande volume de Arquivos NetApp do Azure com vários tamanhos de VM de exemplo. A lista de exemplos contém contagens de instâncias, threads por instância e nconnect valores que usam o Red Hat Enterprise Linux (RHEL) 8.4.

Instância da VM Contagem de instâncias Threads por instância nconnect valor MiB/s de leitura por thread MiB/s de gravação por thread Total de MiB/s lidos Total de MiB/s de escrita
E32s_v5 1 16 8 465 113 7,440 1,808
E32s_v5 2 16 8 411 113 13,152 3,616
E32s_v5 3 16 8 223 113 10,704 5,424
E32s_v5 6 16 8 117 107 11,232 10,272
E104id_v5 1 52 8 161 47 8,372 2,444
E104id_v5 1 52 16 192 50 9,984 2,600

Nota

Se você precisar de mais desempenho para seus volumes SASDATA ou SASWORK, use os volumes grandes dos Arquivos NetApp do Azure. Para obter mais informações, consulte Requisitos e considerações para grandes volumes.

Recomendações de capacidade

A calculadora de desempenho dos Arquivos NetApp do Azure pode fornecer orientação para dimensionar volumes SASDATA.

É importante escolher um nível de serviço adequado porque:

  • A largura de banda do volume é baseada na capacidade do volume.
  • O custo da capacidade é baseado no nível de serviço.
  • Sua escolha de nível de serviço é baseada na capacidade versus as necessidades de largura de banda.

Na calculadora, selecione avançado, selecione uma região e insira os seguintes valores.

  • Tamanho do volume: Capacidade desejada
  • Taxa de transferência: Taxa de transferência desejada, considerando 100 MiB/s por núcleo
  • Percentagem de leitura: 80%
  • IOPS: 0
  • Tamanho de E/S: 64KiB Sequencial

A saída na parte inferior da tela fornece os requisitos de capacidade recomendados em cada nível de serviço e o custo por mês, com base no preço para a região selecionada:

  • Débito. A largura de banda do volume, com base na combinação de carga de trabalho. Para uma carga de trabalho de leitura sequencial de 64 KiB de 80%, 3.096 MiB/s é o máximo esperado.
  • IOPS. O número de IOPS que o volume fornece na taxa de transferência especificada.
  • Tamanho do volume. A quantidade de capacidade necessária para o volume nos níveis de serviço especificados para atingir a taxa de transferência necessária. A capacidade de volume (relatada em GiBs) pode ser igual ou menor que o tamanho do pool de capacidade. Essa recomendação é baseada na suposição de que você está usando tipos automáticos de pool de capacidade de QoS. Para otimizar ainda mais a capacidade versus a distribuição de taxa de transferência entre volumes dentro de um pool de capacidade, considere os tipos de pool de capacidade de QoS manual.
  • Tamanho da piscina de capacidade. O tamanho da piscina. A capacidade de um volume é esculpida a partir de um pool de capacidade. Os pools de capacidade são dimensionados em incrementos de 1 TiB.
  • Custo do Pool de Capacidade (USD/mês). O custo por mês do pool de capacidade no tamanho e nível de serviço determinados.
  • Volume Show Back (USD/mês). O custo por mês da capacidade para o volume na capacidade especificada. As taxas baseiam-se nas dimensões das reservas de capacidade atribuídas. O volume mostrado de volta indica a quantidade de volume.

Nota

A experiência do usuário é a mesma, independentemente do nível de serviço, desde que seja provisionada largura de banda suficiente.

Controle os custos conforme necessário usando a modelagem de volume nos Arquivos NetApp do Azure. Duas opções dinâmicas estão disponíveis para influenciar o desempenho e o custo:

Saiba mais sobre o modelo de custo do Azure NetApp Files.

Proteção de dados

Os Arquivos NetApp do Azure usam instantâneos para ajudá-lo a proteger seus dados. Os instantâneos fornecem imagens quase instantâneas, consistentes com falhas e eficientes em termos de espaço dos volumes dos Arquivos NetApp do Azure. Você pode criar instantâneos manualmente a qualquer momento ou agendá-los usando uma política de instantâneo no volume.

Use uma política de instantâneo para adicionar proteção de dados automatizada aos seus volumes. Você pode restaurar instantâneos rapidamente usando a reversão de instantâneos. Ou você pode restaurar um snapshot para um novo volume para recuperação rápida de dados. Você também pode usar a funcionalidade de restauração para novo volume para fornecer ambientes de teste/desenvolvimento com dados atuais.

Para níveis adicionais de proteção de dados, você pode usar soluções de proteção de dados que usam o backup do Azure NetApp Files ou o software de backup do parceiro.

Componentes

  • Máquinas Virtuais do Azure: a Grade SAS requer alta memória, armazenamento e largura de banda de E/S, em uma proporção apropriada com o número de núcleos. O Azure oferece tamanhos de máquina virtual (VM) predefinidos com contagens de vCPU mais baixas que podem ajudar a equilibrar o número de núcleos necessários com a quantidade de memória, armazenamento e largura de banda de E/S.

    Para obter mais informações, consulte Tamanhos de VM compatíveis com vCPU restritos. É importante entender completamente quais recursos de computação estão disponíveis com cada instância. Para executar o SAS Grid no Azure com os Arquivos NetApp do Azure, recomendamos estes tipos de instância:

    • Standard_E64-16ds_v4 ou Standard_E64-16ds_v5
    • Standard_E64-32ds_v4 ou Standard_E64-32ds_v5

    Certifique-se de revisar as práticas recomendadas para usar o SAS no Azure, incluindo as atualizações nos comentários.

  • Arquivos NetApp do Azure: você pode armazenar SASDATA em um volume de Arquivos NetApp do Azure, compartilhado no cluster de computação.

    Opcionalmente, você também pode usar os volumes NFS do Azure NetApp Files para SASWORK.

    Os Arquivos NetApp do Azure estão disponíveis em três níveis de serviço de desempenho:

    • Standard
    • Premium
    • Ultra

    O desempenho do volume é definido principalmente pelo nível de serviço. O tamanho do volume também é um fator, porque a taxa de transferência obtida é determinada pelo nível de serviço e pelo tamanho do volume.

Opções de armazenamento para SASDATA

Como os Arquivos NetApp do Azure podem fornecer acesso de alta taxa de transferência e baixa latência ao armazenamento, é uma alternativa viável e mais rápida ao Disco Premium. O armazenamento conectado à rede não é limitado no nível da VM como acontece com os discos gerenciados, portanto, você obtém uma taxa de transferência mais alta para o armazenamento.

Para estimar a camada necessária para sua capacidade SASDATA, use a Calculadora de Desempenho de Arquivos NetApp do Azure. (Certifique-se de selecionar avançado.)

Como os volumes NFS do Azure NetApp Files são compartilhados, eles são um bom candidato para hospedar SASDATA, quando usados com os tipos de instância de VM de tamanho adequado e a distribuição RHEL, discutidos mais adiante neste artigo.

Opções de armazenamento para SASWORK

A tabela a seguir mostra as opções de armazenamento mais comuns para implantar o SASWORK no Azure. Dependendo dos seus requisitos de tamanho (capacidade) e velocidade (largura de banda), você tem três opções: armazenamento temporário, disco gerenciado e Arquivos NetApp do Azure.

Armazenamento temporário Disco gerenciado Azure NetApp Files
Tamanho Pequena Grande Extra grande
Velocidade Extra grande Pequena Médio

Tenha em conta estas considerações ao escolher uma opção:

  • O armazenamento temporário (ou armazenamento efêmero) fornece a maior largura de banda, mas está disponível apenas em tamanhos menores. (O tamanho depende da SKU da VM.) Dependendo das capacidades disponíveis e necessárias, esta opção pode ser a melhor.
  • Se a capacidade SASWORK necessária exceder o tamanho de armazenamento temporário da SKU da VM selecionada, considere usar um disco gerenciado do Azure para hospedar o SASWORK. Tenha em mente, no entanto, que a taxa de transferência para um disco gerenciado é limitada pela arquitetura da VM por design e que varia dependendo da SKU da VM. Portanto, essa opção de armazenamento é viável apenas para ambientes com requisitos de desempenho SASWORK mais baixos.
  • Para obter os requisitos de capacidade SASWORK mais altos e um requisito médio de desempenho além do que os discos gerenciados do Azure podem fornecer, considere os Arquivos NetApp do Azure para SASWORK. Ele fornece um tamanho grande juntamente com rendimento rápido.

Importante

Em qualquer cenário, lembre-se de que o SASWORK não pode ser compartilhado entre nós de computação de VM, portanto, você precisa criar volumes SASWORK separados para cada nó de computação. Os volumes precisam ser montados em NFS em apenas um nó de computação.

Ao usar a tabela anterior, para decidir se suas necessidades são pequenas, grandes, médias ou extragrandes, leve em consideração a escala da implantação, o número de VMs e núcleos e os requisitos de capacidade e desempenho associados. Você precisa fazer essas avaliações para cada implantação.

As opções na tabela correspondem às implantações descritas nas arquiteturas a seguir. Em todos os cenários, o SASDATA é hospedado em um volume NFS do Azure NetApp Files e compartilhado entre os nós de computação. Para algumas distribuições RHEL, recomendamos o uso da opção NFS nconnect para criar vários fluxos de rede para o volume. Para obter mais informações, consulte a seção Opções de montagem NFS deste artigo.

Arquitetura de armazenamento temporário

Diagrama que mostra uma arquitetura de armazenamento temporário.

Para requisitos de capacidade SASWORK menores, o armazenamento temporário de VM do Azure é uma solução rápida e econômica. Nessa arquitetura, cada VM na camada de computação é equipada com algum armazenamento temporário. Para determinar os tamanhos de armazenamento temporário para as VMs que você usa, consulte a documentação da VM do Azure.

Fluxo de dados

  • Um nó de computação lê os dados de entrada do SASDATA e grava os resultados no SASDATA.
  • Uma parte subsequente do trabalho de análise pode ser executada por outro nó na camada de computação. Ele usa o mesmo procedimento para obter e armazenar as informações que precisa processar.
  • O diretório de trabalho temporário SASWORK não é compartilhado. Ele é armazenado em armazenamento temporário em cada nó de computação.

Arquitetura de disco gerenciado

Diagrama que mostra uma arquitetura de disco gerenciado.

Se os seus requisitos de capacidade para SASWORK excederem as capacidades disponíveis no armazenamento temporário, os discos geridos do Azure são uma boa alternativa. Os discos gerenciados estão disponíveis em vários tamanhos e níveis de desempenho. Para obter mais informações, consulte Metas de escalabilidade e desempenho para discos VM.

Fluxo de dados

  • Um nó de computação lê os dados de entrada do SASDATA e grava os resultados no SASDATA.
  • Uma parte subsequente do trabalho de análise pode ser executada por outro nó na camada de computação. Ele usa o mesmo procedimento para obter e armazenar as informações que precisa processar.
  • O diretório de trabalho temporário SASWORK não é compartilhado. Ele é armazenado em discos gerenciados que são anexados a cada nó de computação.

Arquitetura de arquivos NetApp do Azure

Diagrama que mostra uma arquitetura de Arquivos NetApp do Azure.

Para maior capacidade SASWORK ou requisitos de desempenho médio, considere usar os Arquivos NetApp do Azure. Os Arquivos NetApp do Azure fornecem capacidades de volume de até 100 TiB com um volume regular e 1 PiB com um grande volume. Cada nó na camada de computação deve ter seu próprio volume SASWORK. Os volumes não devem ser compartilhados.

Fluxo de dados

  • Um nó de computação lê os dados de entrada do SASDATA e grava os resultados no SASDATA.
  • Uma parte subsequente do trabalho de análise pode ser executada por outro nó na camada de computação. Ele usa o mesmo procedimento para obter e armazenar as informações que precisa processar.
  • O diretório de trabalho temporário SASWORK não é compartilhado. Ele é armazenado em volumes individuais dos Arquivos NetApp do Azure que são anexados a cada nó de computação.

Recomendações de escala e configuração

  • Para obter a melhor e mais consistente latência para o tráfego de dados entre as instâncias no cluster SAS, certifique-se de que todas as VMs sejam criadas no mesmo grupo de posicionamento de proximidade.
  • Consulte a seção Diretrizes gerais de ajuste em Práticas recomendadas para usar o SAS no Azure.
  • Para uma largura de banda de rede ideal, ative a Rede Acelerada.

Distribuições RHEL e configurações NFS

Distribuições RHEL

RHEL é a distribuição recomendada para executar o SAS 9 no Linux. Cada kernel suportado pela Red Hat tem suas próprias restrições de largura de banda NFS.

Para obter detalhes sobre como executar o SAS no Azure, consulte Práticas recomendadas para usar o SAS no Azure.

As VMs do Azure Standard_E64-16ds_v4 e Standard_E64-32ds_v4, ou seus equivalentes v5, são recomendadas para SAS. Tendo em conta estas recomendações, esta secção fornece algumas diretrizes para utilizar o SAS com os Ficheiros NetApp do Azure.

  • Se você usa o RHEL 7, Standard_E64-16ds_v4 ou Standard_E64-16ds_v5 é a melhor escolha, com base nos 100 MiB/s por destino de núcleo físico para SASDATA.

    • Standard_E64-16ds_v4: 90–100 MiB/s por núcleo
    • Standard_E64-32ds_v4: 45-50 MiB/s por núcleo
  • Se você usar o RHEL 8.2, Standard_E64-16ds_v4 ou Standard_E64-32ds_v4, ou seus equivalentes v5, são opções possíveis. Standard_E64-16ds_v4 é preferível, dado o alvo de 100 MiB/s por núcleo para SASDATA.

    • Standard_E64-16ds_v4: 150-160 MiB/s por núcleo
    • Standard_E64-32ds_v4: 75-80 MiB/s por núcleo
  • Se você usar o RHEL 8.3, tanto o Standard_E64-16ds_v4 quanto o Standard_E64-32ds_v4, ou seus equivalentes v5, serão totalmente aceitáveis, dado o objetivo de taxa de transferência por núcleo:

    • A validação indica 3.200 MiB/s de leituras.
    • Esses resultados são alcançados com a opção de montagem NFS nconnect .

Os testes mostram que uma única instância do RHEL 7 não atinge mais do que aproximadamente 750-800 MiB/s de taxa de transferência de leitura em relação a um único ponto de extremidade de armazenamento do Azure NetApp Files (ou seja, em relação a um soquete de rede). 1.500 MiB/s de gravações são alcançáveis no mesmo ponto de extremidade, se você usar opções de montagem de 64 KiB rsize e wsize NFS. Algumas evidências sugerem que o teto de taxa de transferência de leitura observado anteriormente é um artefato do kernel 3.10. Para obter mais informações, consulte RHEL CVE-2019-11477.

Os testes mostram que uma única instância RHEL 8.2, com seu kernel 4.18, está livre das limitações observadas no kernel 3.10. Portanto, 1.200-1.300 MiB/s de tráfego de leitura é alcançável, se você usar uma opção de montagem de 64 KiB rsize e wsize NFS. Para grandes gravações sequenciais, você pode esperar os mesmos 1500 MiB/s de taxa de transferência alcançável que obteria no RHEL 7.

Com uma única instância do RHEL 8.3, com a opção de montagem nconnect (que é nova na distribuição RHEL 8.3), cerca de 3.200 MiB/s de taxa de transferência de leitura é possível a partir de um único volume de Arquivos NetApp do Azure. Não espere mais de 1.500 MiB/s de gravações em um único volume do Azure NetApp Files, mesmo quando você aplicar nconnecto .

Sintonizáveis do kernel

Entradas na tabela de faixas horárias

O NFSv3 não tem um mecanismo para negociar simultaneidade entre o cliente e o servidor. O cliente e o servidor definem seus limites sem consciência do outro. Para obter o melhor desempenho, você deve alinhar o número máximo de entradas da tabela de slots do lado sunrpc do cliente com as suportadas sem pushback no servidor. Quando um cliente sobrecarrega a capacidade da pilha de rede do servidor de processar uma carga de trabalho, o servidor responde diminuindo o tamanho da janela para a conexão, o que não é ideal para o desempenho.

Por padrão, os kernels Linux modernos definem o tamanho sunrpc.max_tcp_slot_table_entries de entrada da tabela de slots por conexão sunrpc para suportar 65.536 operações pendentes. Essas entradas da tabela de slots definem os limites da simultaneidade. Valores tão altos são desnecessários porque o Azure NetApp Files usa como padrão 128 operações pendentes.

Recomendamos que você ajuste o cliente para o mesmo número:

  • Sintonizáveis do kernel (via /etc/sysctl.conf)
    • sunrpc.tcp_max_slot_table_entries=128

Sintonizáveis de cache do sistema de arquivos

Você também precisa entender os seguintes fatores sobre os sintonizáveis de cache do sistema de arquivos:

  • Liberar um buffer sujo deixa os dados em um estado limpo, utilizável para leituras futuras até que a pressão da memória leve à remoção.
  • Há três gatilhos para uma operação de descarga assíncrona:
    • Baseado no tempo: Quando um tampão atinge a idade definida pelo vm.dirty_expire_centisecs ou vm.dirty_writeback_centisecs sintonizável, ele deve ser marcado para limpeza (ou seja, lavagem ou gravação para armazenamento).
    • Pressão da memória: Para obter detalhes, consulte vm.dirty_ratio | vm.dirty_bytes.
    • Fechar: Quando um identificador de arquivo é fechado, todos os buffers sujos são liberados de forma assíncrona para o armazenamento.

Estes fatores são controlados por quatro sintonizáveis. Você pode ajustar cada ajuste dinamicamente e persistentemente usando tuned ou sysctl no arquivo /etc/sysctl.conf . O ajuste dessas variáveis melhora o desempenho do SAS Grid:

  • Sintonizáveis do kernel (através de perfil ajustado personalizado)
    • include = throughput-performance
    • vm.dirty_bytes = 31457280
    • vm.dirty_expire_centisecs = 100
    • vm.dirty_writeback_centisecs = 300

Opções de montagem NFS

Recomendamos as seguintes opções de montagem NFS para sistemas de arquivos compartilhados NFS que são usados para arquivos SASDATA permanentes:

RHEL 7 e 8.2

bg,rw,hard,rsize=65536,wsize=65536,vers=3,noatime,nodiratime,rdirplus,acdirmin=0,tcp,_netdev

RHEL 8,3

bg,rw,hard,rsize=65536,wsize=65536,vers=3,noatime,nodiratime,rdirplus,acdirmin=0,tcp,_netdev,nconnect=8

Recomendamos as seguintes opções de montagem para volumes SASWORK , onde os respetivos volumes são usados exclusivamente para SASWORK e não compartilhados entre nós:

RHEL 7 e 8.2

bg,rw,hard,rsize=65536,wsize=65536,vers=3,noatime,nodiratime,rdirplus,acdirmin=0,tcp,_netdev,nocto

RHEL 8,3

bg,rw,hard,rsize=65536,wsize=65536,vers=3,noatime,nodiratime,rdirplus,acdirmin=0,tcp,_netdev,nocto,nconnect=8

Para obter mais informações sobre os benefícios e o nocto custo da opção de montagem, consulte Temporizadores de atributo de cache e consistência de fechamento para abrir.

Você também deve examinar Arquivos NetApp do Azure: um sistema de arquivos compartilhado para usar com a Grade SAS no MS Azure, incluindo todas as atualizações nos comentários.

Configurações de leitura antecipada do NFS

Recomendamos que você defina o ajuste de leitura antecipada NFS para todas as distribuições RHEL para 15.360 KiB. Para obter mais informações, consulte Como definir persistentemente o read-ahead para montagens NFS.

Alternativas

A solução de armazenamento nas arquiteturas anteriores é altamente disponível, conforme especificado pelo contrato de nível de serviço do Azure NetApp Files. Para obter proteção e disponibilidade extras, você pode replicar os volumes de armazenamento para outra região do Azure usando a replicação entre regiões do Azure NetApp Files.

Há duas vantagens principais em replicar os volumes por meio da solução de armazenamento:

  • Não há carga adicional nas VMs do aplicativo.
  • Esta solução elimina a necessidade de executar VMs na região de destino durante a operação normal.

O conteúdo do armazenamento é replicado sem o uso de recursos de infraestrutura de computação e a região de destino não precisa executar o software SAS. As VMs de destino não precisam estar em execução para oferecer suporte a esse cenário.

A arquitetura a seguir mostra como o conteúdo de armazenamento nos Arquivos NetApp do Azure é replicado para uma segunda região, onde o armazenamento é preenchido com uma réplica dos dados de produção. Se houver um failover, a região secundária será colocada online e as VMs serão iniciadas para que a produção possa ser retomada na segunda região. Você precisa redirecionar o tráfego para a segunda região reconfigurando os balanceadores de carga que não são mostrados no diagrama.

Diagrama que mostra uma arquitetura com replicação entre regiões.

O RPO típico para esta solução é inferior a 20 minutos quando o intervalo de atualização de replicação entre regiões é definido como 10 minutos.

Fluxo de dados

  • Um nó de computação lê os dados de entrada do SASDATA e grava os resultados no SASDATA.
  • Uma parte subsequente do trabalho de análise pode ser executada por outro nó na camada de computação. Ele usa o mesmo procedimento para obter e armazenar as informações que precisa processar.
  • O diretório de trabalho temporário SASWORK não é compartilhado. Ele é armazenado em volumes individuais dos Arquivos NetApp do Azure que são anexados a cada nó de computação.
  • A replicação entre regiões dos Arquivos NetApp do Azure replica de forma assíncrona o volume SASDATA, incluindo todos os instantâneos, para uma região DR para facilitar o failover se houver um desastre regional.

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework, um conjunto de princípios orientadores que você pode usar para melhorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Microsoft Azure Well-Architected Framework.

Fiabilidade

A confiabilidade garante que seu aplicativo possa atender aos compromissos que você assume com seus clientes. Para obter mais informações, consulte Visão geral do pilar de confiabilidade.

Os Arquivos NetApp do Azure fornecem um SLA de disponibilidade padrão de 99,99% para todas as camadas e todas as regiões com suporte. Os Arquivos NetApp do Azure também dão suporte a volumes de provisionamento em zonas de disponibilidade que você escolher e implantações de HA entre zonas.

Para SLAs de RPO/RTO aprimorados, a proteção de dados integrada com snapshots e backup está incluída no serviço. A replicação entre regiões oferece os mesmos benefícios em todas as regiões do Azure.

Segurança

A segurança oferece garantia contra ataques deliberados e o abuso de seus valiosos dados e sistemas. Para obter mais informações, consulte Visão geral do pilar de segurança.

Os Arquivos NetApp do Azure fornecem um nível de segurança porque os volumes são provisionados e o tráfego de dados permanece em suas redes virtuais. Não há um ponto de extremidade publicamente endereçável. Todos os dados são sempre encriptados em repouso . Opcionalmente, você pode criptografar dados em trânsito.

A Política do Azure pode ajudá-lo a aplicar padrões organizacionais e avaliar a conformidade em escala. Os Arquivos NetApp do Azure dão suporte à Política do Azure por meio de definições de política personalizadas e internas.

Eficiência de desempenho

Eficiência de desempenho é a capacidade da sua carga de trabalho para dimensionar para satisfazer as exigências que os utilizadores lhe colocam de forma eficiente. Para obter mais informações, consulte Visão geral do pilar de eficiência de desempenho.

Desempenho

Dependendo de seus requisitos de taxa de transferência e capacidade, tenha em mente as seguintes considerações:

  • As considerações de desempenho para Arquivos NetApp do Azure.
  • A capacidade e os níveis de serviço necessários dos Arquivos NetApp do Azure para SASDATA.
  • A orientação neste artigo para escolher um tipo de armazenamento para SASWORK.

Nota

O recurso de grandes volumes Arquivos NetApp do Azure agora está disponível. Esse recurso fornece uma taxa de transferência por volume maior do que os volumes normais do Azure NetApp Files. Esta capacidade pode ser considerada no caso de ser necessário mais desempenho para os seus volumes SASDATA (ou SASWORK). Consulte esta documentação para obter detalhes.

Escalabilidade

Você pode dimensionar facilmente o desempenho de computação adicionando VMs aos conjuntos de escala que executam as três camadas da solução SAS.

Você pode dimensionar dinamicamente o armazenamento de volumes do Azure NetApp Files. Se você usar QoS automática, o desempenho será dimensionado ao mesmo tempo. Para um controle mais granular de cada volume, você também pode controlar o desempenho de cada volume separadamente usando QoS manual para seus pools de capacidade.

Os volumes do Azure NetApp Files estão disponíveis em três camadas de desempenho: Ultra, Premium e Standard. Escolha a camada que melhor se adapta aos seus requisitos de desempenho, levando em consideração que a largura de banda de desempenho disponível é dimensionada com o tamanho de um volume. Você pode alterar o nível de serviço de um volume a qualquer momento. Para obter mais informações sobre o modelo de custo do Azure NetApp Files, consulte estes exemplos de preços.

Você pode usar a Calculadora de Desempenho de Arquivos NetApp do Azure para começar.

Otimização de custos

A otimização de custos consiste em reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Visão geral do pilar de otimização de custos.

Modelo de custos

Compreender o modelo de custo dos Arquivos NetApp do Azure pode ajudá-lo a gerenciar suas despesas.

A cobrança dos Arquivos NetApp do Azure é baseada na capacidade de armazenamento provisionada, que você aloca criando pools de capacidade. Os pools de capacidade são cobrados mensalmente com base em um custo definido por GiB alocado por hora.

Se os requisitos de tamanho do pool de capacidade flutuarem (por exemplo, devido a necessidades variáveis de capacidade ou desempenho), considere redimensionar dinamicamente seus volumes e pools de capacidade para equilibrar o custo com suas necessidades de capacidade e desempenho.

Se os requisitos de tamanho do pool de capacidade permanecerem os mesmos, mas os requisitos de desempenho flutuarem, considere alterar dinamicamente o nível de serviço de um volume. Você pode provisionar e desprovisionar pools de capacidade de diferentes tipos ao longo do mês, fornecendo desempenho just-in-time e reduzindo custos durante períodos em que não precisa de alto desempenho.

Preços

Com base em seus requisitos de capacidade e desempenho, decida qual nível de serviço do Azure NetApp Files você precisa (Standard, Premium ou Ultra). Em seguida, use a calculadora de preços do Azure para avaliar os custos desses componentes:

  • SAS em componentes do Azure
  • Azure NetApp Files
  • Disco gerenciado (opcionalmente)
  • Rede virtual

Excelência operacional

A excelência operacional abrange os processos operacionais que implantam um aplicativo e o mantêm em execução na produção. Para obter mais informações, consulte Visão geral do pilar de excelência operacional.

O SAS Grid no Azure oferece flexibilidade e uma implantação rápida. Aqui estão alguns benefícios:

  • Atenda às demandas de negócios em constante mudança com o balanceamento dinâmico da carga de trabalho
  • Crie um ambiente de computação SAS altamente disponível
  • Obtenha resultados mais rápidos da sua infraestrutura de TI existente
  • Aumente os recursos de computação de forma incremental e econômica
  • Gerencie todas as suas cargas de trabalho analíticas
  • Transfira facilmente de um servidor em silos ou de um ambiente de vários PCs para um ambiente de grade SAS

Implementar este cenário

É melhor implantar as cargas de trabalho usando um processo de infraestrutura como código (IaC). As cargas de trabalho SAS podem ser sensíveis a configurações incorretas que geralmente ocorrem em implantações manuais e reduzem a produtividade.

Para começar a projetar sua solução SAS Grid on Azure, revise SAS na Arquitetura do Azure e Automatizando a Implantação do SAS no Azure usando as Ações do GitHub.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Principais autores:

Outros contribuidores:

Para ver perfis não públicos do LinkedIn, inicie sessão no LinkedIn.

Próximos passos