Selecionando o tamanho certo da VM para seu cluster do Azure HDInsight
Este artigo descreve como selecionar o tamanho correto da VM para os vários nós no cluster HDInsight.
Comece entendendo como as propriedades de uma máquina virtual, como processamento de CPU, tamanho da RAM e latência de rede, afetam o processamento de suas cargas de trabalho. Em seguida, pense em seu aplicativo e como ele corresponde ao que diferentes famílias de VM são otimizadas para. Verifique se a família de VMs que você gostaria de usar é compatível com o tipo de cluster que você planeja implantar. Para obter uma lista de todos os tamanhos de VM com suporte e recomendados para cada tipo de cluster, consulte Configurações de nó com suporte do Azure HDInsight. Por fim, você pode usar um processo de benchmarking para testar algumas cargas de trabalho de amostra e verificar qual SKU dentro dessa família é ideal para você.
Para obter mais informações sobre como planejar outros aspetos do cluster, como a seleção de um tipo de armazenamento ou tamanho de cluster, consulte Planejamento de capacidade para clusters HDInsight.
Propriedades de VM e cargas de trabalho de big data
O tamanho e o tipo de VM são determinados pelo poder de processamento da CPU, tamanho da RAM e latência da rede:
CPU: O tamanho da VM dita o número de núcleos. Quanto mais núcleos, maior o grau de computação paralela que cada nó pode alcançar. Além disso, alguns tipos de VM têm núcleos mais rápidos.
RAM: O tamanho da VM também dita a quantidade de RAM disponível na VM. Para cargas de trabalho que armazenam dados na memória para processamento, em vez de ler a partir do disco, certifique-se de que os nós de trabalho tenham memória suficiente para ajustar os dados.
Rede: para a maioria dos tipos de cluster, os dados processados pelo cluster não estão no disco local, mas sim em um serviço de armazenamento externo, como o Armazenamento Data Lake ou o Armazenamento do Azure. Considere a largura de banda da rede e a taxa de transferência entre a VM do nó e o serviço de armazenamento. A largura de banda de rede disponível para uma VM normalmente aumenta com tamanhos maiores. Para obter detalhes, consulte Visão geral dos tamanhos de VM.
Noções básicas sobre otimização de VM
As famílias de máquinas virtuais no Azure são otimizadas para atender a diferentes casos de uso. Na tabela a seguir, você pode encontrar alguns dos casos de uso mais populares e as famílias de VM que correspondem a eles.
Type | Tamanhos | Description |
---|---|---|
Nível de entrada | Av2 |
Ter o desempenho da CPU e as configurações de memória mais adequadas para cargas de trabalho de nível de entrada, como desenvolvimento e teste. Eles são econômicos e fornecem uma opção de baixo custo para começar a usar o Azure. |
Fins gerais | D , DSv2 , Dv2 |
Proporção equilibrada entre CPU e memória. Ideais para testes e programação, bases de dados pequenas a médias e servidores Web de tráfego baixo a médio. |
Com otimização de computação | F |
Proporção elevada de CPU para memória. Ideal para servidores Web com tráfego médio, aplicações de rede, processos em lote e servidores de aplicações. |
Com otimização de memória | Esv3 , Ev3 |
Proporção elevada de memória para CPU. Ideais para servidores de bases de dados relacionais, caches médias a grandes e análise dentro da memória. |
- Para obter informações sobre preços de instâncias de VM disponíveis em regiões com suporte do HDInsight, consulte Preços do HDInsight.
Tipos de VM econômicos para cargas de trabalho leves
Se você tiver requisitos de processamento leve, a série F pode ser uma boa opção para começar a usar o HDInsight. A um preço de tabela por hora mais baixo, a série F é o melhor valor de desempenho por preço no portefólio do Azure com base na Unidade de Computação do Azure (ACU) por vCPU.
A tabela a seguir descreve os tipos de cluster e tipos de nó, que podem ser criados com as VMs da série Fsv2.
Tipo de Cluster | Versão | Nó de Trabalho | Nó Principal | Nó de ZooKeeper |
---|---|---|---|---|
Spark | Todos | F4 e superior | não | não |
Hadoop | Todos | F4 e superior | não | não |
Kafka | Todos | F4 e superior | não | não |
HBase | Todos | F4 e superior | não | não |
LLAP | desativado | não | não | não |
Para ver as especificações de cada SKU da série F, consulte Tamanhos de VM da série F.
Avaliação comparativa
O benchmarking é o processo de executar cargas de trabalho simuladas em diferentes VMs para medir o desempenho delas para suas cargas de trabalho de produção.
Para obter mais informações sobre benchmarking para SKUs de VM e tamanhos de cluster, consulte Planejamento de capacidade de cluster no Azure HDInsight .