Selezione delle dimensioni corrette della macchina virtuale per il cluster Azure HDInsight

Questo articolo illustra come selezionare le dimensioni corrette della macchina virtuale per i vari nodi del cluster HDInsight.

Per iniziare, comprendere come le proprietà di una macchina virtuale, ad esempio l'elaborazione della CPU, le dimensioni della RAM e la latenza di rete influiscono sull'elaborazione dei carichi di lavoro. Si consideri quindi l'applicazione e le corrispondenze con le diverse famiglie di macchine virtuali ottimizzate. Assicurarsi che la famiglia di macchine virtuali che si vuole usare sia compatibile con il tipo di cluster che si intende distribuire. Per un elenco di tutte le dimensioni di vm supportate e consigliate per ogni tipo di cluster, vedere Configurazioni dei nodi supportate da Azure HDInsight. Infine, è possibile usare un processo di benchmarking per testare alcuni carichi di lavoro di esempio e verificare quale SKU all'interno di tale famiglia è adatto.

Per altre informazioni sulla pianificazione di altri aspetti del cluster, ad esempio la selezione di un tipo di archiviazione o delle dimensioni del cluster, vedere Pianificazione della capacità per i cluster HDInsight.

Proprietà delle macchine virtuali e carichi di lavoro di Big Data

Le dimensioni e il tipo di macchina virtuale sono determinati dalla potenza di elaborazione della CPU, dalle dimensioni della RAM e dalla latenza di rete:

  • CPU: le dimensioni della macchina virtuale determinano il numero di core. Maggiore è il numero di core, più alto è il grado di calcolo parallelo che ogni nodo può raggiungere. Alcuni tipi di macchine virtuali hanno core più veloci.

  • RAM: le dimensioni della macchina virtuale determinano anche la quantità di RAM disponibile nella macchina virtuale. Per i carichi di lavoro che archiviano i dati in memoria per essere elaborati, anziché leggerli dal disco, accertarsi che i nodi di lavoro abbiano memoria sufficiente per contenere i dati.

  • Rete: per la maggior parte dei tipi di cluster, i dati elaborati dal cluster non si trovano sul disco locale, ma piuttosto in un servizio di archiviazione esterno, ad esempio Data Lake Storage o Archiviazione di Azure. È necessario quindi tenere conto della larghezza di banda di rete e della velocità effettiva tra la macchina virtuale del nodo e il servizio di archiviazione. In genere, la larghezza di banda di rete disponibile per una macchina virtuale aumenta in caso di macchine di grandi dimensioni. Per informazioni dettagliate, vedere Panoramica delle dimensioni di VM.

Informazioni sull'ottimizzazione delle macchine virtuali

Le famiglie di macchine virtuali in Azure sono ottimizzate per soddisfare casi d'uso diversi. Nella tabella seguente è possibile trovare alcuni dei casi d'uso più diffusi e le famiglie di macchine virtuali corrispondenti.

Type Dimensioni Descrizione
Livello di ingresso Av2 Avere configurazioni di memoria e prestazioni della CPU più adatte per carichi di lavoro di livello di ingresso, ad esempio sviluppo e test. Sono economici e offrono un'opzione a basso costo per iniziare a usare Azure.
Utilizzo generico D, DSv2, Dv2 Rapporto equilibrato tra CPU e memoria. Questa opzione è ideale per test e sviluppo, database medio-piccoli e server Web con traffico da medio a ridotto.
Con ottimizzazione per il calcolo F Rapporto elevato tra CPU e memoria. Questa opzione è adatta per server Web con traffico medio, appliance di rete, processi batch e server applicazioni.
Ottimizzato per la memoria Esv3, Ev3 Rapporto elevato tra memoria e CPU. Questa opzione è ottimale per server di database relazionali, cache medio-grandi e analisi in memoria.
  • Per informazioni sui prezzi delle istanze di macchine virtuali disponibili in aree supportate da HDInsight, vedere Prezzi di HDInsight.

Risparmio dei costi dei tipi di macchina virtuale per carichi di lavoro leggeri

Se si hanno requisiti di elaborazione leggera, la serie F può essere una buona scelta per iniziare a usare HDInsight. Con un prezzo di listino orario più basso, la serie F presenta il migliore rapporto prezzo-prestazioni nel portfolio Azure basato sull'unità di elaborazione di Azure (ACU, Azure Compute Unit) per ogni vCPU.

La tabella seguente descrive i tipi di cluster e i tipi di nodo, che possono essere creati con le macchine virtuali della serie Fsv2.

Tipo di cluster Versione Nodo del ruolo di lavoro Nodo head Nodo Zookeeper
Spark Tutte le date F4 e versioni successive no no
Hadoop Tutte le date F4 e versioni successive no no
Kafka Tutte le date F4 e versioni successive no no
HBase Tutte le date F4 e versioni successive no no
LLAP disabilitato no no no

Per visualizzare le specifiche di ogni SKU della serie F, vedere Dimensioni delle macchine virtuali serie F.

Analisi comparativa

Il benchmarking è il processo di esecuzione di carichi di lavoro simulati in macchine virtuali diverse per misurare il livello di prestazioni per i carichi di lavoro di produzione.

Per altre informazioni sul benchmarking per SKU di macchine virtuali e dimensioni del cluster, vedere Pianificazione della capacità del cluster in Azure HDInsight .

Passaggi successivi