Comparar opções de armazenamento para uso com clusters do Azure HDInsight

Você pode escolher entre vários serviços de armazenamento do Azure diferentes durante a criação de clusters do HDInsight:

Este artigo fornece uma visão geral desses tipos de armazenamento e de seus recursos exclusivos.

Tipos e recursos de armazenamento

A tabela a seguir resume os serviços de Armazenamento do Azure que têm suporte com versões diferentes do HDInsight:

Serviço de armazenamento Tipo de conta Tipo de namespace Serviços com suporte Níveis de desempenho compatíveis Camadas de acesso compatíveis Versão do HDInsight Tipo de cluster
Azure Data Lake Storage Gen2 Uso geral V2 Hierárquico (filesystem) Blob Standard Frequente, Esporádico, Arquivos 3.6+ Todos, exceto Spark 2.1 e 2.2
Armazenamento do Azure Uso geral V2 Objeto Blob Standard Frequente, Esporádico, Arquivos 3.6+ Tudo
Armazenamento do Azure Uso geral V1 Objeto Blob Standard N/D Tudo Todos
Armazenamento do Azure Armazenamento de Blobs** Objeto Blob de blocos Standard Frequente, Esporádico, Arquivos Todos Todos
Azure Data Lake Storage Gen1 N/D Hierárquico (filesystem) N/D N/D N/D Somente 3.6 Todos, exceto HBase
Armazenamento do Azure Blob de blocos Objeto Blob de blocos Premium N/D 3.6+ Somente HBase com gravações aceleradas
Azure Data Lake Storage Gen2 Blob de blocos Hierárquico (filesystem) Blob de blocos Premium N/D 3.6+ Somente HBase com gravações aceleradas

** Para clusters HDInsight, somente contas de armazenamento secundárias podem ser do tipo BlobStorage, e o blob de páginas não é uma opção de armazenamento com suporte.

Para saber mais sobre os tipos de contas de Armazenamento do Azure, consulte Visão geral de conta de armazenamento do Azure

Para saber mais sobre as camadas de acesso do Armazenamento do Azure, confira Armazenamento de Blobs do Azure: camadas de armazenamento quente, frio, de arquivos e Premium (versão prévia)

Você pode criar clusters usando combinações de serviços para armazenamento primário e secundário opcional. A tabela a seguir resume as configurações de armazenamento de cluster que atualmente têm suporte no HDInsight:

Versão do HDInsight Armazenamento primário Armazenamento secundário Com suporte
3.6 e 4.0 Uso geral V1, Uso geral V2 Uso geral V1, Uso geral V2, BlobStorage (blobs de blocos) Sim
3.6 e 4.0 Uso geral V1, Uso geral V2 Data Lake Storage Gen2 Não
3.6 e 4.0 Data Lake Storage Gen2* Data Lake Storage Gen2 Sim
3.6 e 4.0 Data Lake Storage Gen2* Uso geral V1, Uso geral V2, BlobStorage (blobs de blocos) Sim
3.6 e 4.0 Data Lake Storage Gen2 Data Lake Storage Gen1 Não
3,6 Data Lake Storage Gen1 Data Lake Storage Gen1 Sim
3,6 Data Lake Storage Gen1 Uso geral V1, Uso geral V2, BlobStorage (blobs de blocos) Sim
3,6 Data Lake Storage Gen1 Data Lake Storage Gen2 Não
4,0 Data Lake Storage Gen1 Qualquer Não
4,0 Uso geral V1, Uso geral V2 Data Lake Storage Gen1 Não

\* = Isso pode ser um ou vários Data Lake Storage Gen2, desde que todas as configurações usem a mesma identidade gerenciada para acesso ao cluster.

Observação

Não há suporte para o armazenamento primário Data Lake Storage Gen2 para clusters Spark 2.1 ou 2.2.

Replicação de dados

O Azure HDInsight não armazena dados do cliente. O principal meio de armazenamento para um cluster são suas contas de armazenamento associadas. Você pode anexar o cluster a uma conta de armazenamento existente ou criar uma nova conta de armazenamento durante o processo de criação do cluster. Se uma nova conta for criada, ela será criada como uma conta de LRS (armazenamento com redundância local) e atenderá aos requisitos de residência de dados na região, incluindo aqueles especificados na Central de Confiabilidade.

Você pode validar se o HDInsight está configurado corretamente para armazenar dados em uma única região, garantindo que a conta de armazenamento associada ao HDInsight seja LRS ou outra opção de armazenamento mencionada na Central de Confiabilidade.

Observação

Não há suporte para a atualização da conta de armazenamento primária ou secundária de um cluster em execução com recursos do Azure Data Lake Storage Gen2. Para alterar o tipo de armazenamento de um cluster HDInsight existente para o Data Lake Storage Gen2, você precisará recriar o cluster e selecionar uma conta de armazenamento habilitada para namespace hierárquico.

Próximas etapas