Comparar opções de armazenamento para uso com clusters do Azure HDInsight

Você pode escolher entre alguns serviços de armazenamento do Azure diferentes ao criar clusters HDInsight:

Este artigo fornece uma visão geral desses tipos de armazenamento e seus recursos exclusivos.

Tipos e recursos de armazenamento

A tabela a seguir resume os serviços de Armazenamento do Azure com suporte em diferentes versões do HDInsight:

Serviço de armazenamento Tipo de conta Tipo de namespace Serviços suportados Escalões de desempenho suportados Escalões de acesso suportados Versão do HDInsight Tipo de cluster
Azure Data Lake Storage Gen2 Fins gerais v2 Hierárquico (sistema de arquivos) Blob Standard Frequente, Esporádico, Arquivo 3.6+ Todos, exceto Spark 2.1 e 2.2
Armazenamento do Azure Fins gerais v2 Object Blob Standard Frequente, Esporádico, Arquivo 3.6+ Todos
Armazenamento do Azure Fins gerais v1 Object Blob Standard N/A Todos Todos
Armazenamento do Azure Armazenamento de Blob** Object Blob de Blocos Standard Frequente, Esporádico, Arquivo Todos Todos
Armazenamento do Azure Data Lake Ger1 N/A Hierárquico (sistema de arquivos) N/A N/D N/A 3.6 Apenas Todos, exceto HBase
Armazenamento do Azure Blob de Blocos Object Blob de Blocos Premium N/A 3.6+ Apenas HBase com gravações aceleradas
Azure Data Lake Storage Gen2 Blob de Blocos Hierárquico (sistema de arquivos) Blob de Blocos Premium N/A 3.6+ Apenas HBase com gravações aceleradas

**Para clusters HDInsight, apenas contas de armazenamento secundárias podem ser do tipo BlobStorage e Page Blob não é uma opção de armazenamento suportada.

Para obter mais informações sobre os tipos de conta de Armazenamento do Azure, consulte Visão geral da conta de armazenamento do Azure

Para obter mais informações sobre as camadas de acesso do Armazenamento do Azure, consulte Armazenamento de Blob do Azure: camadas de armazenamento Premium (visualização), Quente, Cool e Archive

Você pode criar clusters usando combinações de serviços para armazenamento primário e secundário opcional. A tabela a seguir resume as configurações de armazenamento de cluster atualmente suportadas no HDInsight:

Versão do HDInsight Armazenamento primário Armazenamento secundário Suportado
3,6 & 4,0 Propósito Geral V1, Propósito Geral V2 Uso Geral V1, Propósito Geral V2, BlobStorage (Blobs de Bloco) Sim
3,6 & 4,0 Propósito Geral V1, Propósito Geral V2 Armazenamento do Data Lake Ger2 Não
3,6 & 4,0 Armazenamento Data Lake Gen2* Armazenamento do Data Lake Ger2 Sim
3,6 & 4,0 Armazenamento Data Lake Gen2* Uso Geral V1, Propósito Geral V2, BlobStorage (Blobs de Bloco) Sim
3,6 & 4,0 Armazenamento do Data Lake Ger2 Ger1 de Armazenamento do Data Lake Não
3.6 Ger1 de Armazenamento do Data Lake Ger1 de Armazenamento do Data Lake Sim
3.6 Ger1 de Armazenamento do Data Lake Uso Geral V1, Propósito Geral V2, BlobStorage (Blobs de Bloco) Sim
3.6 Ger1 de Armazenamento do Data Lake Armazenamento do Data Lake Ger2 Não
4.0 Ger1 de Armazenamento do Data Lake Qualquer Não
4.0 Propósito Geral V1, Propósito Geral V2 Ger1 de Armazenamento do Data Lake Não

*=Pode ser um ou vários Data Lake Storage Gen2, desde que todos estejam configurados para usar a mesma identidade gerenciada para acesso ao cluster.

Nota

O armazenamento principal do Data Lake Storage Gen2 não é suportado para clusters Spark 2.1 ou 2.2.

Replicação de dados

O Azure HDInsight não armazena dados do cliente. O principal meio de armazenamento para um cluster são suas contas de armazenamento associadas. Você pode anexar seu cluster a uma conta de armazenamento existente ou criar uma nova conta de armazenamento durante o processo de criação do cluster. Se uma nova conta for criada, ela será criada como uma conta de armazenamento com redundância local (LRS) e atenderá aos requisitos de residência de dados na região, incluindo os especificados na Central de Confiabilidade.

Você pode validar se o HDInsight está configurado corretamente para armazenar dados em uma única região, garantindo que a conta de armazenamento associada ao HDInsight seja LRS ou outra opção de armazenamento mencionada na Central de Confiabilidade.

Nota

Não há suporte para a atualização da conta de armazenamento primária ou secundária de um cluster em execução com os recursos do Azure Data Lake Storage Gen2. Para alterar o tipo de armazenamento de um cluster HDInsight existente para Data Lake Storage Gen2, você precisará recriar o cluster e selecionar uma conta de armazenamento habilitada para namespace hierárquico.

Próximos passos