Comparar opções de armazenamento para uso com clusters do Azure HDInsight
Você pode escolher entre alguns serviços de armazenamento do Azure diferentes ao criar clusters HDInsight:
Este artigo fornece uma visão geral desses tipos de armazenamento e seus recursos exclusivos.
Tipos e recursos de armazenamento
A tabela a seguir resume os serviços de Armazenamento do Azure com suporte em diferentes versões do HDInsight:
Serviço de armazenamento | Tipo de conta | Tipo de namespace | Serviços suportados | Escalões de desempenho suportados | Escalões de acesso suportados | Versão do HDInsight | Tipo de cluster |
---|---|---|---|---|---|---|---|
Azure Data Lake Storage Gen2 | Fins gerais v2 | Hierárquico (sistema de arquivos) | Blob | Standard | Frequente, Esporádico, Arquivo | 3.6+ | Todos, exceto Spark 2.1 e 2.2 |
Armazenamento do Azure | Fins gerais v2 | Object | Blob | Standard | Frequente, Esporádico, Arquivo | 3.6+ | Todos |
Armazenamento do Azure | Fins gerais v1 | Object | Blob | Standard | N/A | Todos | Todos |
Armazenamento do Azure | Armazenamento de Blob** | Object | Blob de Blocos | Standard | Frequente, Esporádico, Arquivo | Todos | Todos |
Armazenamento do Azure Data Lake Ger1 | N/A | Hierárquico (sistema de arquivos) | N/A | N/D | N/A | 3.6 Apenas | Todos, exceto HBase |
Armazenamento do Azure | Blob de Blocos | Object | Blob de Blocos | Premium | N/A | 3.6+ | Apenas HBase com gravações aceleradas |
Azure Data Lake Storage Gen2 | Blob de Blocos | Hierárquico (sistema de arquivos) | Blob de Blocos | Premium | N/A | 3.6+ | Apenas HBase com gravações aceleradas |
**Para clusters HDInsight, apenas contas de armazenamento secundárias podem ser do tipo BlobStorage e Page Blob não é uma opção de armazenamento suportada.
Para obter mais informações sobre os tipos de conta de Armazenamento do Azure, consulte Visão geral da conta de armazenamento do Azure
Para obter mais informações sobre as camadas de acesso do Armazenamento do Azure, consulte Armazenamento de Blob do Azure: camadas de armazenamento Premium (visualização), Quente, Cool e Archive
Você pode criar clusters usando combinações de serviços para armazenamento primário e secundário opcional. A tabela a seguir resume as configurações de armazenamento de cluster atualmente suportadas no HDInsight:
Versão do HDInsight | Armazenamento primário | Armazenamento secundário | Suportado |
---|---|---|---|
3,6 & 4,0 | Propósito Geral V1, Propósito Geral V2 | Uso Geral V1, Propósito Geral V2, BlobStorage (Blobs de Bloco) | Sim |
3,6 & 4,0 | Propósito Geral V1, Propósito Geral V2 | Armazenamento do Data Lake Ger2 | Não |
3,6 & 4,0 | Armazenamento Data Lake Gen2* | Armazenamento do Data Lake Ger2 | Sim |
3,6 & 4,0 | Armazenamento Data Lake Gen2* | Uso Geral V1, Propósito Geral V2, BlobStorage (Blobs de Bloco) | Sim |
3,6 & 4,0 | Armazenamento do Data Lake Ger2 | Ger1 de Armazenamento do Data Lake | Não |
3.6 | Ger1 de Armazenamento do Data Lake | Ger1 de Armazenamento do Data Lake | Sim |
3.6 | Ger1 de Armazenamento do Data Lake | Uso Geral V1, Propósito Geral V2, BlobStorage (Blobs de Bloco) | Sim |
3.6 | Ger1 de Armazenamento do Data Lake | Armazenamento do Data Lake Ger2 | Não |
4.0 | Ger1 de Armazenamento do Data Lake | Qualquer | Não |
4.0 | Propósito Geral V1, Propósito Geral V2 | Ger1 de Armazenamento do Data Lake | Não |
*=Pode ser um ou vários Data Lake Storage Gen2, desde que todos estejam configurados para usar a mesma identidade gerenciada para acesso ao cluster.
Nota
O armazenamento principal do Data Lake Storage Gen2 não é suportado para clusters Spark 2.1 ou 2.2.
Replicação de dados
O Azure HDInsight não armazena dados do cliente. O principal meio de armazenamento para um cluster são suas contas de armazenamento associadas. Você pode anexar seu cluster a uma conta de armazenamento existente ou criar uma nova conta de armazenamento durante o processo de criação do cluster. Se uma nova conta for criada, ela será criada como uma conta de armazenamento com redundância local (LRS) e atenderá aos requisitos de residência de dados na região, incluindo os especificados na Central de Confiabilidade.
Você pode validar se o HDInsight está configurado corretamente para armazenar dados em uma única região, garantindo que a conta de armazenamento associada ao HDInsight seja LRS ou outra opção de armazenamento mencionada na Central de Confiabilidade.
Nota
Não há suporte para a atualização da conta de armazenamento primária ou secundária de um cluster em execução com os recursos do Azure Data Lake Storage Gen2. Para alterar o tipo de armazenamento de um cluster HDInsight existente para Data Lake Storage Gen2, você precisará recriar o cluster e selecionar uma conta de armazenamento habilitada para namespace hierárquico.