Comparación de opciones de almacenamiento para los clústeres de Azure HDInsight

Puede elegir entre diferentes servicios de Azure Storage al crear clústeres de HDInsight:

En este artículo se proporciona información general sobre estos tipos de almacenamiento y sus características exclusivas.

Tipos de almacenamiento y características

En la tabla siguiente se resumen los servicios de Azure Storage que son compatibles con diferentes versiones de HDInsight:

Servicio de Storage Tipo de cuenta Tipo de espacio de nombres Servicios admitidos Niveles de rendimiento admitidos Niveles de acceso admitidos Versión de HDInsight Tipo de clúster
Azure Data Lake Storage Gen2 Uso general v2 Jerárquico (sistema de archivos) Blob Estándar Frecuente, esporádico, archivo 3.6+ Todos excepto Spark 2.1 y 2.2
Azure Storage Uso general v2 Object Blob Estándar Frecuente, esporádico, archivo 3.6+ All
Azure Storage Uso general v1 Object Blob Estándar N/D All All
Azure Storage Blob Storage** Object Blob en bloques Estándar Frecuente, esporádico, archivo All All
Azure Data Lake Storage Gen1 N/D Jerárquico (sistema de archivos) N/D N/D N/D Solo 3.6 Todos excepto HBase
Azure Storage Blob en bloques Object Blob en bloques Premium N/D 3.6+ Solo HBase con escrituras aceleradas
Azure Data Lake Storage Gen2 Blob en bloques Jerárquico (sistema de archivos) Blob en bloques Premium N/D 3.6+ Solo HBase con escrituras aceleradas

**Para los clústeres de HDInsight, solo las cuentas de almacenamiento secundarias pueden ser de tipo BlobStorage; Blob en páginas no es una opción de almacenamiento admitida.

Para obtener más información sobre los tipos de cuentas de almacenamiento, consulte Información general acerca de la cuenta de Azure Storage.

Para obtener más información sobre los niveles de acceso de Azure Storage, consulte Azure Blob Storage: niveles de almacenamiento de archivo, esporádico, frecuente y Premium (versión preliminar).

Puede crear clústeres mediante combinaciones de servicios para el almacenamiento principal y el secundario opcional. En la tabla siguiente se resumen las configuraciones de almacenamiento de clúster que actualmente se admiten en HDInsight:

Versión de HDInsight Almacenamiento principal Almacenamiento secundario Compatible
3.6 y 4.0 Uso general V1, uso general V2 Uso general V1, uso general V2, BlobStorage (blobs en bloques)
3.6 y 4.0 Uso general V1, uso general V2 Data Lake Storage Gen2 No
3.6 y 4.0 Data Lake Storage Gen2* Data Lake Storage Gen2
3.6 y 4.0 Data Lake Storage Gen2* Uso general V1, uso general V2, BlobStorage (blobs en bloques)
3.6 y 4.0 Data Lake Storage Gen2 Data Lake Storage Gen1 No
3.6 Data Lake Storage Gen1 Data Lake Storage Gen1
3.6 Data Lake Storage Gen1 Uso general V1, uso general V2, BlobStorage (blobs en bloques)
3.6 Data Lake Storage Gen1 Data Lake Storage Gen2 No
4.0 Data Lake Storage Gen1 Any No
4.0 Uso general V1, uso general V2 Data Lake Storage Gen1 No

* Podría tratarse de una o varias instancias de Data Lake Storage Gen2, siempre y cuando todas estén configuradas para usar la misma identidad administrada para el acceso al clúster.

Nota

El almacenamiento principal de Data Lake Storage Gen2 no es compatible con los clústeres de Spark 2.1 o 2.2.

Replicación de datos

Azure HDInsight no almacena los datos de los clientes. Los principales medios de almacenamiento para un clúster son sus cuentas de almacenamiento asociadas. Puede asociar el clúster a una cuenta de almacenamiento existente o crear una nueva cuenta de almacenamiento durante el proceso de creación del clúster. Si se crea una nueva, será una cuenta de almacenamiento con redundancia local (LRS) y cumplirá los requisitos de residencia de datos en la región, incluidos los especificados en Centro de confianza.

Puede asegurarse de que HDInsight está configurado correctamente para almacenar datos en una sola región, asegurándose de que la cuenta de almacenamiento asociada a HDInsight sea LRS u otra opción de almacenamiento mencionada en Centro de confianza.

Nota

No se admite la actualización de la cuenta de almacenamiento principal o secundaria de un clúster en ejecución con funcionalidades de Azure Data Lake Storage Gen2. Para cambiar el tipo de almacenamiento de un clúster de HDInsight existente a Data Lake Storage Gen2, deberá volver a crear el clúster y seleccionar una cuenta de almacenamiento habilitada para el espacio de nombres jerárquico.

Pasos siguientes