Integración de OneLake con Azure HDInsight

Azure HDInsight es un servicio administrado basado en la nube para el análisis de macrodatos que ayuda a las organizaciones a procesar grandes cantidades de datos. En este tutorial se muestra cómo conectarse a OneLake con un cuaderno de Jupyter desde un clúster de Azure HDInsight.

Uso de Azure HDInsight

Para conectarse a OneLake con un cuaderno de Jupyter desde un clúster de HDInsight:

  1. Creación de un clúster de Apache Spark en HDInsight (HDI). Siga estas instrucciones: Configuración de clústeres en HDInsight.

    1. Al proporcionar información del clúster, recuerde el nombre de usuario y la contraseña de inicio de sesión del clúster, ya que los necesitará más adelante para acceder al clúster.

    2. Cree una identidad administrada asignada al usuario (UAMI): Crear para Azure HDInsight - UAMI y elíjala como identidad en la pantalla Almacenamiento.

      Captura de pantalla que muestra dónde se debe escribir la identidad administrada del usuario asignado en la pantalla de Almacenamiento.

  2. Conceda a esta UAMI acceso al área de trabajo de Fabric que contiene los elementos. Para obtener ayuda para decidir qué rol es mejor, consulte roles del área de trabajo.

    Captura de pantalla que muestra dónde seleccionar un elemento en el panel Administrar acceso.

  3. Vaya a Lakehouse y busque el nombre del área de trabajo y Lakehouse. Puede encontrarlos en la dirección URL de Lakehouse o en el panel Propiedades de un archivo.

  4. En Azure Portal, busque el clúster y seleccione el cuaderno.

    Captura de pantalla que muestra dónde encontrar su clúster y cuaderno en Azure Portal.

  5. Escriba la información de credenciales que proporcionó al crear el clúster.

    Captura de pantalla que muestra dónde escribir la información de su credencial.

  6. Cree un nuevo cuaderno de Apache Spark.

  7. Copie el área de trabajo y los nombres de Lakehouse en el cuaderno y compile la dirección URL de OneLake para Lakehouse. Ahora puede leer cualquier archivo de esta ruta de acceso de archivo.

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. Intente escribir algunos datos en Lakehouse.

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. Compruebe que sus datos se han escrito correctamente verificando su Lakehouse o leyendo su archivo recién cargado.

Ahora puede leer y escribir datos en OneLake mediante el cuaderno de Jupyter en un clúster de HDI Spark.