Creación de un almacén de lago de datos para Direct Lake

En este artículo se describe cómo crear un lakehouse, crear una tabla Delta en el lakehouse y, a continuación, crear un modelo semántico básico para el lakehouse en un área de trabajo de Microsoft Fabric.

Antes de empezar a crear un almacén de lago de datos para Direct Lake, asegúrese de leer Información general de Direct Lake.

Creación de un almacén de lago de datos

  1. En el área de trabajo de Microsoft Fabric, seleccione Nuevo>Más opciones y, después, en Ingeniería de datos, seleccione el icono Almacén de lago de datos.

    Captura de pantalla que muestra el icono de Lakehouse en Ingeniería de datos.

  2. En el cuadro de diálogo Nuevo almacén de lago de datos, escriba un nombre y, después, seleccione Crear. El nombre solo puede contener caracteres alfanuméricos y caracteres de subrayado.

    Recorte de pantalla en el que se muestra el cuadro de diálogo Nuevo almacén de lago de datos.

  3. Compruebe que el nuevo almacén de lago de datos se crea y se abre correctamente.

    Recorte de pantalla del almacén de lago de datos creado en el área de trabajo.

Crear una tabla Delta en la casa del lago

Después de crear un nuevo lakehouse, hay que crear al menos una tabla Delta para que Direct Lake pueda acceder a datos. Direct Lake puede leer archivos con formato parquet, pero para obtener el mejor rendimiento, es mejor comprimir los datos mediante el método de compresión VORDER. VORDER comprime los datos mediante el algoritmo de compresión nativa del motor de Power BI. De este modo, el motor puede cargar los datos en la memoria lo antes posible.

Hay varias opciones para cargar datos en un almacén de lago de datos, incluidas las canalizaciones de datos y los scripts. En los siguientes pasos se utiliza PySpark para añadir una tabla Delta a un almacén de lago de datos basado en una instancia de Azure Open Dataset:

  1. En el almacén de lago de datos recién creado, seleccione Abrir cuaderno y después Nuevo cuaderno.

    Captura de pantalla que muestra el nuevo comando del cuaderno.

  2. Copie y pegue el siguiente fragmento de código en la primera celda de código para permitir que SPARK acceda al modelo abierto y presione Mayús + Entrar para ejecutar el código.

    # Azure storage access info
    blob_account_name = "azureopendatastorage"
    blob_container_name = "holidaydatacontainer"
    blob_relative_path = "Processed"
    blob_sas_token = r""
    
    # Allow SPARK to read from Blob remotely
    wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
    spark.conf.set(
      'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
      blob_sas_token)
    print('Remote blob path: ' + wasbs_path)
    
    
  3. Compruebe que el código genera correctamente una ruta de acceso de blob remota.

    Recorte de pantalla en el que se muestra la salida de la ruta de blob remoto.

  4. Copie y pegue el código siguiente en la celda siguiente y presione Mayús + Entrar.

    # Read Parquet file into a DataFrame.
    df = spark.read.parquet(wasbs_path)
    print(df.printSchema())
    
    
  5. Compruebe que el código genera correctamente el esquema DataFrame.

    Captura de pantalla que muestra la salida del esquema de trama de datos.

  6. Copie y pegue las líneas siguientes en la celda siguiente y presione Mayús + Entrar. La primera instrucción habilita el método de compresión VORDER y la siguiente instrucción guarda el DataFrame como una tabla Delta en el lakehouse.

    # Save as delta table 
    spark.conf.set("spark.sql.parquet.vorder.enabled", "true")
    df.write.format("delta").saveAsTable("holidays")
    
    
  7. Compruebe que todos los trabajos de SPARK se completen correctamente. Expanda la lista de trabajos de SPARK para ver más detalles.

    Captura de pantalla que muestra la lista expandida de trabajos de SPARK.

  8. Para comprobar que una tabla se ha creado correctamente, en el área superior izquierdo, junto a Tablas, seleccione la elipsis (...), seleccione Actualizary, a continuación, expanda el nodo Tablas.

    Captura de pantalla que muestra el comando Actualizar cerca del nodo Tablas.

  9. Con el mismo método que antes u otros métodos admitidos, agregue más tablas Delta para los datos que desea analizar.

Creación de un modelo básico de Direct Lake para su lakehouse

  1. En el lakehouse, seleccione Nuevo modelo semánticoy, después, en el cuadro de diálogo, seleccione las tablas que se incluirán.

    Captura de pantalla del cuadro de diálogo para crear un nuevo modelo.

  2. Seleccione Confirmar para generar el modelo de Direct Lake. El modelo se guarda automáticamente en el área de trabajo en función del nombre del almacén de lago de datos y, después, se abre el modelo.

    Captura de pantalla que muestra el modelo abierto en Power BI.

  3. Seleccione Abrir modelo de datos para abrir la experiencia de modelado web donde puede agregar relaciones de tabla y medidas DAX.

    Captura de pantalla que muestra el modelado web en Power BI.

Cuando haya terminado de agregar relaciones y medidas DAX, puede crear informes, crear un modelo compuesto y consultar el modelo a través de puntos de conexión XMLA de la misma manera que cualquier otro modelo.