Creación de un almacén de lago para Direct Lake

En este artículo se describe cómo crear un almacén de lago, una tabla Delta en el almacén de lago y, a continuación, un modelo semántico básico para el almacén de lago en un área de trabajo de Microsoft Fabric.

Antes de empezar a crear un almacén de lago para Direct Lake, asegúrese de leer la introducción a Direct Lake.

Crear un almacén de lago

  1. En el área de trabajo de Microsoft Fabric, seleccione Nuevo>Más opciones y, a continuación, en Ingeniería de datos, seleccione el icono Almacén de lago .

    Captura de pantalla en la que se muestra el icono Almacén de lago en Ingeniería de datos.

  2. En el cuadro de diálogo Almacén de lago nuevo, introduzca un nombre y, a continuación, seleccione Crear. El nombre solo puede contener caracteres alfanuméricos y de subrayado.

    Captura de pantalla que muestra el cuadro de diálogo Nuevo almacén de lago.

  3. Compruebe que el nuevo almacén de lago se crea y se abre correctamente.

    Captura de pantalla del almacén de lago creado en el área de trabajo.

Creación de una tabla Delta en un almacén de lago

Después de crear un almacén de lago nuevo, debe crear al menos una tabla Delta para que Direct Lake pueda acceder a algunos datos. Direct Lake puede leer archivos con formato parquet, pero para obtener el mejor rendimiento, es mejor comprimir los datos mediante el método de compresión VORDER. VORDER comprime los datos mediante el algoritmo de compresión nativo del motor de Power BI. De este modo, el motor puede cargar los datos en la memoria lo antes posible.

Hay varias opciones para cargar datos en un almacén de lago, incluidas las canalizaciones de datos y los scripts. En los pasos siguientes se usa PySpark para agregar una tabla Delta a un almacén de lago en función de un conjunto de datos abierto de Azure:

  1. En el almacén de lago recién creado, seleccione Abrir cuaderno y, a continuación, seleccione Nuevo cuaderno.

    Captura de pantalla que muestra el cuadro de diálogo Nuevo cuaderno.

  2. Copie y pegue el siguiente fragmento de código en la primera celda de código para permitir que SPARK acceda al modelo abierto y, a continuación, presione Mayús + Entrar para ejecutar el código.

    # Azure storage access info
    blob_account_name = "azureopendatastorage"
    blob_container_name = "holidaydatacontainer"
    blob_relative_path = "Processed"
    blob_sas_token = r""
    
    # Allow SPARK to read from Blob remotely
    wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
    spark.conf.set(
      'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
      blob_sas_token)
    print('Remote blob path: ' + wasbs_path)
    
    
  3. Compruebe que el código genera correctamente una ruta de acceso de blob remota.

    Captura de pantalla que muestra la salida de la ruta de acceso de blob remoto.

  4. Copie y pegue el código siguiente en la celda siguiente y, a continuación, presione Mayús + Entrar.

    # Read Parquet file into a DataFrame.
    df = spark.read.parquet(wasbs_path)
    print(df.printSchema())
    
    
  5. Compruebe que el código genera correctamente el esquema DataFrame.

    Captura de pantalla que muestra la salida de esquema DataFrame.

  6. Copie y pegue las líneas siguiente en la celda siguiente y, a continuación, presione Mayús + Entrar. La primera instrucción habilita el método de compresión VORDER y la siguiente instrucción guarda DataFrame como una tabla Delta en el almacén de lago.

    # Save as delta table 
    spark.conf.set("spark.sql.parquet.vorder.enabled", "true")
    df.write.format("delta").saveAsTable("holidays")
    
    
  7. Compruebe que todos los trabajos de SPARK se completen correctamente. Expanda la lista de trabajos de SPARK para ver más detalles.

    Captura de pantalla que muestra la lista expandida de trabajos de SPARK.

  8. Para comprobar que una tabla se ha creado correctamente, en el área superior izquierda, junto a Tablas, seleccione los puntos suspensivos (...), seleccione Actualizar y, a continuación, expanda el nodo Tablas.

    Captura de pantalla que muestra el comando Actualizar situado al lado del nodo Tablas.

  9. Con el mismo método que anteriormente u otros métodos admitidos, agregue más tablas Delta de los datos que desea analizar.

Creación de un modelo de Direct Lake básico para su almacén de lago

  1. En el almacén de lago, seleccione Nuevo modelo semántico y, a continuación, en el cuadro de diálogo, seleccione las tablas que se incluirán.

    Captura de pantalla del cuadro de diálogo para crear un nuevo modelo.

  2. Seleccione Confirmar para generar el modelo de Direct Lake. El modelo se guarda automáticamente en el área de trabajo en función del nombre del almacén de lago y, a continuación, lo abre.

    Captura de pantalla que muestra el modelo abierto en Power BI.

  3. Seleccione Abrir modelo de datos para abrir la experiencia de modelado web, donde puede agregar relaciones de tabla y medidas DAX.

    Captura de pantalla que muestra el modelado web en Power BI.

Cuando haya terminado de agregar relaciones y medidas DAX, puede crear informes, crear un modelo compuesto y consultar el modelo a través de puntos de conexión XMLA de la misma manera que cualquier otro modelo.