Análisis de datos en una cuenta de almacenamiento

En este tutorial, aprenderá a analizar los datos ubicados en una cuenta de almacenamiento.

Información general

Hasta ahora, hemos descrito escenarios en los que los datos residían en las bases de datos del área de trabajo. Ahora le mostraremos cómo trabajar con archivos que residen en cuentas de almacenamiento. En este escenario, se usará la cuenta de almacenamiento principal del área de trabajo y el contenedor que se especificó al crear el área de trabajo.

  • El nombre de la cuenta de almacenamiento: contosolake
  • El nombre del contenedor en la cuenta de almacenamiento: users

Creación de archivos CSV y Parquet en la cuenta de almacenamiento

Ejecute el siguiente código en una nueva celda de código de un cuaderno. Crea un archivo .csv y un archivo Parquet en la cuenta de almacenamiento.

Sugerencia

Esta tabla se creó anteriormente en el inicio rápido y puede encontrar los pasos aquí.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

Análisis de datos en una cuenta de almacenamiento

Puede analizar los datos de la cuenta predeterminada de Azure Data Lake Storage (ADLS) Gen2 del área de trabajo o puede vincular una cuenta de ADLS Gen2 o Blob Storage al área de trabajo a través de "Administrar" > "Servicios vinculados" > "Nuevo" (Los pasos siguientes harán referencia a la cuenta principal de ADLS Gen2).

  1. En Synapse Studio, vaya al centro Data (Datos) y, a continuación, seleccione Vinculado.

  2. Vaya a Azure Data Lake Storage Gen2>myworkspace (Primary - contosolake) [miáreadetrabajo (Principal: contosolake)].

  3. Seleccione users (Primary) (usuarios [Principal]). Debería ver la carpeta NYCTaxi. Dentro debería ver dos carpetas llamadas PassengerCountStats_csvformat y PassengerCountStats_parquetformat.

  4. Abra la carpeta PassengerCountStats_parquetformat. Dentro, hay un archivo Parquet con un nombre como part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet.

  5. Haga clic con el botón derecho en el archivo .parquet, seleccione Nuevo cuaderno y, luego, Load to DataFrame (Cargar en Dataframe). Se crea un cuaderno con una celda como esta:

    %%pyspark
    abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet'
    df = spark.read.load(abspath, format='parquet')
    display(df.limit(10))
    
  6. Asócielo al grupo de Spark llamado Spark1. Ejecute la celda. Si se produce un error relacionado con la falta de núcleos, otra sesión podría usar este grupo de spark en este grupo de spark. Cancele todas las sesiones existentes y vuelva a intentarlo.

  7. Vuelva a seleccionar la carpeta users. De nuevo, haga clic con el botón derecho en el archivo .parquet y, luego, seleccione New SQL Script>SELECT TOP 100 rows (Nuevo script SQL > Seleccionar 100 primeras filas). Se crea un script SQL similar al siguiente:

    SELECT 
        TOP 100 *
    FROM OPENROWSET(
        BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
        FORMAT='PARQUET'
    ) AS [result]
    

    En la ventana de script, asegúrese de que el campo Conectarse a esté establecido en el grupo de SQL sin servidor Integrado.

  8. Ejecute el script.

Pasos siguientes