Coluna de metadados do ficheiro

Artigo
08/14/2024

Você pode obter informações de metadados para arquivos de entrada com a _metadata coluna. A _metadata coluna é uma coluna oculta e está disponível para todos os formatos de arquivo de entrada. Para incluir a _metadata coluna no DataFrame retornado, você deve explicitamente fazer referência a ela em sua consulta.

Se a fonte de dados contiver uma coluna chamada _metadata, as consultas retornarão a coluna da fonte de dados e não os metadados do arquivo.

Aviso

Novos campos podem ser adicionados à _metadata coluna em versões futuras. Para evitar erros de evolução do esquema se a coluna for atualizada, o _metadata Databricks recomenda selecionar campos específicos da coluna em suas consultas. Ver exemplos.

Metadados suportados

A _metadata coluna contém os STRUCT seguintes campos:

Nome	Tipo	Description	Exemplo	Versão mínima do Databricks Runtime
file_path	`STRING`	Caminho do arquivo de entrada.	`file:/tmp/f0.csv`	10.5
file_name	`STRING`	Nome do arquivo de entrada junto com sua extensão.	`f0.csv`	10.5
file_size	`LONG`	Comprimento do arquivo de entrada, em bytes.	628	10.5
file_modification_time	`TIMESTAMP`	Carimbo de data/hora da última modificação do arquivo de entrada.	`2021-12-20 20:05:21`	10.5
file_block_start	`LONG`	Inicie o deslocamento do bloco que está sendo lido, em bytes.	0	13.0
file_block_length	`LONG`	Comprimento do bloco a ser lido, em bytes.	628	13.0

Exemplos

Uso em um leitor de fonte de dados básico baseado em arquivo

Python

df = spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*", "_metadata")

display(df)

'''
Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
'''

Scala

val df = spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*", "_metadata")

display(df_population)

/* Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 10,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
*/

Selecionar campos específicos

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("_metadata.file_name", "_metadata.file_size")

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("_metadata.file_name", "_metadata.file_size")

Utilização em filtros

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*") \
  .filter(col("_metadata.file_name") == lit("test.csv"))

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*")
  .filter(col("_metadata.file_name") === lit("test.csv"))

Utilização em COPY INTO

COPY INTO my_delta_table
FROM (
  SELECT *, _metadata FROM 'abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData'
)
FILEFORMAT = CSV

Uso no Auto Loader

Nota

Ao escrever a _metadata coluna, renomeamos para source_metadata. Escrevê-lo como _metadata tornaria impossível acessar a coluna de metadados na tabela de destino, porque se a fonte de dados contiver uma coluna chamada _metadata, as consultas retornarão a coluna da fonte de dados, e não os metadados do arquivo.

Python

spark.readStream \
  .format("cloudFiles") \
  .option("cloudFiles.format", "csv") \
  .schema(schema) \
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData") \
  .selectExpr("*", "_metadata as source_metadata") \
  .writeStream \
  .option("checkpointLocation", checkpointLocation) \
  .start(targetTable)

Scala

spark.readStream
  .format("cloudFiles")
  .option("cloudFiles.format", "csv")
  .schema(schema)
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData")
  .selectExpr("*", "_metadata as source_metadata")
  .writeStream
  .option("checkpointLocation", checkpointLocation)
  .start(targetTable)

Partilhar via

Coluna de metadados do ficheiro

Metadados suportados

Exemplos

Uso em um leitor de fonte de dados básico baseado em arquivo

Python

Scala

Selecionar campos específicos

Python

Scala

Utilização em filtros

Python

Scala

Utilização em COPY INTO

Uso no Auto Loader

Python

Scala

Comentários

Recursos adicionais

Partilhar via

Coluna de metadados do ficheiro

Metadados suportados

Exemplos

Uso em um leitor de fonte de dados básico baseado em arquivo

Python

Scala

Selecionar campos específicos

Python

Scala

Utilização em filtros

Python

Scala

Utilização em COPY INTO

Uso no Auto Loader

Python

Scala

Artigos relacionados

Comentários

Recursos adicionais