Salvar DataFrames do Apache Spark como arquivos TFRecord
Este artigo mostra como usar seu conector spark-tensorflow para salvar DataFrames do Apache Spark nos arquivos TFRecord e carregar o TFRecord com o TensorFlow.
O formato de arquivo TFRecord é um formato binário simples e orientado a registros para dados de treinamento de ML. A classe tf.data.TFRecordDataset permite que você transmita o conteúdo de um ou mais arquivos TFRecord como parte de um pipeline de entrada.
Usar a spark-tensorflow-connector
biblioteca
Você pode usar o spark-tensorflow-connector para salvar DataFrames do Apache Spark em arquivos TFRecord.
spark-tensorflow-connector
é uma biblioteca dentro do ecossistema TensorFlow que permite a conversão entre os DataFrames do Spark e TFRecords (um formato popular para armazenar dados para o TensorFlow). Com o spark-tensorflow-connector, você pode usar as APIs do DataFrame do Spark para ler os arquivos TFRecords em DataFrames e gravar DataFrames como TFRecords.
Observação
A biblioteca spark-tensorflow-connector
está incluída no Databricks Runtime para Machine Learning. Para usar spark-tensorflow-connector
em versões de notas de versão do Databricks Runtime e compatibilidade, você precisa instalar a biblioteca do Maven. Confira Pacote Maven ou Spark para obter detalhes.
Exemplo: carregar os dados dos arquivos TFRecord com o TensorFlow
O notebook de exemplo a seguir demonstra como salvar dados do DataFrames do Apache Spark nos arquivos TFRecord e como carregar os arquivos TFRecord no treinamento do ML.
Você pode carregar os arquivos TFRecord usando a classe tf.data.TFRecordDataset
. Consulte [Lendo um arquivo TFRecord](https://www.tensorflow.org/ tutorials/load_data/tfrecord#reading_a_tfrecord_file) do TensorFlow para obter detalhes.