Carregar dados para aprendizado de máquina e aprendizado profundo
Esta seção aborda informações sobre como carregar dados especificamente para aplicativos de ML e DL. Para obter informações gerais sobre o carregamento de dados, veja Ingerir dados em um databricks lakehouse.
Armazenar arquivos para carregamento de dados e definição do ponto de verificação de modelo
Os aplicativos de machine learning podem precisar usar o armazenamento compartilhado para o carregamento de dados e a definição do ponto de verificação de modelo. Isso é particularmente importante para o aprendizado profundo distribuído.
O Azure Databricks fornece o Sistema de Arquivos do Databricks (DBFS) para acessar os dados em um cluster usando as APIs do Spark e do arquivo local.
Carregar dados de tabela
Você pode carregar dados tabulares de aprendizado de máquina de tabelas ou arquivos (por exemplo, consulte Leitura de arquivos CSV). Você pode converter Apache Spark DataFrames em pandas DataFrames usando o método PySpark toPandas()
e, opcionalmente, converter para o formato NumPy usando o método PySpark to_numpy()
.
Preparar dados para ajustar modelos de linguagem grandes
Você pode preparar seus dados para ajuste fino código aberto modelos de linguagem grandes com o Hugging Face Transformers e o Hugging Face Dataset.
Preparar os dados para ajuste fino de modelos do Hugging Face
Preparar dados para treinamento de aprendizado profundo distribuído
Esta seção aborda a preparação de dados para treinamento distribuído de aprendizado profundo usando Mosaic Streaming e TFRecords.