FileDatasetFactory Classe
Contém métodos para criar um conjunto de dados de ficheiros para o Azure Machine Learning.
A FileDataset é criado a partir do from_files método definido nesta classe.
Para obter mais informações sobre como trabalhar com conjuntos de dados de ficheiros, consulte o bloco de notas https://aka.ms/filedataset-samplenotebook.
- Herança
-
builtins.objectFileDatasetFactory
Construtor
FileDatasetFactory()
Métodos
from_files |
Crie um FileDataset para representar fluxos de ficheiros. |
upload_directory |
Criar um conjunto de dados a partir do diretório de origem. |
from_files
Crie um FileDataset para representar fluxos de ficheiros.
static from_files(path, validate=True, partition_format=None, is_file=False)
Parâmetros
Name | Description |
---|---|
path
Necessário
|
|
validate
Necessário
|
Indica se deve validar se os dados podem ser carregados a partir do conjunto de dados devolvido. Predefinições para Verdadeiro. A validação requer que a origem de dados esteja acessível a partir da computação atual. |
partition_format
Necessário
|
Especifique o formato de partição do caminho. Predefinições para Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. Formatar a parte "{column_name}" cria a coluna de cadeia e "{column_name:aaaa/MM/dd/HH/mm/ss}" cria a coluna datetime, em que "aaaa", "MM", "dd", "HH", "mm" e "ss" são utilizados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, dado o caminho ".. /Accounts/2019/01/01/data.jsonl' em que a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' cria uma coluna de cadeia "Departamento" com o valor "Contas" e uma coluna datetime "PartitionDate" com o valor "2019-01-01". |
is_file
Necessário
|
Indica se todos os caminhos de entrada apontam para ficheiros. Por predefinição, o motor do conjunto de dados tenta verificar se os caminhos de entrada apontam para ficheiros. Defina este sinalizador como Verdadeiro quando todos os caminhos de entrada forem Ficheiro para acelerar a criação do Conjunto de dados. |
Devoluções
Tipo | Description |
---|---|
Um FileDataset objeto. |
Observações
from_files cria um objeto de FileDataset classe, que define as operações para carregar fluxos de ficheiros a partir do caminho fornecido.
Para que os dados sejam acessíveis pelo Azure Machine Learning, os ficheiros especificados por path
têm de estar localizados num Datastore ou estar acessíveis com URLs da Web públicos ou url de Blob, ADLS Gen1 e ADLS Gen2.
O token do AAD dos utilizadores será utilizado no bloco de notas ou no programa python local se chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será utilizada em tarefas submetidas pelo Experiment.submit para autenticação de acesso a dados. Saiba mais: https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Criar um conjunto de dados a partir do diretório de origem.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Parâmetros
Name | Description |
---|---|
src_dir
Necessário
|
O diretório local a carregar. |
target
Necessário
|
Obrigatório, o caminho do arquivo de dados para o qual os ficheiros serão carregados. |
pattern
Necessário
|
Opcional, se for fornecido, irá filtrar todos os nomes de caminho que correspondem ao padrão especificado, semelhante ao pacote glob do Python, suportando '*', '?' e intervalos de carateres expressos com []. |
show_progress
Necessário
|
Opcional, indica se pretende mostrar o progresso do carregamento na consola. As predefinições são Verdadeiras. |
Devoluções
Tipo | Description |
---|---|
O conjunto de dados registado. |