DatasetDefinition Classe

Referência

Define uma série de etapas que especificam como ler e transformar dados em um Conjunto de Dados.

Observação

Essa classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Um Conjunto de Dados registrado em um workspace do Azure Machine Learning pode ter várias definições, cada uma criada chamando update_definition. Cada definição tem um identificador exclusivo. A definição atual é a que foi criada mais recentemente.

Para Conjuntos de dados não registrados, há apenas uma definição.

As definições de Conjunto de Dados dão suporte a todas as transformações listadas para a classe <xref:azureml.dataprep.Dataflow>: consulte http://aka.ms/azureml/howto/transformdata. Para saber mais sobre Definições de Conjunto de Dados, vá para https://aka.ms/azureml/howto/versiondata.

Inicialize o objeto de definição de conjunto de dados.

Herança: azureml.dataprep.api.engineless_dataflow.EnginelessDataflow

DatasetDefinition

Construtor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parâmetros

Nome	Description
workspace Obrigatório	str O workspace em que o conjunto de dados está registrado.
dataset_id Obrigatório	str O identificador do conjunto de dados.
version_id Obrigatório	str A versão da definição.
dataflow Obrigatório	str O objeto Dataflow.
dataflow_json Obrigatório	O json de fluxo de dados.
notes Obrigatório	str Informações opcionais sobre a definição.
etag Obrigatório	str Etag.
created_time Obrigatório	datetime A hora de criação da definição.
modified_time Obrigatório	datetime A hora da última modificação da definição.
deprecated_by_dataset_id Obrigatório	str A ID do conjunto de dados que substitui essa definição.
deprecated_by_definition_version Obrigatório	str A versão da definição que substitui essa definição.
data_path Obrigatório	DataPath O caminho dos dados.
dataset Obrigatório	Dataset O objeto de conjunto de dados pai.

Métodos

archive	Arquive a definição do conjunto de dados.
create_snapshot	Criar um instantâneo do Conjunto de dados registrado.
deprecate	Substitua o conjunto de dados por um ponteiro para o novo conjunto de dados.
reactivate	Reative a definição do conjunto de dados. Funciona em definições de dados que foram substituídas ou arquivadas.
to_pandas_dataframe	Crie um dataframe do Pandas executando o pipeline de transformação definido por esta definição de conjunto de dados.
to_spark_dataframe	Crie um Dataframe do Spark que possa executar o pipeline de transformação definido por este fluxo de dados.

create_snapshot

Criar um instantâneo do Conjunto de dados registrado.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parâmetros

Nome	Description
snapshot_name Obrigatório	str O nome do instantâneo. Os nomes de instantâneos devem ser exclusivos em um Conjunto de dados.
compute_target	ComputeTarget ou str O destino de computação para criar o perfil de instantâneo. Se omitido, a computação local será usada. Valor padrão: None
create_data_snapshot	bool Se for True, uma cópia materializada dos dados será criada. Valor padrão: False
target_datastore	Union[AbstractAzureStorageDatastore, str] O armazenamento de dados de destino onde salvar o instantâneo. Se omitido, o instantâneo será criado no armazenamento padrão do workspace. Valor padrão: None

Retornos

Tipo	Description
DatasetSnapshot	Um objeto DatasetSnapshot.

Comentários

Os instantâneos capturam estatísticas resumidas pontuais dos dados subjacentes e uma cópia opcional dos próprios dados. Para saber mais sobre como criar instantâneos, acesse https://aka.ms/azureml/howto/createsnapshots.

deprecate

Substitua o conjunto de dados por um ponteiro para o novo conjunto de dados.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parâmetros

Nome	Description
deprecate_by_dataset_id Obrigatório	uuid O ID do conjunto de dados responsável pela substituição do conjunto de dados atual.
deprecated_by_definition_version	str A versão de definição do conjunto de dados que é responsável pela substituição da definição do conjunto de dados atual. Valor padrão: None

Retornos

Tipo	Description
None	Nenhum.

Comentários

As definições do conjunto de dados substituídas registrarão avisos quando forem consumidas. Para bloquear completamente o consumo de uma definição de conjunto de dados, arquive-a.

Se uma definição de conjuntos de dados for substituída por acidente, use reactivate para ativá-la.

reactivate

Reative a definição do conjunto de dados.

Funciona em definições de dados que foram substituídas ou arquivadas.

reactivate()

Retornos

Tipo	Description
None	Nenhum.

to_pandas_dataframe

Crie um dataframe do Pandas executando o pipeline de transformação definido por esta definição de conjunto de dados.

to_pandas_dataframe()

Retornos

Tipo	Description
DataFrame	Um DataFrame do Pandas.

Comentários

Retorne um DataFrame do Pandas totalmente materializado na memória.

to_spark_dataframe

Crie um Dataframe do Spark que possa executar o pipeline de transformação definido por este fluxo de dados.

to_spark_dataframe()

Retornos

Tipo	Description
DataFrame	Um DataFrame do Spark.

Comentários

O Dataframe do Spark retornado é apenas um plano de execução e não contém nenhum dado, já que os Dataframes do Spark são avaliados lentamente.

Compartilhar via

DatasetDefinition Classe

Construtor

Parâmetros

Métodos

archive

Retornos

Comentários

create_snapshot

Parâmetros

Retornos

Comentários

deprecate

Parâmetros

Retornos

Comentários

reactivate

Retornos

to_pandas_dataframe

Retornos

Comentários

to_spark_dataframe

Retornos

Comentários

Comentários

Recursos adicionais