DatasetDefinition Classe

Define uma série de passos que especificam como ler e transformar dados num Conjunto de Dados.

Nota

Esta classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Um Conjunto de dados registado numa área de trabalho do Azure Machine Learning pode ter várias definições, cada uma criada ao chamar update_definition. Cada definição tem um identificador exclusivo. A definição atual é a mais recente criada.

Para conjuntos de dados não registados, existe apenas uma definição.

As definições de conjuntos de dados suportam todas as transformações listadas para a <xref:azureml.dataprep.Dataflow> classe: consulte http://aka.ms/azureml/howto/transformdata. Para saber mais sobre definições de conjuntos de dados, aceda a https://aka.ms/azureml/howto/versiondata.

Inicialize o objeto de definição conjunto de dados.

Herança
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

Construtor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parâmetros

Name Description
workspace
Necessário
str

A área de trabalho na qual o Conjunto de Dados está registado.

dataset_id
Necessário
str

O identificador conjunto de dados.

version_id
Necessário
str

A versão de definição.

dataflow
Necessário
str

O objeto Fluxo de Dados.

dataflow_json
Necessário

O json do Fluxo de Dados.

notes
Necessário
str

Informações opcionais sobre a definição.

etag
Necessário
str

Etag.

created_time
Necessário

A hora de criação da definição.

modified_time
Necessário

A última hora modificada da definição.

deprecated_by_dataset_id
Necessário
str

O ID do Conjunto de Dados que pretere esta definição.

deprecated_by_definition_version
Necessário
str

A versão da definição que pretere esta definição.

data_path
Necessário

O caminho dos dados.

dataset
Necessário

O objeto principal conjunto de dados.

Métodos

archive

Arquivar a definição do conjunto de dados.

create_snapshot

Crie um instantâneo do Conjunto de Dados registado.

deprecate

Pretera o Conjunto de Dados com um ponteiro para o novo Conjunto de Dados.

reactivate

Reativar a definição do conjunto de dados.

Funciona em definições de conjuntos de dados que foram preteridas ou arquivadas.

to_pandas_dataframe

Crie um dataframe do Pandas ao executar o pipeline de transformação definido por esta definição de conjunto de dados.

to_spark_dataframe

Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por este Fluxo de Dados.

archive

Arquivar a definição do conjunto de dados.

archive()

Devoluções

Tipo Description

Nenhum.

Observações

Após o arquivo, qualquer tentativa de obter o conjunto de dados resultará num erro. Se for arquivado por acidente, utilize reactivate para o ativar.

create_snapshot

Crie um instantâneo do Conjunto de Dados registado.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parâmetros

Name Description
snapshot_name
Necessário
str

O nome do instantâneo. Os nomes dos instantâneos devem ser exclusivos num Conjunto de Dados.

compute_target

O destino de computação para efetuar a criação do perfil de instantâneo. Se omitido, é utilizada a computação local.

Default value: None
create_data_snapshot

Se For Verdadeiro, será criada uma cópia materializada dos dados.

Default value: False
target_datastore

O arquivo de dados de destino onde guardar o instantâneo. Se omitido, o instantâneo será criado no armazenamento predefinido da área de trabalho.

Default value: None

Devoluções

Tipo Description

Um objeto DatasetSnapshot.

Observações

Os instantâneos capturam estatísticas de resumo do ponto no tempo dos dados subjacentes e uma cópia opcional dos próprios dados. Para saber mais sobre como criar instantâneos, aceda a https://aka.ms/azureml/howto/createsnapshots.

deprecate

Pretera o Conjunto de Dados com um ponteiro para o novo Conjunto de Dados.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parâmetros

Name Description
deprecate_by_dataset_id
Necessário

O ID do conjunto de dados responsável pela preterição do conjunto de dados atual.

deprecated_by_definition_version
str

A versão de definição do conjunto de dados responsável pela preterição da definição do conjunto de dados atual.

Default value: None

Devoluções

Tipo Description

Nenhum.

Observações

As definições de conjuntos de dados preteridas registarão avisos quando forem consumidas. Para bloquear completamente a utilização de uma definição de conjunto de dados, arquive-a.

Se uma definição de conjunto de dados for preterida por acidente, utilize reactivate para ativá-la.

reactivate

Reativar a definição do conjunto de dados.

Funciona em definições de conjuntos de dados que foram preteridas ou arquivadas.

reactivate()

Devoluções

Tipo Description

Nenhum.

to_pandas_dataframe

Crie um dataframe do Pandas ao executar o pipeline de transformação definido por esta definição de conjunto de dados.

to_pandas_dataframe()

Devoluções

Tipo Description

Um DataFrame do Pandas.

Observações

Devolver um DataFrame do Pandas totalmente materializado na memória.

to_spark_dataframe

Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por este Fluxo de Dados.

to_spark_dataframe()

Devoluções

Tipo Description

Um DataFrame do Spark.

Observações

O Dataframe do Spark devolvido é apenas um plano de execução e não contém dados, uma vez que os Dataframes do Spark são avaliados de forma preguiçosa.