DatasetDefinition Classe

Referência

Define uma série de passos que especificam como ler e transformar dados num Conjunto de Dados.

Nota

Esta classe foi preterida. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Um Conjunto de dados registado numa área de trabalho do Azure Machine Learning pode ter várias definições, cada uma criada ao chamar update_definition. Cada definição tem um identificador exclusivo. A definição atual é a mais recente criada.

Para conjuntos de dados não registados, existe apenas uma definição.

As definições de conjuntos de dados suportam todas as transformações listadas para a <xref:azureml.dataprep.Dataflow> classe: consulte http://aka.ms/azureml/howto/transformdata. Para saber mais sobre definições de conjuntos de dados, aceda a https://aka.ms/azureml/howto/versiondata.

Inicialize o objeto de definição conjunto de dados.

Herança: azureml.dataprep.api.engineless_dataflow.EnginelessDataflow

DatasetDefinition

Construtor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parâmetros

Name	Description
workspace Necessário	str A área de trabalho na qual o Conjunto de Dados está registado.
dataset_id Necessário	str O identificador conjunto de dados.
version_id Necessário	str A versão de definição.
dataflow Necessário	str O objeto Fluxo de Dados.
dataflow_json Necessário	O json do Fluxo de Dados.
notes Necessário	str Informações opcionais sobre a definição.
etag Necessário	str Etag.
created_time Necessário	datetime A hora de criação da definição.
modified_time Necessário	datetime A última hora modificada da definição.
deprecated_by_dataset_id Necessário	str O ID do Conjunto de Dados que pretere esta definição.
deprecated_by_definition_version Necessário	str A versão da definição que pretere esta definição.
data_path Necessário	DataPath O caminho dos dados.
dataset Necessário	Dataset O objeto principal conjunto de dados.

Métodos

archive	Arquivar a definição do conjunto de dados.
create_snapshot	Crie um instantâneo do Conjunto de Dados registado.
deprecate	Pretera o Conjunto de Dados com um ponteiro para o novo Conjunto de Dados.
reactivate	Reativar a definição do conjunto de dados. Funciona em definições de conjuntos de dados que foram preteridas ou arquivadas.
to_pandas_dataframe	Crie um dataframe do Pandas ao executar o pipeline de transformação definido por esta definição de conjunto de dados.
to_spark_dataframe	Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por este Fluxo de Dados.

create_snapshot

Crie um instantâneo do Conjunto de Dados registado.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parâmetros

Name	Description
snapshot_name Necessário	str O nome do instantâneo. Os nomes dos instantâneos devem ser exclusivos num Conjunto de Dados.
compute_target	ComputeTarget ou str O destino de computação para efetuar a criação do perfil de instantâneo. Se omitido, é utilizada a computação local. Default value: None
create_data_snapshot	bool Se For Verdadeiro, será criada uma cópia materializada dos dados. Default value: False
target_datastore	Union[AbstractAzureStorageDatastore, str] O arquivo de dados de destino onde guardar o instantâneo. Se omitido, o instantâneo será criado no armazenamento predefinido da área de trabalho. Default value: None

Devoluções

Tipo	Description
DatasetSnapshot	Um objeto DatasetSnapshot.

Observações

Os instantâneos capturam estatísticas de resumo do ponto no tempo dos dados subjacentes e uma cópia opcional dos próprios dados. Para saber mais sobre como criar instantâneos, aceda a https://aka.ms/azureml/howto/createsnapshots.

deprecate

Pretera o Conjunto de Dados com um ponteiro para o novo Conjunto de Dados.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parâmetros

Name	Description
deprecate_by_dataset_id Necessário	uuid O ID do conjunto de dados responsável pela preterição do conjunto de dados atual.
deprecated_by_definition_version	str A versão de definição do conjunto de dados responsável pela preterição da definição do conjunto de dados atual. Default value: None

Devoluções

Tipo	Description
None	Nenhum.

Observações

As definições de conjuntos de dados preteridas registarão avisos quando forem consumidas. Para bloquear completamente a utilização de uma definição de conjunto de dados, arquive-a.

Se uma definição de conjunto de dados for preterida por acidente, utilize reactivate para ativá-la.

reactivate

Reativar a definição do conjunto de dados.

Funciona em definições de conjuntos de dados que foram preteridas ou arquivadas.

reactivate()

Devoluções

Tipo	Description
None	Nenhum.

to_pandas_dataframe

Crie um dataframe do Pandas ao executar o pipeline de transformação definido por esta definição de conjunto de dados.

to_pandas_dataframe()

Devoluções

Tipo	Description
DataFrame	Um DataFrame do Pandas.

Observações

Devolver um DataFrame do Pandas totalmente materializado na memória.

to_spark_dataframe

Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por este Fluxo de Dados.

to_spark_dataframe()

Devoluções

Tipo	Description
DataFrame	Um DataFrame do Spark.

Observações

O Dataframe do Spark devolvido é apenas um plano de execução e não contém dados, uma vez que os Dataframes do Spark são avaliados de forma preguiçosa.

Partilhar via

DatasetDefinition Classe

Construtor

Parâmetros

Métodos

archive

Devoluções

Observações

create_snapshot

Parâmetros

Devoluções

Observações

deprecate

Parâmetros

Devoluções

Observações

reactivate

Devoluções

to_pandas_dataframe

Devoluções

Observações

to_spark_dataframe

Devoluções

Observações

Comentários

Recursos adicionais