AdlaStep Classe
Crea un passaggio della pipeline di Azure ML per eseguire uno script U-SQL con Azure Data Lake Analytics.
Per un esempio di uso di AdlaStep, vedere il notebook https://aka.ms/pl-adla.
Creare un passaggio della pipeline di Azure ML per eseguire uno script U-SQL con Azure Data Lake Analytics.
- Ereditarietà
-
azureml.pipeline.core._adla_step_base._AdlaStepBaseAdlaStep
Costruttore
AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)
Parametri
Nome | Descrizione |
---|---|
script_name
Necessario
|
[Obbligatorio] Nome di uno script U-SQL, relativo a |
name
|
Nome del passaggio. Se non specificato, Valore predefinito: None
|
inputs
|
Elenco di associazioni di porte di input. Valore predefinito: None
|
outputs
|
Elenco di associazioni di porte di output. Valore predefinito: None
|
params
|
Dizionario di coppie nome-valore. Valore predefinito: None
|
degree_of_parallelism
|
Grado di parallelismo da usare per questo processo. Deve essere maggiore di 0. Se impostato su minore di 0, il valore predefinito è 1. Valore predefinito: None
|
priority
|
Valore di priorità da utilizzare per il processo corrente. I numeri più bassi hanno una priorità più alta. Per impostazione predefinita, un processo ha una priorità pari a 1000. Il valore specificato deve essere maggiore di 0. Valore predefinito: None
|
runtime_version
|
Versione di runtime del motore di Data Lake Analytics. Valore predefinito: None
|
compute_target
|
[Obbligatorio] Calcolo ADLA da usare per questo processo. Valore predefinito: None
|
source_directory
|
Cartella contenente lo script, gli assembly e così via. Valore predefinito: None
|
allow_reuse
|
Indica se il passaggio deve riutilizzare i risultati precedenti quando viene eseguito di nuovo con le stesse impostazioni. Il riutilizzo è abilitato per impostazione predefinita. Se il contenuto del passaggio (script/dipendenze) e gli input e i parametri rimangono invariati, l'output dell'esecuzione precedente di questo passaggio viene riutilizzato. Quando si riutilizza il passaggio, anziché inviare il processo al calcolo, i risultati dell'esecuzione precedente vengono immediatamente resi disponibili per tutti i passaggi successivi. Se si usano set di dati di Azure Machine Learning come input, il riutilizzo viene determinato dal fatto che la definizione del set di dati sia stata modificata, non dal fatto che i dati sottostanti siano stati modificati. Valore predefinito: True
|
version
|
Tag di versione facoltativo per indicare una modifica delle funzionalità per il passaggio. Valore predefinito: None
|
hash_paths
|
DEPRECATO: non più necessario. Elenco di percorsi di hash durante il controllo delle modifiche apportate al contenuto del passaggio. Se non sono state rilevate modifiche, la pipeline riutilizzerà il contenuto del passaggio da un'esecuzione precedente. Per impostazione predefinita, il contenuto di viene sottoposto a hash, ad eccezione dei Valore predefinito: None
|
script_name
Necessario
|
[Obbligatorio] Nome di uno script U-SQL, relativo a |
name
Necessario
|
Nome del passaggio. Se non specificato, |
inputs
Necessario
|
Elenco di associazioni di porte di input |
outputs
Necessario
|
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]
Elenco di associazioni di porte di output. |
params
Necessario
|
Dizionario di coppie nome-valore. |
degree_of_parallelism
Necessario
|
Grado di parallelismo da usare per questo processo. Deve essere maggiore di 0. Se impostato su minore di 0, il valore predefinito è 1. |
priority
Necessario
|
Valore di priorità da utilizzare per il processo corrente. I numeri più bassi hanno una priorità più alta. Per impostazione predefinita, un processo ha una priorità pari a 1000. Il valore specificato deve essere maggiore di 0. |
runtime_version
Necessario
|
Versione di runtime del motore di Data Lake Analytics. |
compute_target
Necessario
|
[Obbligatorio] Calcolo ADLA da usare per questo processo. |
source_directory
Necessario
|
Cartella contenente lo script, gli assembly e così via. |
allow_reuse
Necessario
|
Indica se il passaggio deve riutilizzare i risultati precedenti quando viene eseguito di nuovo con le stesse impostazioni. Il riutilizzo è abilitato per impostazione predefinita. Se il contenuto del passaggio (script/dipendenze) e gli input e i parametri rimangono invariati, l'output dell'esecuzione precedente di questo passaggio viene riutilizzato. Quando si riutilizza il passaggio, anziché inviare il processo al calcolo, i risultati dell'esecuzione precedente vengono immediatamente resi disponibili per tutti i passaggi successivi. Se si usano set di dati di Azure Machine Learning come input, il riutilizzo viene determinato dal fatto che la definizione del set di dati sia stata modificata, non dal fatto che i dati sottostanti siano stati modificati. |
version
Necessario
|
Tag di versione facoltativo per indicare una modifica delle funzionalità per il passaggio. |
hash_paths
Necessario
|
DEPRECATO: non più necessario. Elenco di percorsi di hash durante il controllo delle modifiche apportate al contenuto del passaggio. Se non sono state rilevate modifiche, la pipeline riutilizzerà il contenuto del passaggio da un'esecuzione precedente. Per impostazione predefinita, il contenuto di viene sottoposto a hash, ad eccezione dei |
Commenti
È possibile usare @@name@@ sintassi nello script per fare riferimento a input, output e parametri.
se name è il nome di un'associazione di porta di input o di output, tutte le occorrenze di @@name@@ nello script vengono sostituite con il percorso dati effettivo di un'associazione di porta corrispondente.
se il nome corrisponde a una chiave in params dict, qualsiasi occorrenza di @@name@@ verrà sostituita con il valore corrispondente in dict.
AdlaStep funziona solo con i dati archiviati nel Data Lake Storage predefinito dell'account Data Lake Analytics. Se i dati si trovano in una risorsa di archiviazione non predefinita, usare un DataTransferStep oggetto per copiare i dati nella risorsa di archiviazione predefinita. Per trovare l'archiviazione predefinita, aprire l'account Data Lake Analytics nel portale di Azure e quindi passare all'elemento "Origini dati" in Impostazioni nel riquadro sinistro.
L'esempio seguente illustra come usare AdlaStep in una pipeline di Azure Machine Learning.
adla_step = AdlaStep(
name='extract_employee_names',
script_name='sample_script.usql',
source_directory=sample_folder,
inputs=[sample_input],
outputs=[sample_output],
compute_target=adla_compute)
L'esempio completo è disponibile da https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb
Metodi
create_node |
Creare un nodo dal passaggio AdlaStep e aggiungerlo al grafico specificato. Questo metodo non deve essere usato direttamente. Quando viene creata un'istanza di una pipeline con questo passaggio, Azure ML passa automaticamente i parametri necessari tramite questo metodo in modo che tale passaggio possa essere aggiunto a un grafo della pipeline che rappresenta il flusso di lavoro. |
create_node
Creare un nodo dal passaggio AdlaStep e aggiungerlo al grafico specificato.
Questo metodo non deve essere usato direttamente. Quando viene creata un'istanza di una pipeline con questo passaggio, Azure ML passa automaticamente i parametri necessari tramite questo metodo in modo che tale passaggio possa essere aggiunto a un grafo della pipeline che rappresenta il flusso di lavoro.
create_node(graph, default_datastore, context)
Parametri
Nome | Descrizione |
---|---|
graph
Necessario
|
Oggetto grafico. |
default_datastore
Necessario
|
Archivio dati predefinito. |
context
Necessario
|
<xref:azureml.pipeline.core._GraphContext>
Contesto del grafo. |
Restituisce
Tipo | Descrizione |
---|---|
Oggetto node. |