DatabricksStep Třída
Vytvoří krok kanálu Azure ML pro přidání poznámkového bloku DataBricks, skriptu Pythonu nebo souboru JAR jako uzlu.
Příklad použití databricksStep najdete v poznámkovém bloku https://aka.ms/pl-databricks.
Vytvořte krok kanálu Azure ML pro přidání poznámkového bloku DataBricks, skriptu Pythonu nebo souboru JAR jako uzlu.
Příklad použití databricksStep najdete v poznámkovém bloku https://aka.ms/pl-databricks.
:p aram python_script_name:[Povinné] Název skriptu Pythonu vzhledem k source_directory
.
Pokud skript přijímá vstupy a výstupy, předají se skriptu jako parametry.
Pokud python_script_name
je zadána hodnota , source_directory
musí být také.
Zadejte přesně jednu z hodnot notebook_path
, python_script_path
, python_script_name
nebo main_class_name
.
Pokud zadáte objekt DataReference jako vstup s data_reference_name=input1 a objekt PipelineData jako output s name=output1, pak se vstupy a výstupy předají skriptu jako parametry. Takto budou vypadat a budete muset parsovat argumenty ve skriptu pro přístup k cestám každého vstupu a výstupu: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"
Kromě toho budou ve skriptu k dispozici následující parametry:
- AZUREML_RUN_TOKEN: Token AML pro ověřování ve službě Azure Machine Learning.
- AZUREML_RUN_TOKEN_EXPIRY: Čas vypršení platnosti tokenu AML.
- AZUREML_RUN_ID: ID spuštění služby Azure Machine Learning pro toto spuštění.
- AZUREML_ARM_SUBSCRIPTION: Předplatné Azure pro pracovní prostor AML.
- AZUREML_ARM_RESOURCEGROUP: Skupina prostředků Azure pro pracovní prostor Služby Azure Machine Learning.
- AZUREML_ARM_WORKSPACE_NAME: Název pracovního prostoru služby Azure Machine Learning.
- AZUREML_ARM_PROJECT_NAME: Název experimentu služby Azure Machine Learning.
- AZUREML_SERVICE_ENDPOINT: Adresa URL koncového bodu pro služby AML.
- AZUREML_WORKSPACE_ID: ID pracovního prostoru služby Azure Machine Learning.
- AZUREML_EXPERIMENT_ID: ID experimentu služby Azure Machine Learning.
- AZUREML_SCRIPT_DIRECTORY_NAME: Cesta k adresáři v DBFS, kam se zkopírovala source_directory.
(This parameter is only populated when `python_script_name` is used. See more details below.)
Když spouštíte skript Pythonu z místního počítače v Databricks pomocí parametrů source_directory
DatabricksStep a python_script_name
, váš source_directory se zkopíruje do DBFS a cesta k adresáři v DBFS se na začátku spuštění předá jako parametr skriptu.
Tento parametr je označený jako –AZUREML_SCRIPT_DIRECTORY_NAME. Pokud chcete získat přístup k adresáři v DBFS, musíte k němu přidat předponu řetězec "dbfs:/" nebo "/dbfs/".
- Dědičnost
-
azureml.pipeline.core._databricks_step_base._DatabricksStepBaseDatabricksStep
Konstruktor
DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)
Parametry
Name | Description |
---|---|
name
Vyžadováno
|
[Povinné] Název kroku. |
inputs
|
Seznam vstupních připojení pro data spotřebovaná tímto krokem. Načtěte ho v poznámkovém bloku pomocí příkazu dbutils.widgets.get("input_name"). Může to být DataReference nebo PipelineData. DataReference představuje existující část dat v úložišti dat. V podstatě se jedná o cestu v úložišti dat. DatabricksStep podporuje úložiště dat, která zapouzdřují DBFS, objekty blob Azure nebo ADLS v1. PipelineData představuje zprostředkující data vytvořená jiným krokem v kanálu. Default value: None
|
outputs
|
Seznam definic výstupních portů pro výstupy vytvořené tímto krokem Načtěte ho v poznámkovém bloku pomocí příkazu dbutils.widgets.get("output_name"). Měla by být PipelineData. Default value: None
|
existing_cluster_id
|
ID existujícího interaktivního clusteru v pracovním prostoru Databricks. Pokud předáváte tento parametr, nemůžete předat žádný z následujících parametrů, které se používají k vytvoření nového clusteru:
Poznámka: Při vytváření nového clusteru úloh budete muset předat výše uvedené parametry. Tyto parametry můžete předat přímo nebo jako součást objektu RunConfiguration pomocí parametru runconfig. Přímé předání těchto parametrů a prostřednictvím RunConfiguration má za následek chybu. Default value: None
|
spark_version
|
Verze Sparku pro cluster Se systémem Databricks, například 10.4.x-scala2.12.
Další informace najdete v popisu parametru Default value: None
|
node_type
|
[Povinné] Typy uzlů virtuálních počítačů Azure pro cluster Databricks, například Standard_D3_v2. Zadejte nebo Default value: None
|
instance_pool_id
|
[Povinné] ID fondu instancí, ke kterému se musí cluster připojit.
Zadejte nebo Default value: None
|
num_workers
|
[Povinné] Statický počet pracovních procesů pro cluster se spuštěnou službou Databricks
Musíte zadat jednu Default value: None
|
min_workers
|
[Povinné] Minimální počet pracovních procesů, které se mají použít pro automatické škálování clusteru se spuštěnou službou Databricks.
Musíte zadat jednu Default value: None
|
max_workers
|
[Povinné] Maximální počet pracovních procesů, které se mají použít pro automatické škálování clusteru se spuštěnou službou Databricks.
Musíte zadat jednu Default value: None
|
spark_env_variables
|
Proměnné prostředí Sparku pro cluster Se systémem Databricks
Další informace najdete v popisu parametru Default value: None
|
spark_conf
|
Konfigurace Sparku pro cluster spuštění Databricks
Další informace najdete v popisu parametru Default value: None
|
init_scripts
|
[str]
Zastaralé Databricks oznámila, že inicializační skript uložený v DBFS přestane fungovat po 1. prosinci 2023. Pokud chcete tento problém zmírnit, 1) použijte globální inicializační skripty v databricks a https://video2.skills-academy.com/azure/databricks/init-scripts/global 2) okomentujte řádek init_scripts v kroku AzureML Databricks. Default value: None
|
cluster_log_dbfs_path
|
Cesty DBFS, kam se mají doručovat protokoly clusterů. Default value: None
|
notebook_path
|
[Povinné] Cesta k poznámkovému bloku v instanci Databricks Tato třída umožňuje čtyři způsoby určení kódu, který se má spustit v clusteru Databricks.
Zadejte přesně jednu z hodnot Default value: None
|
notebook_params
|
Slovník parametrů, které se mají předat do poznámkového bloku.
Default value: None
|
python_script_path
|
[Povinné] Cesta ke skriptu pythonu v DBFS.
Zadejte přesně jednu z hodnot Default value: None
|
python_script_params
|
Parametry skriptu Pythonu Default value: None
|
main_class_name
|
[Povinné] Název vstupního bodu v modulu JAR.
Zadejte přesně jednu z hodnot Default value: None
|
jar_params
|
Parametry modulu JAR. Default value: None
|
python_script_name
|
[Povinné] Název skriptu Pythonu vzhledem k Zadejte přesně jednu z hodnot Pokud jako vstup zadáte objekt DataReference s data_reference_name=input1 a objekt PipelineData jako výstup s name=output1, pak se vstupy a výstupy předají skriptu jako parametry. Takto budou vypadat a budete muset parsovat argumenty ve skriptu, abyste získali přístup k cestám každého vstupu a výstupu: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1" Kromě toho budou ve skriptu k dispozici následující parametry:
Když spouštíte skript Pythonu z místního počítače v Databricks pomocí parametrů Default value: None
|
source_directory
|
Složka, která obsahuje skript a další soubory.
Pokud Default value: None
|
hash_paths
|
[str]
ZASTARALÉ: už není potřeba. Seznam cest k hodnotě hash při kontrole změn obsahu kroku Pokud se nezjistí žádné změny, kanál znovu použije obsah kroku z předchozího spuštění. Ve výchozím nastavení je obsah souboru Default value: None
|
run_name
|
Název tohoto spuštění v Databricks. Default value: None
|
timeout_seconds
|
Časový limit pro spuštění Databricks Default value: None
|
runconfig
|
Příkaz runconfig, který se má použít. Poznámka: Pomocí následujících parametrů můžete do úlohy předat libovolný počet knihoven jako závislosti: Default value: None
|
maven_libraries
|
Knihovny Mavenu, které se mají použít pro spuštění Databricks. Default value: None
|
pypi_libraries
|
Knihovny PyPi, které se mají použít pro spuštění Databricks. Default value: None
|
egg_libraries
|
Knihovny vajec, které se mají použít pro spuštění Databricks. Default value: None
|
jar_libraries
|
Knihovny JAR, které se mají použít pro spuštění Databricks. Default value: None
|
rcran_libraries
|
Knihovny RCran, které se mají použít pro spuštění Databricks. Default value: None
|
compute_target
|
[Povinné] Výpočetní prostředí Azure Databricks. Než budete moct pomocí databricksStep spouštět skripty nebo poznámkové bloky v pracovním prostoru Azure Databricks, musíte do pracovního prostoru Služby Azure Machine Learning přidat pracovní prostor Azure Databricks jako cíl výpočetních prostředků. Default value: None
|
allow_reuse
|
Určuje, jestli má krok znovu použít předchozí výsledky při opětovném spuštění se stejným nastavením. Opakované použití je ve výchozím nastavení povolené. Pokud obsah kroku (skripty/závislosti) i vstupy a parametry zůstanou beze změny, výstup z předchozího spuštění tohoto kroku se znovu použije. Při opakovaném použití kroku se místo odeslání úlohy do výpočtu okamžitě zpřístupní výsledky z předchozího spuštění všem dalším krokům. Pokud jako vstupy používáte datové sady Azure Machine Learning, opakované použití závisí na tom, jestli se změnila definice datové sady, a ne na tom, jestli se změnila podkladová data. Default value: True
|
version
|
Volitelná značka verze, která označuje změnu funkčnosti kroku. Default value: None
|
permit_cluster_restart
|
Pokud je zadána existing_cluster_id, tento parametr určuje, jestli je možné cluster restartovat jménem uživatele. Default value: None
|
name
Vyžadováno
|
[Povinné] Název kroku. |
inputs
Vyžadováno
|
Seznam vstupních připojení pro data spotřebovaná tímto krokem Načtěte ho v poznámkovém bloku pomocí příkazu dbutils.widgets.get("input_name"). Může to být DataReference nebo PipelineData. DataReference představuje existující část dat v úložišti dat. V podstatě se jedná o cestu v úložišti dat. DatabricksStep podporuje úložiště dat, která zapouzdřují DBFS, objekty blob Azure nebo ADLS v1. PipelineData představuje zprostředkující data vytvořená jiným krokem v kanálu. |
outputs
Vyžadováno
|
list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]
Seznam definic výstupních portů pro výstupy vytvořené tímto krokem Načtěte ho v poznámkovém bloku pomocí příkazu dbutils.widgets.get("output_name"). Měla by být PipelineData. |
existing_cluster_id
Vyžadováno
|
ID clusteru existujícího interaktivního clusteru v pracovním prostoru Databricks Pokud předáváte tento parametr, nemůžete předat žádný z následujících parametrů, které se používají k vytvoření nového clusteru:
Poznámka: Při vytváření nového clusteru úloh budete muset předat výše uvedené parametry. Tyto parametry můžete předat přímo nebo je můžete předat jako součást objektu RunConfiguration pomocí parametru runconfig. Předání těchto parametrů přímo a prostřednictvím RunConfiguration má za následek chybu. |
spark_version
Vyžadováno
|
Verze Sparku pro cluster spuštění Databricks, například 10.4.x-scala2.12.
Další informace najdete v popisu parametru |
node_type
Vyžadováno
|
[Povinné] Typy uzlů virtuálních počítačů Azure pro cluster spuštění Databricks, například Standard_D3_v2. Zadejte nebo |
instance_pool_id
Vyžadováno
|
[Povinné] ID fondu instancí, ke kterému musí být cluster připojený.
Zadejte nebo |
num_workers
Vyžadováno
|
[Povinné] Statický počet pracovních procesů pro cluster se spuštěnou službou Databricks
Musíte zadat jednu Další informace najdete v popisu parametru |
min_workers
Vyžadováno
|
[Povinné] Minimální počet pracovních procesů, které se mají použít pro automatické škálování clusteru se spuštěnou službou Databricks.
Musíte zadat jednu Další informace najdete v popisu parametru |
max_workers
Vyžadováno
|
[Povinné] Maximální počet pracovních procesů, které se mají použít pro automatické škálování clusteru se spuštěnou službou Databricks.
Musíte zadat jednu Další informace najdete v popisu parametru |
spark_env_variables
Vyžadováno
|
Proměnné prostředí Sparku pro cluster Se systémem Databricks
Další informace najdete v popisu parametru |
spark_conf
Vyžadováno
|
Konfigurace Sparku pro cluster se spuštěním Databricks.
Další informace najdete v popisu parametru |
init_scripts
Vyžadováno
|
[str]
Zastaralé Databricks oznámila, že inicializační skript uložený v DBFS přestane po 1. prosinci 2023 fungovat. Pokud chcete tento problém zmírnit, 1) použijte globální inicializační skripty v Databricks. https://video2.skills-academy.com/azure/databricks/init-scripts/global 2) zakomentujte řádek init_scripts v kroku AzureML Databricks. |
cluster_log_dbfs_path
Vyžadováno
|
Cesty DBFS, kam se mají doručovat protokoly clusterů. |
notebook_path
Vyžadováno
|
[Povinné] Cesta k poznámkovému bloku v instanci Databricks. Tato třída umožňuje čtyři způsoby určení kódu, který se má spustit v clusteru Databricks.
Zadejte přesně jednu z hodnot |
notebook_params
Vyžadováno
|
Slovník parametrů, které se mají předat do poznámkového bloku.
|
python_script_path
Vyžadováno
|
[Povinné] Cesta ke skriptu Pythonu v DBFS.
Zadejte přesně jednu z hodnot |
python_script_params
Vyžadováno
|
Parametry skriptu Pythonu |
main_class_name
Vyžadováno
|
[Povinné] Název vstupního bodu v modulu JAR.
Zadejte přesně jednu z hodnot |
jar_params
Vyžadováno
|
Parametry modulu JAR |
source_directory
Vyžadováno
|
Složka, která obsahuje skript a další soubory.
Pokud |
hash_paths
Vyžadováno
|
[str]
ZASTARALÉ: Už není potřeba. Seznam cest k hodnotě hash při kontrole změn obsahu kroku Pokud se nezjistí žádné změny, kanál znovu použije obsah kroku z předchozího spuštění. Ve výchozím nastavení se obsah souboru |
run_name
Vyžadováno
|
Název tohoto spuštění v Databricks. |
timeout_seconds
Vyžadováno
|
Časový limit pro spuštění Databricks |
runconfig
Vyžadováno
|
Runconfig, který se má použít. Poznámka: Pomocí následujících parametrů můžete úloze předat libovolný počet knihoven jako závislosti: |
maven_libraries
Vyžadováno
|
list[<xref:azureml.core.runconfig.MavenLibrary>]
Knihovny Mavenu, které se mají použít pro spuštění Databricks.
Další informace o specifikaci knihoven Maven najdete v tématu |
pypi_libraries
Vyžadováno
|
list[<xref:azureml.core.runconfig.PyPiLibrary>]
Knihovny PyPi, které se mají použít pro spuštění Databricks.
Další informace o specifikaci knihoven PyPi najdete v tématu |
egg_libraries
Vyžadováno
|
list[<xref:azureml.core.runconfig.EggLibrary>]
Knihovny eggů, které se mají použít pro spuštění Databricks.
Další informace o specifikaci knihoven egg najdete v tématu |
jar_libraries
Vyžadováno
|
list[<xref:azureml.core.runconfig.JarLibrary>]
Knihovny JAR, které se mají použít pro spuštění Databricks.
Další informace o specifikaci knihoven JAR najdete v tématu |
rcran_libraries
Vyžadováno
|
list[<xref:azureml.core.runconfig.RCranLibrary>]
Knihovny RCran, které se mají použít pro spuštění Databricks.
Další informace o specifikaci knihoven RCran najdete v tématu |
compute_target
Vyžadováno
|
[Povinné] Výpočetní prostředky Azure Databricks. Než budete moct pomocí DatabricksStep spouštět skripty nebo poznámkové bloky v pracovním prostoru Azure Databricks, musíte do pracovního prostoru Azure Machine Learning přidat pracovní prostor Azure Databricks jako cílový výpočetní objekt. |
allow_reuse
Vyžadováno
|
Určuje, jestli má krok při opětovném spuštění se stejným nastavením znovu použít předchozí výsledky. Opakované použití je ve výchozím nastavení povolené. Pokud obsah kroku (skripty/závislosti) i vstupy a parametry zůstanou beze změny, výstup z předchozího spuštění tohoto kroku se znovu použije. Při opakovaném použití kroku místo odeslání úlohy k výpočtu se výsledky z předchozího spuštění okamžitě zpřístupní všem dalším krokům. Pokud jako vstupy použijete datové sady Azure Machine Learning, opakované použití závisí na tom, jestli se změnila definice datové sady, nikoli na základě toho, jestli se změnila podkladová data. |
version
Vyžadováno
|
Volitelná značka verze, která označuje změnu funkčnosti kroku. |
permit_cluster_restart
Vyžadováno
|
Pokud je zadána existing_cluster_id, tento parametr informuje, jestli je možné cluster restartovat jménem uživatele. |
Metody
create_node |
Vytvořte uzel z kroku Databricks a přidejte ho do zadaného grafu. Tato metoda není určena k přímému použití. Když se v tomto kroku vytvoří instance kanálu, Azure ML automaticky předá požadované parametry prostřednictvím této metody, aby se tento krok mohl přidat do grafu kanálu, který představuje pracovní postup. |
create_node
Vytvořte uzel z kroku Databricks a přidejte ho do zadaného grafu.
Tato metoda není určena k přímému použití. Když se v tomto kroku vytvoří instance kanálu, Azure ML automaticky předá požadované parametry prostřednictvím této metody, aby se tento krok mohl přidat do grafu kanálu, který představuje pracovní postup.
create_node(graph, default_datastore, context)
Parametry
Name | Description |
---|---|
graph
Vyžadováno
|
Objekt grafu, do který chcete přidat uzel. |
default_datastore
Vyžadováno
|
Výchozí úložiště dat. |
context
Vyžadováno
|
<xref:azureml.pipeline.core._GraphContext>
Kontext grafu. |
Návraty
Typ | Description |
---|---|
Vytvořený uzel. |