databricks_step Módulo

Contém funcionalidades para criar um passo de pipeline do Azure ML para executar um bloco de notas do Databricks ou um script python no DBFS.

Classes

DatabricksStep

Cria um passo do Pipeline do Azure ML para adicionar um bloco de notas do DataBricks, script python ou JAR como um nó.

Para obter um exemplo de utilização do DatabricksStep, consulte o bloco de notas https://aka.ms/pl-databricks.

Crie um passo do Pipeline do Azure ML para adicionar um bloco de notas do DataBricks, script python ou JAR como um nó.

Para obter um exemplo de utilização do DatabricksStep, consulte o bloco de notas https://aka.ms/pl-databricks.

:p aram python_script_name:[Obrigatório] O nome de um script python relativo a source_directory. Se o script utilizar entradas e saídas, estas serão transmitidas para o script como parâmetros. Se python_script_name for especificado, tem de source_directory ser também.

Especifique exatamente um de notebook_path, python_script_path, python_script_nameou main_class_name.

Se especificar um objeto DataReference como entrada com data_reference_name=input1 e um objeto PipelineData como saída com name=output1, as entradas e saídas serão transmitidas para o script como parâmetros. É assim que serão e terá de analisar os argumentos no script para aceder aos caminhos de cada entrada e saída: "-input1", "wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Além disso, os seguintes parâmetros estarão disponíveis no script:

  • AZUREML_RUN_TOKEN: o token AML para autenticação com o Azure Machine Learning.
  • AZUREML_RUN_TOKEN_EXPIRY: o tempo de expiração do token AML.
  • AZUREML_RUN_ID: ID de Execução do Azure Machine Learning para esta execução.
  • AZUREML_ARM_SUBSCRIPTION: subscrição do Azure para a área de trabalho do AML.
  • AZUREML_ARM_RESOURCEGROUP: grupo de recursos do Azure para a área de trabalho do Azure Machine Learning.
  • AZUREML_ARM_WORKSPACE_NAME: Nome da área de trabalho do Azure Machine Learning.
  • AZUREML_ARM_PROJECT_NAME: nome da experimentação do Azure Machine Learning.
  • AZUREML_SERVICE_ENDPOINT: o URL do ponto final dos serviços AML.
  • AZUREML_WORKSPACE_ID: ID da área de trabalho do Azure Machine Learning.
  • AZUREML_EXPERIMENT_ID: ID da experimentação do Azure Machine Learning.
  • AZUREML_SCRIPT_DIRECTORY_NAME: caminho do diretório no DBFS onde source_directory foi copiado.
  (This parameter is only populated when `python_script_name` is used.  See more details below.)

Quando está a executar um script python a partir do seu computador local no Databricks com os parâmetros source_directory DatabricksStep e python_script_name, o seu source_directory é copiado para o DBFS e o caminho do diretório no DBFS é transmitido como um parâmetro para o script quando inicia a execução. Este parâmetro é rotulado como –AZUREML_SCRIPT_DIRECTORY_NAME. Tem de o prefixar com a cadeia "dbfs:/" ou "/dbfs/" para aceder ao diretório no DBFS.