databricks_step Módulo

Contiene funcionalidad para crear un paso de canalización de Azure Machine Learning para ejecutar un cuaderno de Databricks o un script de Python en DBFS.

Clases

DatabricksStep

Crea un paso de canalización de Azure Machine Learning para agregar un cuaderno de DataBricks, un script de Python o un archivo JAR como nodo.

Para obtener un ejemplo del uso de DatabricksStep, consulte el cuaderno https://aka.ms/pl-databricks.

Cree un paso de canalización de Azure ML para agregar un cuaderno de DataBricks, un script de Python o un archivo JAR como nodo.

Para obtener un ejemplo del uso de DatabricksStep, consulte el cuaderno https://aka.ms/pl-databricks.

:p aram python_script_name:[Obligatorio] Nombre de un script de Python relativo a source_directory. Si el script toma entradas y salidas, se pasarán al script como parámetros. Si se especifica python_script_name, también se debe especificar source_directory.

Especifique exactamente uno entre notebook_path, python_script_path, python_script_name o main_class_name.

Si especifica un objeto DataReference como entrada con data_reference_name=input1 y un objeto PipelineData como salida con name=output1, las entradas y salidas se pasarán al script como parámetros. Este será su aspecto y tendrá que analizar los argumentos del script para acceder a las rutas de acceso de cada entrada y salida: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Además, los parámetros siguientes estarán disponibles en el script:

  • AZUREML_RUN_TOKEN: token de AML para autenticarse con Azure Machine Learning.
  • AZUREML_RUN_TOKEN_EXPIRY: hora de expiración del token de AML.
  • AZUREML_RUN_ID: identificador de ejecución de Azure Machine Learning para esta ejecución.
  • AZUREML_ARM_SUBSCRIPTION: suscripción de Azure del área de trabajo de AML.
  • AZUREML_ARM_RESOURCEGROUP: grupo de recursos de Azure del área de trabajo de Azure Machine Learning.
  • AZUREML_ARM_WORKSPACE_NAME: nombre del área de trabajo de Azure Machine Learning.
  • AZUREML_ARM_PROJECT_NAME: nombre del experimento de Azure Machine Learning.
  • AZUREML_SERVICE_ENDPOINT: dirección URL del punto de conexión de los servicios de AML.
  • AZUREML_WORKSPACE_ID: id. del área de trabajo de Azure Machine Learning.
  • AZUREML_EXPERIMENT_ID: id. del experimento de Azure Machine Learning.
  • AZUREML_SCRIPT_DIRECTORY_NAME: ruta de acceso de directorios en DBFS donde se ha copiado source_directory.
  (This parameter is only populated when `python_script_name` is used.  See more details below.)

Al ejecutar un script de Python desde la máquina local en Databricks con los parámetros source_directory y python_script_name de Databricks, se copia source_directory en DBFS y la ruta de acceso de directorios en DBFS se pasa como un parámetro al script cuando comienza la ejecución. Este parámetro se etiqueta como --AZUREML_SCRIPT_DIRECTORY_NAME. Debe agregar un prefijo con la cadena "dbfs:/". o "/dbfs/" para acceder al directorio en DBFS.