DatabricksStep Sınıf

DataBricks not defteri, Python betiği veya JAR'ı düğüm olarak eklemek için bir Azure ML İşlem Hattı adımı oluşturur.

DatabricksStep kullanma örneği için not defterine https://aka.ms/pl-databricksbakın.

DataBricks not defteri, Python betiği veya JAR'ı düğüm olarak eklemek için bir Azure ML İşlem Hattı adımı oluşturun.

DatabricksStep kullanma örneği için not defterine https://aka.ms/pl-databricksbakın.

:p aram python_script_name:[Gerekli] ile ilgili source_directorybir Python betiğinin adı. Betik girişleri ve çıkışları alırsa, bunlar betike parametre olarak geçirilir. belirtilirse python_script_name , o zaman source_directory da olmalıdır.

, , python_script_pathpython_script_nameveya main_class_nametam notebook_patholarak birini belirtin.

data_reference_name=input1 ile giriş olarak bir DataReference nesnesi ve name=output1 ile çıkış olarak bir PipelineData nesnesi belirtirseniz, girişler ve çıkışlar betiklere parametre olarak geçirilir. Bu şekilde görünürler ve her giriş ve çıkışın yollarına erişmek için betiğinizdeki bağımsız değişkenleri ayrıştırmanız gerekir: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Ayrıca, betikte aşağıdaki parametreler kullanılabilir olacaktır:

  • AZUREML_RUN_TOKEN: Azure Machine Learning ile kimlik doğrulaması için AML belirteci.
  • AZUREML_RUN_TOKEN_EXPIRY: AML belirteci süre sonu süresi.
  • AZUREML_RUN_ID: Bu çalıştırma için Azure Machine Learning Çalıştırma Kimliği.
  • AZUREML_ARM_SUBSCRIPTION: AML çalışma alanınız için Azure aboneliği.
  • AZUREML_ARM_RESOURCEGROUP: Azure Machine Learning çalışma alanınız için Azure kaynak grubu.
  • AZUREML_ARM_WORKSPACE_NAME: Azure Machine Learning çalışma alanınızın adı.
  • AZUREML_ARM_PROJECT_NAME: Azure Machine Learning denemenizin adı.
  • AZUREML_SERVICE_ENDPOINT: AML hizmetlerinin uç nokta URL'si.
  • AZUREML_WORKSPACE_ID: Azure Machine Learning çalışma alanınızın kimliği.
  • AZUREML_EXPERIMENT_ID: Azure Machine Learning denemenizin kimliği.
  • AZUREML_SCRIPT_DIRECTORY_NAME: DBFS'de source_directory kopyalandığı dizin yolu.
  (This parameter is only populated when `python_script_name` is used.  See more details below.)

DatabricksStep parametrelerini source_directory ve python_script_namekullanarak Databricks'te yerel makinenizden bir Python betiği yürütürken, source_directory DBFS'ye kopyalanır ve DBFS'de dizin yolu yürütülmeye başladığında betiğinize parametre olarak geçirilir. Bu parametre –AZUREML_SCRIPT_DIRECTORY_NAME olarak etiketlenir. DBFS'deki dizine erişmek için bunun başına "dbfs:/" veya "/dbfs/" dizesini eklemeniz gerekir.

Devralma
azureml.pipeline.core._databricks_step_base._DatabricksStepBase
DatabricksStep

Oluşturucu

DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)

Parametreler

Name Description
name
Gerekli
str

[Gerekli] Adımın adı.

inputs

Bu adımda tüketilen verilerin giriş bağlantılarının listesi. bunu dbutils.widgets.get("input_name") kullanarak not defterine getirin. DataReference veya PipelineData olabilir. DataReference, bir veri deposundaki mevcut bir veri parçasını temsil eder. Temelde bu, veri deposundaki bir yoldur. DatabricksStep; DBFS, Azure blob veya ADLS v1'i kapsülleyen veri depolarını destekler. PipelineData, bir işlem hattındaki başka bir adım tarafından üretilen ara verileri temsil eder.

Default value: None
outputs

Bu adımla oluşturulan çıkışlar için çıkış bağlantı noktası tanımlarının listesi. bunu dbutils.widgets.get("output_name") kullanarak not defterine getirin. PipelineData olmalıdır.

Default value: None
existing_cluster_id
str

Databricks çalışma alanında var olan bir etkileşimli kümenin küme kimliği. Bu parametreyi geçiriyorsanız, yeni küme oluşturmak için kullanılan aşağıdaki parametrelerin hiçbirini geçiremezsiniz:

  • spark_version
  • Node_type
  • instance_pool_id
  • num_workers
  • min_workers
  • max_workers
  • spark_env_variables
  • spark_conf

Not: Yeni bir iş kümesi oluşturmak için yukarıdaki parametreleri geçirmeniz gerekir. Bu parametreleri doğrudan geçirebilir veya runconfig parametresini kullanarak RunConfiguration nesnesinin bir parçası olarak geçirebilirsiniz. Bu parametrelerin doğrudan ve RunConfiguration aracılığıyla geçirilmesi hatayla sonuçlanır.

Default value: None
spark_version
str

Databricks için spark sürümü kümeyi çalıştırır, örneğin: "10.4.x-scala2.12". Daha fazla bilgi için parametresinin açıklamasına existing_cluster_id bakın.

Default value: None
node_type
str

[Gerekli] Databricks çalıştırma kümesi için Azure VM düğüm türleri, örneğin: "Standard_D3_v2". node_type veya instance_pool_idbelirtin. Daha fazla bilgi için parametresinin açıklamasına existing_cluster_id bakın.

Default value: None
instance_pool_id
str

[Gerekli] Kümenin eklenmesi gereken örnek havuzu kimliği. node_type veya instance_pool_idbelirtin. Daha fazla bilgi için parametresinin açıklamasına existing_cluster_id bakın.

Default value: None
num_workers
int

[Gerekli] Databricks çalıştırma kümesi için statik çalışan sayısı. veya her ikisini min_workers de num_workers ve max_workersbelirtmelisiniz. Daha fazla bilgi için parametresinin açıklamasına existing_cluster_id bakın.

Default value: None
min_workers
int

[Gerekli] Databricks çalıştırma kümesini otomatik ölçeklendirmek için kullanılacak en az çalışan sayısı. veya her ikisini min_workers de num_workers ve max_workersbelirtmelisiniz. Daha fazla bilgi için parametresinin açıklamasına existing_cluster_id bakın.

Default value: None
max_workers
int

[Gerekli] Databricks çalıştırma kümesini otomatik ölçeklendirmek için kullanılacak en fazla çalışan sayısı. veya her ikisini min_workers de num_workers ve max_workersbelirtmelisiniz. Daha fazla bilgi için parametresinin açıklamasına existing_cluster_id bakın.

Default value: None
spark_env_variables

Databricks çalıştırma kümesi için spark ortam değişkenleri. Daha fazla bilgi için parametresinin açıklamasına existing_cluster_id bakın.

Default value: None
spark_conf

Databricks çalıştırma kümesi için Spark yapılandırması. Daha fazla bilgi için parametresinin açıklamasına existing_cluster_id bakın.

Default value: None
init_scripts
[str]

Kullanım dışı. Databricks, DBFS'de depolanan init betiğinin 1 Aralık 2023'te çalışmayı durduracağını duyurdu. Sorunu azaltmak için lütfen 1) databricks'te genel başlatma betiklerini kullanın 2) AzureML databricks https://video2.skills-academy.com/azure/databricks/init-scripts/global adımınızdaki init_scripts satırını açıklama satırı yapın.

Default value: None
cluster_log_dbfs_path
str

Küme günlüklerinin teslim edildiği DBFS yolları.

Default value: None
notebook_path
str

[Gerekli] Databricks örneğindeki not defterinin yolu. Bu sınıf, Databricks kümesinde yürütülecek kodu belirtmenin dört yolunu sağlar.

  1. Databricks çalışma alanında bulunan bir not defterini yürütmek için şunu kullanın: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}

  2. DBFS'de bulunan bir Python betiğini yürütmek için şunu kullanın: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}

  3. DBFS'de bulunan bir JAR'ı yürütmek için şunu kullanın: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]

  4. Yerel makinenizde bulunan bir Python betiğini yürütmek için şunu kullanın: python_script_name=python_script_name, source_directory=source_directory

, , python_script_pathpython_script_nameveya main_class_nametam notebook_patholarak birini belirtin.

Default value: None
notebook_params

Not defterine geçirilebilir parametre sözlüğü. notebook_params pencere öğeleri olarak kullanılabilir. dbutils.widgets.get("myparam") kullanarak not defterinizin içindeki bu pencere öğelerinden değerleri getirebilirsiniz.

Default value: None
python_script_path
str

[Gerekli] DBFS'de python betiğinin yolu. , , python_script_pathpython_script_nameveya main_class_nametam notebook_patholarak birini belirtin.

Default value: None
python_script_params

Python betiği için parametreler.

Default value: None
main_class_name
str

[Gerekli] JAR modülündeki giriş noktasının adı. , , python_script_pathpython_script_nameveya main_class_nametam notebook_patholarak birini belirtin.

Default value: None
jar_params

JAR modülü için parametreler.

Default value: None
python_script_name
str

[Gerekli] ile ilgili Bir Python betiğinin source_directoryadı. Betik girişleri ve çıkışları alırsa, bunlar betike parametre olarak geçirilir. belirtilirse python_script_name , o zaman source_directory da olmalıdır.

, , python_script_pathpython_script_nameveya main_class_nametam notebook_patholarak birini belirtin.

data_reference_name=input1 ile giriş olarak bir DataReference nesnesi ve name=output1 çıkış olarak bir PipelineData nesnesi belirtirseniz, girişler ve çıkışlar betiklere parametre olarak geçirilir. Bunlar böyle görünür ve her giriş ve çıkışın yollarına erişmek için betiğinizdeki bağımsız değişkenleri ayrıştırmanız gerekir: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Buna ek olarak, betik içinde aşağıdaki parametreler kullanılabilir:

  • AZUREML_RUN_TOKEN: Azure Machine Learning ile kimlik doğrulaması için AML belirteci.
  • AZUREML_RUN_TOKEN_EXPIRY: AML belirteci süre sonu süresi.
  • AZUREML_RUN_ID: Bu çalıştırma için Azure Machine Learning Çalıştırma Kimliği.
  • AZUREML_ARM_SUBSCRIPTION: AML çalışma alanınız için Azure aboneliği.
  • AZUREML_ARM_RESOURCEGROUP: Azure Machine Learning çalışma alanınız için Azure kaynak grubu.
  • AZUREML_ARM_WORKSPACE_NAME: Azure Machine Learning çalışma alanınızın adı.
  • AZUREML_ARM_PROJECT_NAME: Azure Machine Learning denemenizin adı.
  • AZUREML_SERVICE_ENDPOINT: AML hizmetlerinin uç nokta URL'si.
  • AZUREML_WORKSPACE_ID: Azure Machine Learning çalışma alanınızın kimliği.
  • AZUREML_EXPERIMENT_ID: Azure Machine Learning denemenizin kimliği.
  • AZUREML_SCRIPT_DIRECTORY_NAME: DBFS'de source_directory kopyalandığı dizin yolu. (Bu parametre yalnızca kullanıldığında doldurulur python_script_name . Aşağıdaki diğer ayrıntılara bakın.)

DatabricksStep parametrelerini source_directory ve python_script_namekullanarak Databricks'te yerel makinenizden bir Python betiği yürütürken, source_directory DBFS'ye kopyalanır ve DBFS'deki dizin yolu yürütülmeye başladığında betiğinize parametre olarak geçirilir. Bu parametre –AZUREML_SCRIPT_DIRECTORY_NAME olarak etiketlenir. DBFS'deki dizine erişmek için bunu "dbfs:/" veya "/dbfs/" dizesiyle önek olarak eklemeniz gerekir.

Default value: None
source_directory
str

Betiği ve diğer dosyaları içeren klasör. belirtilirse python_script_name , o zaman source_directory da olmalıdır.

Default value: None
hash_paths
[str]

KULLANIMDAN KALKTI: artık gerekli değil.

Adım içeriğinde yapılan değişiklikler denetlenirken karmaya giden yolların listesi. Hiçbir değişiklik algılanırsa, işlem hattı önceki bir çalıştırmanın adım içeriğini yeniden kullanır. Varsayılan olarak, .amlignore veya .gitignore içinde listelenen dosyalar dışında içeriğinin source_directory karması oluşturulur.

Default value: None
run_name
str

Bu çalıştırma için Databricks'teki ad.

Default value: None
timeout_seconds
int

Databricks için zaman aşımı çalışır.

Default value: None
runconfig

Kullanılacak runconfig.

Not: Aşağıdaki parametreleri kullanarak işinize istediğiniz kadar kitaplık geçirebilirsiniz: maven_libraries, pypi_libraries, egg_libraries, jar_librariesveya rcran_libraries. Bu parametreleri doğrudan karşılık gelen parametreleriyle veya runConfiguration nesnesinin bir parçası olarak parametresini runconfig kullanarak geçirin, ancak ikisini birden geçirmeyin.

Default value: None
maven_libraries

Databricks çalıştırması için kullanılacak Maven kitaplıkları.

Default value: None
pypi_libraries

Databricks çalıştırması için kullanılacak PyPi kitaplıkları.

Default value: None
egg_libraries

Databricks çalıştırması için kullanılacak yumurta kitaplıkları.

Default value: None
jar_libraries

Databricks çalıştırması için kullanılacak jar kitaplıkları.

Default value: None
rcran_libraries

Databricks çalıştırması için kullanılacak RCran kitaplıkları.

Default value: None
compute_target

[Gerekli] Azure Databricks işlem. Azure Databricks çalışma alanında betiklerinizi veya not defterlerinizi yürütmek için DatabricksStep'i kullanabilmeniz için önce Azure Databricks çalışma alanını Azure Machine Learning çalışma alanınıza işlem hedefi olarak eklemeniz gerekir.

Default value: None
allow_reuse

Aynı ayarlarla yeniden çalıştırıldığında adımın önceki sonuçları yeniden kullanıp kullanmayacağını gösterir. Yeniden kullan özelliği varsayılan olarak etkindir. Adım içeriği (betikler/bağımlılıklar) ve girişler ve parametreler değişmeden kalırsa, bu adımın önceki çalıştırmasından elde edilen çıkış yeniden kullanılır. Adımı yeniden kullanırken, işi hesaplamaya göndermek yerine, önceki çalıştırmanın sonuçları sonraki adımlarda hemen kullanılabilir hale gelir. Giriş olarak Azure Machine Learning veri kümelerini kullanıyorsanız, yeniden kullanım, temel alınan verilerin değişip değişmediğine değil, veri kümesinin tanımının değişip değişmediğine göre belirlenir.

Default value: True
version
str

Adımdaki işlev değişikliğini belirtmek için isteğe bağlı bir sürüm etiketi.

Default value: None
permit_cluster_restart

existing_cluster_id belirtilirse, bu parametre kümenin kullanıcı adına yeniden başlatılıp başlatılamayacağını bildirir.

Default value: None
name
Gerekli
str

[Gerekli] Adımın adı.

inputs
Gerekli

Bu adımda kullanılan verilerin giriş bağlantılarının listesi. bunu dbutils.widgets.get("input_name") kullanarak not defterine getirin. DataReference veya PipelineData olabilir. DataReference, bir veri deposundaki mevcut bir veri parçasını temsil eder. Temelde bu, veri deposundaki bir yoldur. DatabricksStep; DBFS, Azure blob veya ADLS v1'i kapsülleyen veri depolarını destekler. PipelineData, bir işlem hattındaki başka bir adım tarafından üretilen ara verileri temsil eder.

outputs
Gerekli
list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]

Bu adımla oluşturulan çıkışlar için çıkış bağlantı noktası tanımlarının listesi. bunu dbutils.widgets.get("output_name") kullanarak not defterine getirin. PipelineData olmalıdır.

existing_cluster_id
Gerekli
str

Databricks çalışma alanında var olan bir etkileşimli kümenin küme kimliği. Bu parametreyi geçiriyorsanız, yeni küme oluşturmak için kullanılan aşağıdaki parametrelerin hiçbirini geçiremezsiniz:

  • spark_version
  • Node_type
  • instance_pool_id
  • num_workers
  • min_workers
  • max_workers
  • spark_env_variables
  • spark_conf

Not: Yeni bir iş kümesi oluşturmak için yukarıdaki parametreleri geçirmeniz gerekir. Bu parametreleri doğrudan geçirebilir veya runconfig parametresini kullanarak RunConfiguration nesnesinin bir parçası olarak geçirebilirsiniz. Bu parametrelerin doğrudan ve RunConfiguration aracılığıyla geçirilmesi hatayla sonuçlanır.

spark_version
Gerekli
str

Databricks için spark sürümü kümeyi çalıştırır, örneğin: "10.4.x-scala2.12". Daha fazla bilgi için parametresinin açıklamasına existing_cluster_id bakın.

node_type
Gerekli
str

[Gerekli] Databricks çalıştırma kümesi için Azure VM düğüm türleri, örneğin: "Standard_D3_v2". node_type veya instance_pool_idbelirtin. Daha fazla bilgi için parametresinin açıklamasına existing_cluster_id bakın.

instance_pool_id
Gerekli
str

[Gerekli] Kümenin eklenmesi gereken örnek havuzu kimliği. node_type veya instance_pool_idbelirtin. Daha fazla bilgi için parametresinin açıklamasına existing_cluster_id bakın.

num_workers
Gerekli
int

[Gerekli] Databricks çalıştırma kümesi için statik çalışan sayısı. veya her ikisini min_workers de num_workers ve max_workersbelirtmelisiniz.

Daha fazla bilgi için parametresinin açıklamasına existing_cluster_id bakın.

min_workers
Gerekli
int

[Gerekli] Databricks çalıştırma kümesini otomatik ölçeklendirmek için kullanılacak en az çalışan sayısı. veya her ikisini min_workers de num_workers ve max_workersbelirtmelisiniz.

Daha fazla bilgi için parametresinin açıklamasına existing_cluster_id bakın.

max_workers
Gerekli
int

[Gerekli] Databricks çalıştırma kümesini otomatik ölçeklendirmek için kullanılacak en fazla çalışan sayısı. veya her ikisini min_workers de belirtmelisiniznum_workers.max_workers

Daha fazla bilgi için parametresinin açıklamasına existing_cluster_id bakın.

spark_env_variables
Gerekli

Databricks için spark ortam değişkenleri kümeyi çalıştırır. Daha fazla bilgi için parametresinin açıklamasına existing_cluster_id bakın.

spark_conf
Gerekli

Databricks için spark yapılandırması kümeyi çalıştırır. Daha fazla bilgi için parametresinin açıklamasına existing_cluster_id bakın.

init_scripts
Gerekli
[str]

Kullanım dışı. Databricks, DBFS'de depolanan init betiğinin 1 Aralık 2023'te çalışmayı durduracağını duyurdu. Sorunu azaltmak için lütfen 1) databricks'te genel başlatma betiklerini kullanın 2) AzureML databricks https://video2.skills-academy.com/azure/databricks/init-scripts/global adımınızdaki init_scripts satırına açıklama ekleyin.

cluster_log_dbfs_path
Gerekli
str

Küme günlüklerinin teslim edilecekleri DBFS yolları.

notebook_path
Gerekli
str

[Gerekli] Databricks örneğindeki not defterinin yolu. Bu sınıf, Databricks kümesinde yürütülecek kodu belirtmenin dört yolunu sağlar.

  1. Databricks çalışma alanında bulunan bir not defterini yürütmek için şunu kullanın: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}

  2. DBFS'de bulunan bir Python betiğini yürütmek için şunu kullanın: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}

  3. DBFS'de bulunan bir JAR'yi yürütmek için şunu kullanın: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]

  4. Yerel makinenizde bulunan bir Python betiğini yürütmek için şunu kullanın: python_script_name=python_script_name, source_directory=source_directory

, , python_script_pathpython_script_nameveya main_class_nametam notebook_patholarak birini belirtin.

notebook_params
Gerekli

Not defterine geçirilebilir parametre sözlüğü. notebook_params pencere öğesi olarak kullanılabilir. dbutils.widgets.get("myparam") komutunu kullanarak not defterinizin içindeki bu pencere öğelerinden değerleri getirebilirsiniz.

python_script_path
Gerekli
str

[Gerekli] DBFS'de python betiğinin yolu. , , python_script_pathpython_script_nameveya main_class_nametam notebook_patholarak birini belirtin.

python_script_params
Gerekli

Python betiği için parametreler.

main_class_name
Gerekli
str

[Gerekli] JAR modülündeki giriş noktasının adı. , , python_script_pathpython_script_nameveya main_class_nametam notebook_patholarak birini belirtin.

jar_params
Gerekli

JAR modülü için parametreler.

source_directory
Gerekli
str

Betiği ve diğer dosyaları içeren klasör. belirtilirse python_script_name , o zaman source_directory da olmalıdır.

hash_paths
Gerekli
[str]

KULLANIMDAN KALKTI: Artık gerekli değil.

Adım içeriğinde yapılan değişiklikler denetlenirken karma olarak kullanılacak yolların listesi. Hiçbir değişiklik algılanmazsa işlem hattı önceki çalıştırmadaki adım içeriğini yeniden kullanır. Varsayılan olarak, .amlignore veya .gitignore içinde listelenen dosyalar dışında içeriğinin source_directory karma değeri verilmiştir.

run_name
Gerekli
str

Bu çalıştırma için Databricks'teki ad.

timeout_seconds
Gerekli
int

Databricks için zaman aşımı çalışır.

runconfig
Gerekli

Kullanılacak runconfig.

Not: Aşağıdaki parametreleri kullanarak işinize istediğiniz kadar kitaplık geçirebilirsiniz: maven_libraries, pypi_libraries, egg_libraries, jar_librariesveya rcran_libraries. Bu parametreleri doğrudan ilgili parametreleriyle veya RunConfiguration nesnesinin bir parçası olarak parametresini runconfig kullanarak geçirin, ancak ikisini birden geçirmeyin.

maven_libraries
Gerekli
list[<xref:azureml.core.runconfig.MavenLibrary>]

Databricks çalıştırması için kullanılacak Maven kitaplıkları. Maven kitaplıklarının belirtimi hakkında daha fazla bilgi için bkz help(azureml.core.runconfig.MavenLibrary). .

pypi_libraries
Gerekli
list[<xref:azureml.core.runconfig.PyPiLibrary>]

Databricks çalıştırması için kullanılacak PyPi kitaplıkları. PyPi kitaplıklarının belirtimi hakkında daha fazla bilgi için bkz help(azureml.core.runconfig.PyPiLibrary). .

egg_libraries
Gerekli
list[<xref:azureml.core.runconfig.EggLibrary>]

Databricks çalıştırması için kullanılacak yumurta kitaplıkları. Egg kitaplıklarının belirtimi hakkında daha fazla bilgi için bkz help(azureml.core.runconfig.EggLibrary). .

jar_libraries
Gerekli
list[<xref:azureml.core.runconfig.JarLibrary>]

Databricks çalıştırması için kullanılacak jar kitaplıkları. Jar kitaplıklarının belirtimi hakkında daha fazla bilgi için bkz help(azureml.core.runconfig.JarLibrary). .

rcran_libraries
Gerekli
list[<xref:azureml.core.runconfig.RCranLibrary>]

Databricks çalıştırması için kullanılacak RCran kitaplıkları. RCran kitaplıklarının belirtimi hakkında daha fazla bilgi için bkz help(azureml.core.runconfig.RCranLibrary). .

compute_target
Gerekli

[Gerekli] Azure Databricks işlem. Azure Databricks çalışma alanında betiklerinizi veya not defterlerinizi yürütmek için DatabricksStep'i kullanabilmeniz için önce Azure Databricks çalışma alanını Azure Machine Learning çalışma alanınıza işlem hedefi olarak eklemeniz gerekir.

allow_reuse
Gerekli

Aynı ayarlarla yeniden çalıştırıldığında adımın önceki sonuçları yeniden kullanıp kullanmayacağını gösterir. Yeniden kullanma varsayılan olarak etkindir. Adım içeriği (betikler/bağımlılıklar) ve girişler ve parametreler değişmeden kalırsa, bu adımın önceki çalıştırmasından elde edilen çıkış yeniden kullanılır. Adımı yeniden kullanırken, işi işlem için göndermek yerine, önceki çalıştırmanın sonuçları hemen sonraki adımlarda kullanılabilir hale gelir. Giriş olarak Azure Machine Learning veri kümelerini kullanıyorsanız, yeniden kullanım, temel alınan verilerin değişip değişmediğine göre değil, veri kümesinin tanımının değişip değişmediğine göre belirlenir.

version
Gerekli
str

Adıma yönelik işlev değişikliğini belirtmek için isteğe bağlı bir sürüm etiketi.

permit_cluster_restart
Gerekli

existing_cluster_id belirtilirse, bu parametre kümenin kullanıcı adına yeniden başlatılıp başlatılamayacağını bildirir.

Yöntemler

create_node

Databricks adımından bir düğüm oluşturun ve bunu belirtilen grafiğe ekleyin.

Bu yöntem doğrudan kullanılmak üzere tasarlanmamıştır. Bu adımla bir işlem hattı örneği oluşturulduğunda, Azure ML bu yöntem aracılığıyla gerekli parametreleri otomatik olarak geçirir, böylece adım iş akışını temsil eden bir işlem hattı grafiğine eklenebilir.

create_node

Databricks adımından bir düğüm oluşturun ve bunu belirtilen grafiğe ekleyin.

Bu yöntem doğrudan kullanılmak üzere tasarlanmamıştır. Bu adımla bir işlem hattı örneği oluşturulduğunda, Azure ML bu yöntem aracılığıyla gerekli parametreleri otomatik olarak geçirir, böylece adım iş akışını temsil eden bir işlem hattı grafiğine eklenebilir.

create_node(graph, default_datastore, context)

Parametreler

Name Description
graph
Gerekli

Düğümün ekleneceği graf nesnesi.

default_datastore
Gerekli

Varsayılan veri deposu.

context
Gerekli
<xref:azureml.pipeline.core._GraphContext>

Grafik bağlamı.

Döndürülenler

Tür Description

Oluşturulan düğüm.