DatabricksStep Sınıf
DataBricks not defteri, Python betiği veya JAR'ı düğüm olarak eklemek için bir Azure ML İşlem Hattı adımı oluşturur.
DatabricksStep kullanma örneği için not defterine https://aka.ms/pl-databricksbakın.
DataBricks not defteri, Python betiği veya JAR'ı düğüm olarak eklemek için bir Azure ML İşlem Hattı adımı oluşturun.
DatabricksStep kullanma örneği için not defterine https://aka.ms/pl-databricksbakın.
:p aram python_script_name:[Gerekli] ile ilgili source_directory
bir Python betiğinin adı.
Betik girişleri ve çıkışları alırsa, bunlar betike parametre olarak geçirilir.
belirtilirse python_script_name
, o zaman source_directory
da olmalıdır.
, , python_script_path
python_script_name
veya main_class_name
tam notebook_path
olarak birini belirtin.
data_reference_name=input1 ile giriş olarak bir DataReference nesnesi ve name=output1 ile çıkış olarak bir PipelineData nesnesi belirtirseniz, girişler ve çıkışlar betiklere parametre olarak geçirilir. Bu şekilde görünürler ve her giriş ve çıkışın yollarına erişmek için betiğinizdeki bağımsız değişkenleri ayrıştırmanız gerekir: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"
Ayrıca, betikte aşağıdaki parametreler kullanılabilir olacaktır:
- AZUREML_RUN_TOKEN: Azure Machine Learning ile kimlik doğrulaması için AML belirteci.
- AZUREML_RUN_TOKEN_EXPIRY: AML belirteci süre sonu süresi.
- AZUREML_RUN_ID: Bu çalıştırma için Azure Machine Learning Çalıştırma Kimliği.
- AZUREML_ARM_SUBSCRIPTION: AML çalışma alanınız için Azure aboneliği.
- AZUREML_ARM_RESOURCEGROUP: Azure Machine Learning çalışma alanınız için Azure kaynak grubu.
- AZUREML_ARM_WORKSPACE_NAME: Azure Machine Learning çalışma alanınızın adı.
- AZUREML_ARM_PROJECT_NAME: Azure Machine Learning denemenizin adı.
- AZUREML_SERVICE_ENDPOINT: AML hizmetlerinin uç nokta URL'si.
- AZUREML_WORKSPACE_ID: Azure Machine Learning çalışma alanınızın kimliği.
- AZUREML_EXPERIMENT_ID: Azure Machine Learning denemenizin kimliği.
- AZUREML_SCRIPT_DIRECTORY_NAME: DBFS'de source_directory kopyalandığı dizin yolu.
(This parameter is only populated when `python_script_name` is used. See more details below.)
DatabricksStep parametrelerini source_directory
ve python_script_name
kullanarak Databricks'te yerel makinenizden bir Python betiği yürütürken, source_directory DBFS'ye kopyalanır ve DBFS'de dizin yolu yürütülmeye başladığında betiğinize parametre olarak geçirilir.
Bu parametre –AZUREML_SCRIPT_DIRECTORY_NAME olarak etiketlenir. DBFS'deki dizine erişmek için bunun başına "dbfs:/" veya "/dbfs/" dizesini eklemeniz gerekir.
- Devralma
-
azureml.pipeline.core._databricks_step_base._DatabricksStepBaseDatabricksStep
Oluşturucu
DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)
Parametreler
Name | Description |
---|---|
name
Gerekli
|
[Gerekli] Adımın adı. |
inputs
|
Bu adımda tüketilen verilerin giriş bağlantılarının listesi. bunu dbutils.widgets.get("input_name") kullanarak not defterine getirin. DataReference veya PipelineData olabilir. DataReference, bir veri deposundaki mevcut bir veri parçasını temsil eder. Temelde bu, veri deposundaki bir yoldur. DatabricksStep; DBFS, Azure blob veya ADLS v1'i kapsülleyen veri depolarını destekler. PipelineData, bir işlem hattındaki başka bir adım tarafından üretilen ara verileri temsil eder. Default value: None
|
outputs
|
Bu adımla oluşturulan çıkışlar için çıkış bağlantı noktası tanımlarının listesi. bunu dbutils.widgets.get("output_name") kullanarak not defterine getirin. PipelineData olmalıdır. Default value: None
|
existing_cluster_id
|
Databricks çalışma alanında var olan bir etkileşimli kümenin küme kimliği. Bu parametreyi geçiriyorsanız, yeni küme oluşturmak için kullanılan aşağıdaki parametrelerin hiçbirini geçiremezsiniz:
Not: Yeni bir iş kümesi oluşturmak için yukarıdaki parametreleri geçirmeniz gerekir. Bu parametreleri doğrudan geçirebilir veya runconfig parametresini kullanarak RunConfiguration nesnesinin bir parçası olarak geçirebilirsiniz. Bu parametrelerin doğrudan ve RunConfiguration aracılığıyla geçirilmesi hatayla sonuçlanır. Default value: None
|
spark_version
|
Databricks için spark sürümü kümeyi çalıştırır, örneğin: "10.4.x-scala2.12".
Daha fazla bilgi için parametresinin açıklamasına Default value: None
|
node_type
|
[Gerekli] Databricks çalıştırma kümesi için Azure VM düğüm türleri, örneğin: "Standard_D3_v2".
Default value: None
|
instance_pool_id
|
[Gerekli] Kümenin eklenmesi gereken örnek havuzu kimliği.
Default value: None
|
num_workers
|
[Gerekli] Databricks çalıştırma kümesi için statik çalışan sayısı.
veya her ikisini Default value: None
|
min_workers
|
[Gerekli] Databricks çalıştırma kümesini otomatik ölçeklendirmek için kullanılacak en az çalışan sayısı.
veya her ikisini Default value: None
|
max_workers
|
[Gerekli] Databricks çalıştırma kümesini otomatik ölçeklendirmek için kullanılacak en fazla çalışan sayısı.
veya her ikisini Default value: None
|
spark_env_variables
|
Databricks çalıştırma kümesi için spark ortam değişkenleri.
Daha fazla bilgi için parametresinin açıklamasına Default value: None
|
spark_conf
|
Databricks çalıştırma kümesi için Spark yapılandırması.
Daha fazla bilgi için parametresinin açıklamasına Default value: None
|
init_scripts
|
[str]
Kullanım dışı. Databricks, DBFS'de depolanan init betiğinin 1 Aralık 2023'te çalışmayı durduracağını duyurdu. Sorunu azaltmak için lütfen 1) databricks'te genel başlatma betiklerini kullanın 2) AzureML databricks https://video2.skills-academy.com/azure/databricks/init-scripts/global adımınızdaki init_scripts satırını açıklama satırı yapın. Default value: None
|
cluster_log_dbfs_path
|
Küme günlüklerinin teslim edildiği DBFS yolları. Default value: None
|
notebook_path
|
[Gerekli] Databricks örneğindeki not defterinin yolu. Bu sınıf, Databricks kümesinde yürütülecek kodu belirtmenin dört yolunu sağlar.
, , Default value: None
|
notebook_params
|
Not defterine geçirilebilir parametre sözlüğü.
Default value: None
|
python_script_path
|
[Gerekli] DBFS'de python betiğinin yolu.
, , Default value: None
|
python_script_params
|
Python betiği için parametreler. Default value: None
|
main_class_name
|
[Gerekli] JAR modülündeki giriş noktasının adı.
, , Default value: None
|
jar_params
|
JAR modülü için parametreler. Default value: None
|
python_script_name
|
[Gerekli] ile ilgili Bir Python betiğinin , , data_reference_name=input1 ile giriş olarak bir DataReference nesnesi ve name=output1 çıkış olarak bir PipelineData nesnesi belirtirseniz, girişler ve çıkışlar betiklere parametre olarak geçirilir. Bunlar böyle görünür ve her giriş ve çıkışın yollarına erişmek için betiğinizdeki bağımsız değişkenleri ayrıştırmanız gerekir: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1" Buna ek olarak, betik içinde aşağıdaki parametreler kullanılabilir:
DatabricksStep parametrelerini Default value: None
|
source_directory
|
Betiği ve diğer dosyaları içeren klasör.
belirtilirse Default value: None
|
hash_paths
|
[str]
KULLANIMDAN KALKTI: artık gerekli değil. Adım içeriğinde yapılan değişiklikler denetlenirken karmaya giden yolların listesi. Hiçbir değişiklik algılanırsa, işlem hattı önceki bir çalıştırmanın adım içeriğini yeniden kullanır. Varsayılan olarak, .amlignore veya .gitignore içinde listelenen dosyalar dışında içeriğinin Default value: None
|
run_name
|
Bu çalıştırma için Databricks'teki ad. Default value: None
|
timeout_seconds
|
Databricks için zaman aşımı çalışır. Default value: None
|
runconfig
|
Kullanılacak runconfig. Not: Aşağıdaki parametreleri kullanarak işinize istediğiniz kadar kitaplık geçirebilirsiniz: Default value: None
|
maven_libraries
|
Databricks çalıştırması için kullanılacak Maven kitaplıkları. Default value: None
|
pypi_libraries
|
Databricks çalıştırması için kullanılacak PyPi kitaplıkları. Default value: None
|
egg_libraries
|
Databricks çalıştırması için kullanılacak yumurta kitaplıkları. Default value: None
|
jar_libraries
|
Databricks çalıştırması için kullanılacak jar kitaplıkları. Default value: None
|
rcran_libraries
|
Databricks çalıştırması için kullanılacak RCran kitaplıkları. Default value: None
|
compute_target
|
[Gerekli] Azure Databricks işlem. Azure Databricks çalışma alanında betiklerinizi veya not defterlerinizi yürütmek için DatabricksStep'i kullanabilmeniz için önce Azure Databricks çalışma alanını Azure Machine Learning çalışma alanınıza işlem hedefi olarak eklemeniz gerekir. Default value: None
|
allow_reuse
|
Aynı ayarlarla yeniden çalıştırıldığında adımın önceki sonuçları yeniden kullanıp kullanmayacağını gösterir. Yeniden kullan özelliği varsayılan olarak etkindir. Adım içeriği (betikler/bağımlılıklar) ve girişler ve parametreler değişmeden kalırsa, bu adımın önceki çalıştırmasından elde edilen çıkış yeniden kullanılır. Adımı yeniden kullanırken, işi hesaplamaya göndermek yerine, önceki çalıştırmanın sonuçları sonraki adımlarda hemen kullanılabilir hale gelir. Giriş olarak Azure Machine Learning veri kümelerini kullanıyorsanız, yeniden kullanım, temel alınan verilerin değişip değişmediğine değil, veri kümesinin tanımının değişip değişmediğine göre belirlenir. Default value: True
|
version
|
Adımdaki işlev değişikliğini belirtmek için isteğe bağlı bir sürüm etiketi. Default value: None
|
permit_cluster_restart
|
existing_cluster_id belirtilirse, bu parametre kümenin kullanıcı adına yeniden başlatılıp başlatılamayacağını bildirir. Default value: None
|
name
Gerekli
|
[Gerekli] Adımın adı. |
inputs
Gerekli
|
Bu adımda kullanılan verilerin giriş bağlantılarının listesi. bunu dbutils.widgets.get("input_name") kullanarak not defterine getirin. DataReference veya PipelineData olabilir. DataReference, bir veri deposundaki mevcut bir veri parçasını temsil eder. Temelde bu, veri deposundaki bir yoldur. DatabricksStep; DBFS, Azure blob veya ADLS v1'i kapsülleyen veri depolarını destekler. PipelineData, bir işlem hattındaki başka bir adım tarafından üretilen ara verileri temsil eder. |
outputs
Gerekli
|
list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]
Bu adımla oluşturulan çıkışlar için çıkış bağlantı noktası tanımlarının listesi. bunu dbutils.widgets.get("output_name") kullanarak not defterine getirin. PipelineData olmalıdır. |
existing_cluster_id
Gerekli
|
Databricks çalışma alanında var olan bir etkileşimli kümenin küme kimliği. Bu parametreyi geçiriyorsanız, yeni küme oluşturmak için kullanılan aşağıdaki parametrelerin hiçbirini geçiremezsiniz:
Not: Yeni bir iş kümesi oluşturmak için yukarıdaki parametreleri geçirmeniz gerekir. Bu parametreleri doğrudan geçirebilir veya runconfig parametresini kullanarak RunConfiguration nesnesinin bir parçası olarak geçirebilirsiniz. Bu parametrelerin doğrudan ve RunConfiguration aracılığıyla geçirilmesi hatayla sonuçlanır. |
spark_version
Gerekli
|
Databricks için spark sürümü kümeyi çalıştırır, örneğin: "10.4.x-scala2.12".
Daha fazla bilgi için parametresinin açıklamasına |
node_type
Gerekli
|
[Gerekli] Databricks çalıştırma kümesi için Azure VM düğüm türleri, örneğin: "Standard_D3_v2".
|
instance_pool_id
Gerekli
|
[Gerekli] Kümenin eklenmesi gereken örnek havuzu kimliği.
|
num_workers
Gerekli
|
[Gerekli] Databricks çalıştırma kümesi için statik çalışan sayısı.
veya her ikisini Daha fazla bilgi için parametresinin açıklamasına |
min_workers
Gerekli
|
[Gerekli] Databricks çalıştırma kümesini otomatik ölçeklendirmek için kullanılacak en az çalışan sayısı.
veya her ikisini Daha fazla bilgi için parametresinin açıklamasına |
max_workers
Gerekli
|
[Gerekli] Databricks çalıştırma kümesini otomatik ölçeklendirmek için kullanılacak en fazla çalışan sayısı.
veya her ikisini Daha fazla bilgi için parametresinin açıklamasına |
spark_env_variables
Gerekli
|
Databricks için spark ortam değişkenleri kümeyi çalıştırır.
Daha fazla bilgi için parametresinin açıklamasına |
spark_conf
Gerekli
|
Databricks için spark yapılandırması kümeyi çalıştırır.
Daha fazla bilgi için parametresinin açıklamasına |
init_scripts
Gerekli
|
[str]
Kullanım dışı. Databricks, DBFS'de depolanan init betiğinin 1 Aralık 2023'te çalışmayı durduracağını duyurdu. Sorunu azaltmak için lütfen 1) databricks'te genel başlatma betiklerini kullanın 2) AzureML databricks https://video2.skills-academy.com/azure/databricks/init-scripts/global adımınızdaki init_scripts satırına açıklama ekleyin. |
cluster_log_dbfs_path
Gerekli
|
Küme günlüklerinin teslim edilecekleri DBFS yolları. |
notebook_path
Gerekli
|
[Gerekli] Databricks örneğindeki not defterinin yolu. Bu sınıf, Databricks kümesinde yürütülecek kodu belirtmenin dört yolunu sağlar.
, , |
notebook_params
Gerekli
|
Not defterine geçirilebilir parametre sözlüğü.
|
python_script_path
Gerekli
|
[Gerekli] DBFS'de python betiğinin yolu.
, , |
python_script_params
Gerekli
|
Python betiği için parametreler. |
main_class_name
Gerekli
|
[Gerekli] JAR modülündeki giriş noktasının adı.
, , |
jar_params
Gerekli
|
JAR modülü için parametreler. |
source_directory
Gerekli
|
Betiği ve diğer dosyaları içeren klasör.
belirtilirse |
hash_paths
Gerekli
|
[str]
KULLANIMDAN KALKTI: Artık gerekli değil. Adım içeriğinde yapılan değişiklikler denetlenirken karma olarak kullanılacak yolların listesi. Hiçbir değişiklik algılanmazsa işlem hattı önceki çalıştırmadaki adım içeriğini yeniden kullanır. Varsayılan olarak, .amlignore veya .gitignore içinde listelenen dosyalar dışında içeriğinin |
run_name
Gerekli
|
Bu çalıştırma için Databricks'teki ad. |
timeout_seconds
Gerekli
|
Databricks için zaman aşımı çalışır. |
runconfig
Gerekli
|
Kullanılacak runconfig. Not: Aşağıdaki parametreleri kullanarak işinize istediğiniz kadar kitaplık geçirebilirsiniz: |
maven_libraries
Gerekli
|
list[<xref:azureml.core.runconfig.MavenLibrary>]
Databricks çalıştırması için kullanılacak Maven kitaplıkları.
Maven kitaplıklarının belirtimi hakkında daha fazla bilgi için bkz |
pypi_libraries
Gerekli
|
list[<xref:azureml.core.runconfig.PyPiLibrary>]
Databricks çalıştırması için kullanılacak PyPi kitaplıkları.
PyPi kitaplıklarının belirtimi hakkında daha fazla bilgi için bkz |
egg_libraries
Gerekli
|
list[<xref:azureml.core.runconfig.EggLibrary>]
Databricks çalıştırması için kullanılacak yumurta kitaplıkları.
Egg kitaplıklarının belirtimi hakkında daha fazla bilgi için bkz |
jar_libraries
Gerekli
|
list[<xref:azureml.core.runconfig.JarLibrary>]
Databricks çalıştırması için kullanılacak jar kitaplıkları.
Jar kitaplıklarının belirtimi hakkında daha fazla bilgi için bkz |
rcran_libraries
Gerekli
|
list[<xref:azureml.core.runconfig.RCranLibrary>]
Databricks çalıştırması için kullanılacak RCran kitaplıkları.
RCran kitaplıklarının belirtimi hakkında daha fazla bilgi için bkz |
compute_target
Gerekli
|
[Gerekli] Azure Databricks işlem. Azure Databricks çalışma alanında betiklerinizi veya not defterlerinizi yürütmek için DatabricksStep'i kullanabilmeniz için önce Azure Databricks çalışma alanını Azure Machine Learning çalışma alanınıza işlem hedefi olarak eklemeniz gerekir. |
allow_reuse
Gerekli
|
Aynı ayarlarla yeniden çalıştırıldığında adımın önceki sonuçları yeniden kullanıp kullanmayacağını gösterir. Yeniden kullanma varsayılan olarak etkindir. Adım içeriği (betikler/bağımlılıklar) ve girişler ve parametreler değişmeden kalırsa, bu adımın önceki çalıştırmasından elde edilen çıkış yeniden kullanılır. Adımı yeniden kullanırken, işi işlem için göndermek yerine, önceki çalıştırmanın sonuçları hemen sonraki adımlarda kullanılabilir hale gelir. Giriş olarak Azure Machine Learning veri kümelerini kullanıyorsanız, yeniden kullanım, temel alınan verilerin değişip değişmediğine göre değil, veri kümesinin tanımının değişip değişmediğine göre belirlenir. |
version
Gerekli
|
Adıma yönelik işlev değişikliğini belirtmek için isteğe bağlı bir sürüm etiketi. |
permit_cluster_restart
Gerekli
|
existing_cluster_id belirtilirse, bu parametre kümenin kullanıcı adına yeniden başlatılıp başlatılamayacağını bildirir. |
Yöntemler
create_node |
Databricks adımından bir düğüm oluşturun ve bunu belirtilen grafiğe ekleyin. Bu yöntem doğrudan kullanılmak üzere tasarlanmamıştır. Bu adımla bir işlem hattı örneği oluşturulduğunda, Azure ML bu yöntem aracılığıyla gerekli parametreleri otomatik olarak geçirir, böylece adım iş akışını temsil eden bir işlem hattı grafiğine eklenebilir. |
create_node
Databricks adımından bir düğüm oluşturun ve bunu belirtilen grafiğe ekleyin.
Bu yöntem doğrudan kullanılmak üzere tasarlanmamıştır. Bu adımla bir işlem hattı örneği oluşturulduğunda, Azure ML bu yöntem aracılığıyla gerekli parametreleri otomatik olarak geçirir, böylece adım iş akışını temsil eden bir işlem hattı grafiğine eklenebilir.
create_node(graph, default_datastore, context)
Parametreler
Name | Description |
---|---|
graph
Gerekli
|
Düğümün ekleneceği graf nesnesi. |
default_datastore
Gerekli
|
Varsayılan veri deposu. |
context
Gerekli
|
<xref:azureml.pipeline.core._GraphContext>
Grafik bağlamı. |
Döndürülenler
Tür | Description |
---|---|
Oluşturulan düğüm. |