SparkComponent Classe

Version du composant Spark, utilisée pour définir un composant ou un travail Spark.

Héritage
azure.ai.ml.entities._component.component.Component
SparkComponent
azure.ai.ml.entities._job.parameterized_spark.ParameterizedSpark
SparkComponent
azure.ai.ml.entities._job.spark_job_entry_mixin.SparkJobEntryMixin
SparkComponent
azure.ai.ml.entities._component.code.ComponentCodeMixin
SparkComponent

Constructeur

SparkComponent(*, code: PathLike | str | None = '.', entry: Dict[str, str] | SparkJobEntry | None = None, py_files: List[str] | None = None, jars: List[str] | None = None, files: List[str] | None = None, archives: List[str] | None = None, driver_cores: int | str | None = None, driver_memory: str | None = None, executor_cores: int | str | None = None, executor_memory: str | None = None, executor_instances: int | str | None = None, dynamic_allocation_enabled: bool | str | None = None, dynamic_allocation_min_executors: int | str | None = None, dynamic_allocation_max_executors: int | str | None = None, conf: Dict[str, str] | None = None, environment: Environment | str | None = None, inputs: Dict | None = None, outputs: Dict | None = None, args: str | None = None, **kwargs: Any)

Paramètres de mot clé uniquement

Nom Description
code

Code source pour exécuter le travail. Il peut s’agir d’un chemin d’accès local ou d’une URL « http : », « https : » ou « azureml : » pointant vers un emplacement distant. La valeur par défaut est « . », indiquant le répertoire actif.

valeur par défaut: .
entry

Point d’entrée de fichier ou de classe.

py_files

Liste des fichiers .zip, .egg ou .py à placer sur pythonPATH pour les applications Python. La valeur par défaut est None.

jars

Liste de . Fichiers JAR à inclure sur les chemins de classe du pilote et de l’exécuteur. La valeur par défaut est None.

files

Liste des fichiers à placer dans le répertoire de travail de chaque exécuteur. La valeur par défaut est None.

archives

Liste des archives à extraire dans le répertoire de travail de chaque exécuteur. La valeur par défaut est None.

driver_cores

Nombre de cœurs à utiliser pour le processus de pilote, uniquement en mode cluster.

driver_memory

Quantité de mémoire à utiliser pour le processus de pilote, mise en forme sous forme de chaînes avec un suffixe d’unité de taille (« k », « m », « g » ou « t ») (par exemple, « 512m », « 2g »).

executor_cores

Nombre de cœurs à utiliser sur chaque exécuteur.

executor_memory

Quantité de mémoire à utiliser par processus d’exécuteur, mise en forme sous forme de chaînes avec un suffixe d’unité de taille (« k », « m », « g » ou « t ») (par exemple, « 512m », « 2g »).

executor_instances

Nombre initial d’exécuteurs.

dynamic_allocation_enabled

Indique s’il faut utiliser l’allocation dynamique des ressources, qui met à l’échelle le nombre d’exécuteurs inscrits auprès de cette application en fonction de la charge de travail. Valeur par défaut False.

dynamic_allocation_min_executors

Limite inférieure pour le nombre d’exécuteurs si l’allocation dynamique est activée.

dynamic_allocation_max_executors

Limite supérieure pour le nombre d’exécuteurs si l’allocation dynamique est activée.

conf

Dictionnaire avec une clé et des valeurs de configuration Spark prédéfinies. La valeur par défaut est None.

environment

Environnement Azure ML dans lequel exécuter le travail.

inputs
Optional[dict[str, Union[ <xref:azure.ai.ml.entities._job.pipeline._io.NodeOutput>, Input, str, bool, int, float, <xref:Enum>, ]]]

Mappage des noms d’entrée aux sources de données d’entrée utilisées dans le travail. La valeur par défaut est None.

outputs

Mappage des noms de sortie aux sources de données de sortie utilisées dans le travail. La valeur par défaut est None.

args

Arguments du travail. La valeur par défaut est None.

Exemples

Création de SparkComponent.


   from azure.ai.ml.entities import SparkComponent

   component = SparkComponent(
       name="add_greeting_column_spark_component",
       display_name="Aml Spark add greeting column test module",
       description="Aml Spark add greeting column test module",
       version="1",
       inputs={
           "file_input": {"type": "uri_file", "mode": "direct"},
       },
       driver_cores=2,
       driver_memory="1g",
       executor_cores=1,
       executor_memory="1g",
       executor_instances=1,
       code="./src",
       entry={"file": "add_greeting_column.py"},
       py_files=["utils.zip"],
       files=["my_files.txt"],
       args="--file_input ${{inputs.file_input}}",
       base_path="./sdk/ml/azure-ai-ml/tests/test_configs/dsl_pipeline/spark_job_in_pipeline",
   )


Méthodes

dump

Videz le contenu du composant dans un fichier au format yaml.

dump

Videz le contenu du composant dans un fichier au format yaml.

dump(dest: str | PathLike | IO, **kwargs: Any) -> None

Paramètres

Nom Description
dest
Obligatoire
Union[<xref:PathLike>, str, IO[AnyStr]]

Destination pour recevoir le contenu de ce composant. Doit être un chemin d’accès à un fichier local ou un flux de fichiers déjà ouvert. Si dest est un chemin de fichier, un nouveau fichier est créé et une exception est levée si le fichier existe. Si dest est un fichier ouvert, le fichier est écrit directement dans, et une exception est levée si le fichier n’est pas accessible en écriture.

Attributs

base_path

Chemin d’accès de base de la ressource.

Retours

Type Description
str

Chemin d’accès de base de la ressource.

creation_context

Contexte de création de la ressource.

Retours

Type Description

Métadonnées de création pour la ressource.

display_name

Nom d’affichage du composant.

Retours

Type Description
str

Nom d’affichage du composant.

entry

environment

Environnement Azure ML dans lequel exécuter le composant ou la tâche Spark.

Retours

Type Description

Environnement Azure ML dans lequel exécuter le composant ou la tâche Spark.

id

ID de la ressource.

Retours

Type Description

ID global de la ressource, id Azure Resource Manager (ARM).

inputs

Entrées du composant.

Retours

Type Description

Entrées du composant.

is_deterministic

Indique si le composant est déterministe.

Retours

Type Description

Si le composant est déterministe

outputs

Sorties du composant.

Retours

Type Description

Sorties du composant.

type

Type du composant, la valeur par défaut est « command ».

Retours

Type Description
str

Type du composant.

version

Numéro de version du composant.

Retours

Type Description
str

Numéro de version du composant.

CODE_ID_RE_PATTERN

CODE_ID_RE_PATTERN = re.compile('\\/subscriptions\\/(?P<subscription>[\\w,-]+)\\/resourceGroups\\/(?P<resource_group>[\\w,-]+)\\/providers\\/Microsoft\\.MachineLearningServices\\/workspaces\\/(?P<workspace>[\\w,-]+)\\/codes\\/(?P<co)