ClassificationJob Classe

Référence

Configuration du travail de classification AutoML.

Initialiser une nouvelle tâche de classification AutoML.

Héritage: azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular

ClassificationJob

Constructeur

ClassificationJob(*, primary_metric: str | None = None, positive_label: str | None = None, **kwargs)

Paramètres

primary_metric: Optional[str]

La métrique principale à utiliser pour l’optimisation, par défaut, est None

positive_label: Optional[str]

Étiquette positive pour le calcul des métriques binaires, valeur par défaut None

featurization: Optional[TabularFeaturizationSettings]

Paramètres de caractérisation. La valeur par défaut est None.

limits: Optional[TabularLimitSettings]

Limite les paramètres. La valeur par défaut est None.

training: Optional[TrainingSettings]

Paramètres d’entraînement. La valeur par défaut est None.

primary_metric: Optional[str]

La métrique principale à utiliser pour l’optimisation, par défaut, est None

positive_label: Optional[str]

Étiquette positive pour le calcul des métriques binaires, valeur par défaut None

featurization: Optional[TabularFeaturizationSettings]

paramètres de caractérisation. La valeur par défaut est None.

limits: Optional[TabularLimitSettings]

limite les paramètres. La valeur par défaut est None.

training: Optional[TrainingSettings]

paramètres d’entraînement. La valeur par défaut est None.

Méthodes

dump	Vide le contenu du travail dans un fichier au format YAML.
set_data	Définissez la configuration des données.
set_featurization	Définissez la configuration de l’ingénierie des fonctionnalités.
set_limits	Définissez des limites pour le travail.
set_training	Méthode permettant de configurer les paramètres liés à l’entraînement.

dump

Vide le contenu du travail dans un fichier au format YAML.

dump(dest: str | PathLike | IO, **kwargs) -> None

Paramètres

dest: Union[<xref:PathLike>, str, IO[AnyStr]]

Obligatoire

Chemin d’accès local ou flux de fichiers dans lequel écrire le contenu YAML. Si dest est un chemin de fichier, un nouveau fichier est créé. Si dest est un fichier ouvert, le fichier est écrit directement dans.

kwargs: dict

Arguments supplémentaires à passer au sérialiseur YAML.

Exceptions

FileExistsError

Déclenché si dest est un chemin de fichier et que le fichier existe déjà.

IOError

Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.

set_data

Définissez la configuration des données.

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

Paramètres

training_data: Input

Données de formation.

target_column_name: str

Nom de colonne de la colonne cible.

weight_column_name: Optional[str]

Poids du nom de la colonne, par défaut aucun

validation_data: Optional[Input]

Données de validation, la valeur par défaut est None

validation_data_size: Optional[float]

Taille des données de validation, valeur par défaut None

n_cross_validations: Optional[Union[str, int]]

n_cross_validations, la valeur par défaut est None

cv_split_column_names: Optional[List[str]]

cv_split_column_names, la valeur par défaut est None

test_data: Optional[Input]

Données de test, la valeur par défaut est None

test_data_size: Optional[float]

Taille des données de test, valeur par défaut None

Exceptions

FileExistsError

Déclenché si dest est un chemin de fichier et que le fichier existe déjà.

IOError

Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.

set_featurization

Définissez la configuration de l’ingénierie des fonctionnalités.

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

Paramètres

blocked_transformers: Optional[List[Union[BlockedTransformers, str]]]

Liste des noms de transformateurs à bloquer pendant la caractérisation, la valeur par défaut est None

column_name_and_types: Optional[Dict[str, str]]

Dictionnaire de noms de colonnes et de types de caractéristiques utilisés pour mettre à jour l’objectif des colonnes , par défaut, est None

dataset_language: Optional[str]

Code ISO 639-3 à trois caractères pour les langues contenues dans le jeu de données. Les langues autres que l’anglais ne sont prises en charge que si vous utilisez le calcul avec GPU. Le language_code « mul » doit être utilisé si le jeu de données contient plusieurs langues. Pour rechercher les codes ISO 639-3 pour différentes langues, reportez-vous à https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, par défaut, aucun

transformer_params: Optional[Dict[str, List[ColumnTransformer]]]

Dictionnaire du transformateur et des paramètres de personnalisation correspondants , par défaut, a la valeur None

mode: Optional[str]

« off », « auto », par défaut sur « auto », par défaut sur Aucun

enable_dnn_featurization: Optional[bool]

S’il faut inclure des méthodes d’ingénierie des fonctionnalités basées sur DNN, par défaut, aucun

Exceptions

FileExistsError

Déclenché si dest est un chemin de fichier et que le fichier existe déjà.

IOError

Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.

set_limits

Définissez des limites pour le travail.

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

Paramètres

enable_early_termination: Optional[bool]

Si vous souhaitez activer l’arrêt anticipé si le score ne s’améliore pas à court terme, la valeur par défaut est None.

Logique d’arrêt anticipé :

Aucun arrêt anticipé pour les 20 premières itérations (repères).
La fenêtre d’arrêt anticipé commence à la 21ème itération et recherche les early_stopping_n_iters itérations

(actuellement défini sur 10). Cela signifie que la première itération où l’arrêt peut se produire est la 31ème.
AutoML planifie toujours 2 itérations d’ensemble APRÈS l’arrêt précoce, ce qui peut entraîner des scores plus élevés.
L’arrêt anticipé est déclenché si la valeur absolue du meilleur score calculé est la même pour les dernières

early_stopping_n_iters itérations, autrement dit, s’il n’y a pas d’amélioration du score pour early_stopping_n_iters itérations.

exit_score: Optional[float]

Score cible de l’expérience. L’expérimentation se termine une fois ce score atteint. S’il n’est pas spécifié (aucun critère), l’expérimentation s’exécute jusqu’à ce que la métrique principale n’affiche plus de progression. Pour plus d’informations sur les critères de sortie, consultez cet article , la valeur par défaut est None

max_concurrent_trials: Optional[int]

Il s’agit du nombre maximal d’itérations qui seraient exécutées en parallèle. La valeur par défaut est 1.

Les clusters AmlCompute prennent en charge une itération exécutée par nœud.

Quand plusieurs exécutions parentes d’expérience AutoML sont effectuées en parallèle sur un seul cluster AmlCompute, la somme des valeurs max_concurrent_trials de toutes les expériences doit être inférieure ou égale au nombre maximal de nœuds. Sinon, les exécutions sont mises en file d’attente jusqu’à ce que les nœuds soient disponibles.

DSVM prend en charge plusieurs itérations par nœud. max_concurrent_trials Devrait

être inférieur ou égal au nombre de cœurs sur la machine virtuelle DSVM. Quand plusieurs exécutions d’expérience sont effectuées en parallèle sur une seule DSVM, la somme des valeurs max_concurrent_trials de toutes les expériences doit être inférieure ou égale au nombre maximal de nœuds.

Databricks : max_concurrent_trials doit être inférieur ou égal au nombre de

nœuds worker sur Databricks.

max_concurrent_trials ne s’applique pas aux exécutions locales. Auparavant, ce paramètre était appelé concurrent_iterations.

max_cores_per_trial: Optional[int]

Nombre maximal de threads à utiliser pour une itération d’entraînement donnée. Valeurs acceptables :

Supérieur à 1 et inférieur ou égal au nombre maximal de cœurs sur la cible de calcul.
Égal à -1, ce qui signifie qu’il faut utiliser tous les cœurs possibles par itération et par exécution enfant.
Égal à 1, valeur par défaut.

max_nodes: Optional[int]

[Expérimental] Nombre maximal de nœuds à utiliser pour l’entraînement distribué.

Pour la prévision, chaque modèle est entraîné à l’aide de nœuds max(2, int(max_nodes / max_concurrent_trials)).
Pour la classification/régression, chaque modèle est entraîné à l’aide de nœuds max_nodes.

Remarque : ce paramètre est en préversion publique et peut changer à l’avenir.

max_trials: Optional[int]

Nombre total de combinaisons différentes d’algorithmes et de paramètres à tester pendant une expérience de ML automatisé. Si non spécifié, la valeur par défaut est 1000 itérations.

timeout_minutes: Optional[int]

Durée maximale en minutes pendant laquelle toutes les itérations combinées peuvent être effectuées avant que l’expérience ne se termine. Si la valeur n’est pas spécifiée, le délai d’expiration par défaut de l’expérience est de 6 jours. Pour spécifier un délai d’attente inférieur ou égal à 1 heure, assurez-vous que la taille de votre jeu de données n’est pas supérieure à 10 000 000 (colonne lignes et fois colonne) ou qu’une erreur s’affiche par défaut sur Aucun

trial_timeout_minutes: Optional[int]

Durée d’exécution maximale (en minutes) de chaque itération avant de s’arrêter. Si ce n’est pas spécifié, une valeur de 1 mois ou 43200 minutes est utilisée, la valeur par défaut est None

Exceptions

FileExistsError

Déclenché si dest est un chemin de fichier et que le fichier existe déjà.

IOError

Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.

set_training

Méthode permettant de configurer les paramètres liés à l’entraînement.

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

Paramètres

enable_onnx_compatible_models: Optional[bool]

Indique s’il faut activer ou désactiver l’application des modèles compatibles ONNX. La valeur par défaut est False. Pour plus d’informations sur Open Neural Network Exchange (ONNX) et Azure Machine Learning, consultez cet article.

enable_dnn_training: Optional[bool]

Indique s’il faut inclure des modèles basés sur DNN lors de la sélection du modèle. Toutefois, la valeur par défaut est True pour les tâches DNN NLP et False pour toutes les autres tâches AutoML.

enable_model_explainability: Optional[bool]

Indique s’il faut activer l’explication du meilleur modèle AutoML à la fin de toutes les itérations d’entraînement AutoML. Pour plus d’informations, consultez Interprétabilité : explications des modèles dans le Machine Learning automatisé. , a la valeur par défaut None

enable_stack_ensemble: Optional[bool]

Indique s’il faut activer ou désactiver l’itération StackEnsemble. Si l’indicateur enable_onnx_compatible_models est défini, l’itération StackEnsemble est désactivée. De même, pour les tâches de série chronologique, l’itération StackEnsemble est désactivée par défaut, afin d’éviter les risques de sur-ajustement en raison de l’utilisation d’un petit jeu d’entraînement dans l’ajustement du méta-apprenant. Pour plus d’informations sur les ensembles, consultez Configuration d’ensemble , valeurs par défaut sur Aucun

enable_vote_ensemble: Optional[bool]

Indique s’il faut activer ou désactiver l’itération VotingEnsemble. Pour plus d’informations sur les ensembles, consultez Configuration d’ensemble , valeurs par défaut sur Aucun

stack_ensemble_settings: Optional[StackEnsembleSettings]

Paramètres de l’itération StackEnsemble, par défaut sur None

ensemble_model_download_timeout: Optional[int]

Pendant la génération de modèles VotingEnsemble et StackEnsemble, plusieurs modèles ajustés des exécutions enfants précédentes sont téléchargés. Configurez ce paramètre avec une valeur supérieure à 300 secondes. Si plus de temps est nécessaire, la valeur par défaut est None

allowed_training_algorithms: Optional[List[str]]

Liste des noms de modèle à rechercher pour une expérience. S’ils ne sont pas spécifiés, tous les modèles pris en charge pour la tâche sont utilisés moins tous les modèles TensorFlow spécifiés ou blocked_training_algorithms déconseillés, la valeur par défaut est None

blocked_training_algorithms: Optional[List[str]]

Liste d’algorithmes à ignorer pour une expérience, la valeur par défaut est None

training_mode: Optional[Union[str, TabularTrainingMode]]

[Expérimental] Mode d’entraînement à utiliser. Les valeurs possibles sont les suivantes :

distributed- active l’entraînement distribué pour les algorithmes pris en charge.
non_distributed- désactive l’entraînement distribué.
auto - Actuellement, il est identique à non_distributed. À l’avenir, cela pourrait changer.

Remarque : Ce paramètre est en préversion publique et peut changer à l’avenir.

Exceptions

FileExistsError

Déclenché si dest est un chemin de fichier et que le fichier existe déjà.

IOError

Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.

Optional[str]

<xref:LogVerbosity>

outputs

primary_metric

Métrique principale à utiliser pour l’optimisation.

Retours

Métrique principale à utiliser pour l’optimisation.

Type de retour

Union[str, ClassificationPrimaryMetrics]

status

État du travail.

Les valeurs courantes retournées sont « Exécution en cours (Running) », « Terminé (Finished) » et « Échec (Failed) ». Toutes les valeurs possibles sont les suivantes :

NotStarted : il s’agit d’un état temporaire dans lequel se trouvent les objets Run côté client avant la soumission cloud.
Démarrage : l’exécution a commencé à être traitée dans le cloud. L’appelant a un ID d’exécution à ce stade.
Approvisionnement : le calcul à la demande est en cours de création pour une soumission de travail donnée.
Préparation : l’environnement d’exécution est en cours de préparation et se trouve dans l’une des deux étapes suivantes :
- Build d’image Docker
- Configuration de l’environnement Conda
Mis en file d’attente : le travail est mis en file d’attente sur la cible de calcul. Par exemple, dans BatchAI, le travail est dans un état mis en file d’attente

en attendant que tous les nœuds demandés soient prêts.
En cours d’exécution : le travail a commencé à s’exécuter sur la cible de calcul.
Finalisation : l’exécution du code utilisateur est terminée et l’exécution est en phase de post-traitement.
CancelRequested : l’annulation a été demandée pour le travail.
Terminé : l’exécution s’est terminée avec succès. Cela inclut à la fois l’exécution et l’exécution du code utilisateur

Étapes de post-traitement.
Failed (Échec) : l’exécution a échoué. En règle générale, la propriété Error d’une exécution fournit des détails sur la raison de l’échec.
Annulé : suit une demande d’annulation et indique que l’exécution a bien été annulée.
NotResponding : pour les exécutions pour lesquelles des pulsations sont activées, aucune pulsation n’a été envoyée récemment.

Constructeur

Paramètres

Méthodes

dump

Paramètres

Exceptions

set_data

Paramètres

Exceptions

set_featurization

Paramètres

Exceptions

set_limits

Paramètres

Exceptions

set_training

Paramètres

Exceptions

Attributs

base_path

Retours

Type de retour

creation_context

Retours

Type de retour

featurization

Retours

Type de retour

id

Retours

Type de retour

inputs

limits

Retours

Type de retour

log_files

Retours

Type de retour

log_verbosity

Retours

Type de retour

outputs

primary_metric

Retours

Type de retour

status

Retours

Type de retour

studio_url

Retours

Type de retour

task_type

Retours

Type de retour

test_data

Retours

Type de retour

training

Retours

Type de retour

training_data

Retours

Type de retour

type

Retours

Type de retour

validation_data

Retours

Type de retour

Ressources supplémentaires