ClassificationJob Classe

Configuration du travail de classification AutoML.

Initialiser une nouvelle tâche de classification AutoML.

Héritage
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular
ClassificationJob

Constructeur

ClassificationJob(*, primary_metric: str | None = None, positive_label: str | None = None, **kwargs)

Paramètres

primary_metric
Optional[str]

La métrique principale à utiliser pour l’optimisation, par défaut, est None

positive_label
Optional[str]

Étiquette positive pour le calcul des métriques binaires, valeur par défaut None

featurization
Optional[TabularFeaturizationSettings]

Paramètres de caractérisation. La valeur par défaut est None.

limits
Optional[TabularLimitSettings]

Limite les paramètres. La valeur par défaut est None.

training
Optional[TrainingSettings]

Paramètres d’entraînement. La valeur par défaut est None.

primary_metric
Optional[str]

La métrique principale à utiliser pour l’optimisation, par défaut, est None

positive_label
Optional[str]

Étiquette positive pour le calcul des métriques binaires, valeur par défaut None

featurization
Optional[TabularFeaturizationSettings]

paramètres de caractérisation. La valeur par défaut est None.

limits
Optional[TabularLimitSettings]

limite les paramètres. La valeur par défaut est None.

training
Optional[TrainingSettings]

paramètres d’entraînement. La valeur par défaut est None.

Méthodes

dump

Vide le contenu du travail dans un fichier au format YAML.

set_data

Définissez la configuration des données.

set_featurization

Définissez la configuration de l’ingénierie des fonctionnalités.

set_limits

Définissez des limites pour le travail.

set_training

Méthode permettant de configurer les paramètres liés à l’entraînement.

dump

Vide le contenu du travail dans un fichier au format YAML.

dump(dest: str | PathLike | IO, **kwargs) -> None

Paramètres

dest
Union[<xref:PathLike>, str, IO[AnyStr]]
Obligatoire

Chemin d’accès local ou flux de fichiers dans lequel écrire le contenu YAML. Si dest est un chemin de fichier, un nouveau fichier est créé. Si dest est un fichier ouvert, le fichier est écrit directement dans.

kwargs
dict

Arguments supplémentaires à passer au sérialiseur YAML.

Exceptions

Déclenché si dest est un chemin de fichier et que le fichier existe déjà.

Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.

set_data

Définissez la configuration des données.

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

Paramètres

training_data
Input

Données de formation.

target_column_name
str

Nom de colonne de la colonne cible.

weight_column_name
Optional[str]

Poids du nom de la colonne, par défaut aucun

validation_data
Optional[Input]

Données de validation, la valeur par défaut est None

validation_data_size
Optional[float]

Taille des données de validation, valeur par défaut None

n_cross_validations
Optional[Union[str, int]]

n_cross_validations, la valeur par défaut est None

cv_split_column_names
Optional[List[str]]

cv_split_column_names, la valeur par défaut est None

test_data
Optional[Input]

Données de test, la valeur par défaut est None

test_data_size
Optional[float]

Taille des données de test, valeur par défaut None

Exceptions

Déclenché si dest est un chemin de fichier et que le fichier existe déjà.

Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.

set_featurization

Définissez la configuration de l’ingénierie des fonctionnalités.

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

Paramètres

blocked_transformers
Optional[List[Union[BlockedTransformers, str]]]

Liste des noms de transformateurs à bloquer pendant la caractérisation, la valeur par défaut est None

column_name_and_types
Optional[Dict[str, str]]

Dictionnaire de noms de colonnes et de types de caractéristiques utilisés pour mettre à jour l’objectif des colonnes , par défaut, est None

dataset_language
Optional[str]

Code ISO 639-3 à trois caractères pour les langues contenues dans le jeu de données. Les langues autres que l’anglais ne sont prises en charge que si vous utilisez le calcul avec GPU. Le language_code « mul » doit être utilisé si le jeu de données contient plusieurs langues. Pour rechercher les codes ISO 639-3 pour différentes langues, reportez-vous à https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, par défaut, aucun

transformer_params
Optional[Dict[str, List[ColumnTransformer]]]

Dictionnaire du transformateur et des paramètres de personnalisation correspondants , par défaut, a la valeur None

mode
Optional[str]

« off », « auto », par défaut sur « auto », par défaut sur Aucun

enable_dnn_featurization
Optional[bool]

S’il faut inclure des méthodes d’ingénierie des fonctionnalités basées sur DNN, par défaut, aucun

Exceptions

Déclenché si dest est un chemin de fichier et que le fichier existe déjà.

Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.

set_limits

Définissez des limites pour le travail.

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

Paramètres

enable_early_termination
Optional[bool]

Si vous souhaitez activer l’arrêt anticipé si le score ne s’améliore pas à court terme, la valeur par défaut est None.

Logique d’arrêt anticipé :

  • Aucun arrêt anticipé pour les 20 premières itérations (repères).

  • La fenêtre d’arrêt anticipé commence à la 21ème itération et recherche les early_stopping_n_iters itérations

    (actuellement défini sur 10). Cela signifie que la première itération où l’arrêt peut se produire est la 31ème.

  • AutoML planifie toujours 2 itérations d’ensemble APRÈS l’arrêt précoce, ce qui peut entraîner des scores plus élevés.

  • L’arrêt anticipé est déclenché si la valeur absolue du meilleur score calculé est la même pour les dernières

    early_stopping_n_iters itérations, autrement dit, s’il n’y a pas d’amélioration du score pour early_stopping_n_iters itérations.

exit_score
Optional[float]

Score cible de l’expérience. L’expérimentation se termine une fois ce score atteint. S’il n’est pas spécifié (aucun critère), l’expérimentation s’exécute jusqu’à ce que la métrique principale n’affiche plus de progression. Pour plus d’informations sur les critères de sortie, consultez cet article , la valeur par défaut est None

max_concurrent_trials
Optional[int]

Il s’agit du nombre maximal d’itérations qui seraient exécutées en parallèle. La valeur par défaut est 1.

  • Les clusters AmlCompute prennent en charge une itération exécutée par nœud.

Quand plusieurs exécutions parentes d’expérience AutoML sont effectuées en parallèle sur un seul cluster AmlCompute, la somme des valeurs max_concurrent_trials de toutes les expériences doit être inférieure ou égale au nombre maximal de nœuds. Sinon, les exécutions sont mises en file d’attente jusqu’à ce que les nœuds soient disponibles.

  • DSVM prend en charge plusieurs itérations par nœud. max_concurrent_trials Devrait

être inférieur ou égal au nombre de cœurs sur la machine virtuelle DSVM. Quand plusieurs exécutions d’expérience sont effectuées en parallèle sur une seule DSVM, la somme des valeurs max_concurrent_trials de toutes les expériences doit être inférieure ou égale au nombre maximal de nœuds.

  • Databricks : max_concurrent_trials doit être inférieur ou égal au nombre de

nœuds worker sur Databricks.

max_concurrent_trials ne s’applique pas aux exécutions locales. Auparavant, ce paramètre était appelé concurrent_iterations.

max_cores_per_trial
Optional[int]

Nombre maximal de threads à utiliser pour une itération d’entraînement donnée. Valeurs acceptables :

  • Supérieur à 1 et inférieur ou égal au nombre maximal de cœurs sur la cible de calcul.

  • Égal à -1, ce qui signifie qu’il faut utiliser tous les cœurs possibles par itération et par exécution enfant.

  • Égal à 1, valeur par défaut.

max_nodes
Optional[int]

[Expérimental] Nombre maximal de nœuds à utiliser pour l’entraînement distribué.

  • Pour la prévision, chaque modèle est entraîné à l’aide de nœuds max(2, int(max_nodes / max_concurrent_trials)).

  • Pour la classification/régression, chaque modèle est entraîné à l’aide de nœuds max_nodes.

Remarque : ce paramètre est en préversion publique et peut changer à l’avenir.

max_trials
Optional[int]

Nombre total de combinaisons différentes d’algorithmes et de paramètres à tester pendant une expérience de ML automatisé. Si non spécifié, la valeur par défaut est 1000 itérations.

timeout_minutes
Optional[int]

Durée maximale en minutes pendant laquelle toutes les itérations combinées peuvent être effectuées avant que l’expérience ne se termine. Si la valeur n’est pas spécifiée, le délai d’expiration par défaut de l’expérience est de 6 jours. Pour spécifier un délai d’attente inférieur ou égal à 1 heure, assurez-vous que la taille de votre jeu de données n’est pas supérieure à 10 000 000 (colonne lignes et fois colonne) ou qu’une erreur s’affiche par défaut sur Aucun

trial_timeout_minutes
Optional[int]

Durée d’exécution maximale (en minutes) de chaque itération avant de s’arrêter. Si ce n’est pas spécifié, une valeur de 1 mois ou 43200 minutes est utilisée, la valeur par défaut est None

Exceptions

Déclenché si dest est un chemin de fichier et que le fichier existe déjà.

Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.

set_training

Méthode permettant de configurer les paramètres liés à l’entraînement.

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

Paramètres

enable_onnx_compatible_models
Optional[bool]

Indique s’il faut activer ou désactiver l’application des modèles compatibles ONNX. La valeur par défaut est False. Pour plus d’informations sur Open Neural Network Exchange (ONNX) et Azure Machine Learning, consultez cet article.

enable_dnn_training
Optional[bool]

Indique s’il faut inclure des modèles basés sur DNN lors de la sélection du modèle. Toutefois, la valeur par défaut est True pour les tâches DNN NLP et False pour toutes les autres tâches AutoML.

enable_model_explainability
Optional[bool]

Indique s’il faut activer l’explication du meilleur modèle AutoML à la fin de toutes les itérations d’entraînement AutoML. Pour plus d’informations, consultez Interprétabilité : explications des modèles dans le Machine Learning automatisé. , a la valeur par défaut None

enable_stack_ensemble
Optional[bool]

Indique s’il faut activer ou désactiver l’itération StackEnsemble. Si l’indicateur enable_onnx_compatible_models est défini, l’itération StackEnsemble est désactivée. De même, pour les tâches de série chronologique, l’itération StackEnsemble est désactivée par défaut, afin d’éviter les risques de sur-ajustement en raison de l’utilisation d’un petit jeu d’entraînement dans l’ajustement du méta-apprenant. Pour plus d’informations sur les ensembles, consultez Configuration d’ensemble , valeurs par défaut sur Aucun

enable_vote_ensemble
Optional[bool]

Indique s’il faut activer ou désactiver l’itération VotingEnsemble. Pour plus d’informations sur les ensembles, consultez Configuration d’ensemble , valeurs par défaut sur Aucun

stack_ensemble_settings
Optional[StackEnsembleSettings]

Paramètres de l’itération StackEnsemble, par défaut sur None

ensemble_model_download_timeout
Optional[int]

Pendant la génération de modèles VotingEnsemble et StackEnsemble, plusieurs modèles ajustés des exécutions enfants précédentes sont téléchargés. Configurez ce paramètre avec une valeur supérieure à 300 secondes. Si plus de temps est nécessaire, la valeur par défaut est None

allowed_training_algorithms
Optional[List[str]]

Liste des noms de modèle à rechercher pour une expérience. S’ils ne sont pas spécifiés, tous les modèles pris en charge pour la tâche sont utilisés moins tous les modèles TensorFlow spécifiés ou blocked_training_algorithms déconseillés, la valeur par défaut est None

blocked_training_algorithms
Optional[List[str]]

Liste d’algorithmes à ignorer pour une expérience, la valeur par défaut est None

training_mode
Optional[Union[str, TabularTrainingMode]]

[Expérimental] Mode d’entraînement à utiliser. Les valeurs possibles sont les suivantes :

  • distributed- active l’entraînement distribué pour les algorithmes pris en charge.

  • non_distributed- désactive l’entraînement distribué.

  • auto - Actuellement, il est identique à non_distributed. À l’avenir, cela pourrait changer.

Remarque : Ce paramètre est en préversion publique et peut changer à l’avenir.

Exceptions

Déclenché si dest est un chemin de fichier et que le fichier existe déjà.

Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.

Attributs

base_path

Chemin d’accès de base de la ressource.

Retours

Chemin d’accès de base de la ressource.

Type de retour

str

creation_context

Contexte de création de la ressource.

Retours

Métadonnées de création pour la ressource.

Type de retour

featurization

Obtenez les paramètres de caractérisation tabulaire pour le travail AutoML.

Retours

Paramètres de caractérisation tabulaire pour le travail AutoML

Type de retour

id

ID de la ressource.

Retours

ID global de la ressource, id Azure Resource Manager (ARM).

Type de retour

inputs

limits

Obtenez les limites tabulaires du travail AutoML.

Retours

Limites tabulaires pour le travail AutoML

Type de retour

log_files

Fichiers de sortie de travail.

Retours

Dictionnaire des noms de journaux et des URL.

Type de retour

log_verbosity

Obtenez le détail du journal pour le travail AutoML.

Retours

détail du journal pour le travail AutoML

Type de retour

<xref:LogVerbosity>

outputs

primary_metric

Métrique principale à utiliser pour l’optimisation.

Retours

Métrique principale à utiliser pour l’optimisation.

Type de retour

status

État du travail.

Les valeurs courantes retournées sont « Exécution en cours (Running) », « Terminé (Finished) » et « Échec (Failed) ». Toutes les valeurs possibles sont les suivantes :

  • NotStarted : il s’agit d’un état temporaire dans lequel se trouvent les objets Run côté client avant la soumission cloud.

  • Démarrage : l’exécution a commencé à être traitée dans le cloud. L’appelant a un ID d’exécution à ce stade.

  • Approvisionnement : le calcul à la demande est en cours de création pour une soumission de travail donnée.

  • Préparation : l’environnement d’exécution est en cours de préparation et se trouve dans l’une des deux étapes suivantes :

    • Build d’image Docker

    • Configuration de l’environnement Conda

  • Mis en file d’attente : le travail est mis en file d’attente sur la cible de calcul. Par exemple, dans BatchAI, le travail est dans un état mis en file d’attente

    en attendant que tous les nœuds demandés soient prêts.

  • En cours d’exécution : le travail a commencé à s’exécuter sur la cible de calcul.

  • Finalisation : l’exécution du code utilisateur est terminée et l’exécution est en phase de post-traitement.

  • CancelRequested : l’annulation a été demandée pour le travail.

  • Terminé : l’exécution s’est terminée avec succès. Cela inclut à la fois l’exécution et l’exécution du code utilisateur

    Étapes de post-traitement.

  • Failed (Échec) : l’exécution a échoué. En règle générale, la propriété Error d’une exécution fournit des détails sur la raison de l’échec.

  • Annulé : suit une demande d’annulation et indique que l’exécution a bien été annulée.

  • NotResponding : pour les exécutions pour lesquelles des pulsations sont activées, aucune pulsation n’a été envoyée récemment.

Retours

État du travail.

Type de retour

studio_url

Point de terminaison Azure ML Studio.

Retours

URL de la page des détails du travail.

Type de retour

task_type

Obtenir le type de tâche.

Retours

Type de tâche à exécuter. Les valeurs possibles sont les suivantes : « classification », « régression », « forecasting ».

Type de retour

str

test_data

Obtenir des données de test.

Retours

Entrée de données de test

Type de retour

training

Paramètres d’entraînement pour le travail de classification AutoML.

Retours

Paramètres d’entraînement utilisés pour le travail de classification AutoML.

Type de retour

<xref:ClassificationTrainingSettings>

training_data

Obtenir des données d’entraînement.

Retours

Entrée de données d’entraînement

Type de retour

type

Type du travail.

Retours

Type du travail.

Type de retour

validation_data

Obtenir des données de validation.

Retours

Entrée de données de validation

Type de retour