automl Paquet
Contient des classes de Machine Learning automatisé pour Azure Machine Learning SDKv2.
Les principaux domaines incluent la gestion des tâches AutoML.
Classes
ClassificationJob |
Configuration du travail de classification AutoML. Initialiser une nouvelle tâche de classification AutoML. |
ColumnTransformer |
Paramètres du transformateur de colonne. |
ForecastingJob |
Configuration de la tâche de prévision AutoML. Initialisez une nouvelle tâche de prévision AutoML. |
ForecastingSettings |
Paramètres de prévision pour un travail AutoML. |
ImageClassificationJob |
Configuration du travail de classification d’images multiclasse AutoML. Initialisez un nouveau travail de classification d’images multiclasse AutoML. |
ImageClassificationMultilabelJob |
Configuration pour le travail de classification d’images multi-étiquettes AutoML. Initialisez un nouveau travail de classification d’images multi-étiquettes AutoML. |
ImageClassificationSearchSpace |
Recherchez dans l’espace de recherche les tâches de classification d’images AutoML et de classification d’images avec plusieurs étiquettes. |
ImageInstanceSegmentationJob |
Configuration du travail de segmentation d’instance d’image AutoML. Initialisez un nouveau travail de segmentation d’instance d’image AutoML. |
ImageLimitSettings |
Limitez les paramètres pour les verticales d’images AutoML. ImageLimitSettings est une classe qui contient les paramètres suivants : max_concurrent_trials, max_trials et timeout_minutes. Il s’agit d’une méthode de configuration facultative pour configurer des paramètres de limites, tels que les délais d’expiration, etc. Notes Le nombre d’exécutions simultanées est limité par les ressources disponibles dans la cible de calcul spécifiée. Vérifiez que la cible de calcul dispose des ressources nécessaires à l’accès concurrentiel souhaité. Conseil Il est recommandé de faire correspondre max_concurrent_trials nombre de nœuds dans le cluster. Par exemple, si vous avez un cluster avec 4 nœuds, définissez max_concurrent_trials sur 4. Exemple d’utilisation Configuration d’ImageLimitSettings
Initialiser un objet ImageLimitSettings. Constructeur pour ImageLimitSettings pour AutoML Image Verticals. |
ImageModelSettingsClassification |
Paramètres de modèle pour les tâches de classification d’images AutoML. |
ImageModelSettingsObjectDetection |
Paramètres de modèle pour la tâche de détection d’objets d’image AutoML. |
ImageObjectDetectionJob |
Configuration pour le travail de détection d’objets d’image AutoML. Initialisez un nouveau travail de détection d’objets d’image AutoML. |
ImageObjectDetectionSearchSpace |
Recherchez dans l’espace les tâches Détection d’objets d’image AutoML et Segmentation d’instance d’image. |
ImageSweepSettings |
Paramètres de balayage pour tous les verticales d’images AutoML. |
NlpFeaturizationSettings |
Paramètres de caractérisation pour tous les verticaux NLP AutoML. |
NlpFixedParameters |
Objet pour héberger des paramètres fixes pour les travaux NLP. |
NlpLimitSettings |
Limitez les paramètres pour tous les verticaux NLP AutoML. |
NlpSearchSpace |
Recherchez dans l’espace des tâches NLP AutoML. |
NlpSweepSettings |
Paramètres de balayage pour toutes les tâches NLP AutoML. |
RegressionJob |
Configuration du travail de régression AutoML. Initialisez une nouvelle tâche de régression AutoML. |
SearchSpace |
Classe SearchSpace pour les verticales AutoML. |
StackEnsembleSettings |
Paramètre avancé pour personnaliser l’exécution de StackEnsemble. |
TabularFeaturizationSettings |
Paramètres de caractérisation pour un travail AutoML. |
TabularLimitSettings |
Limitez les paramètres d’une table AutoML Verticals. |
TextClassificationJob |
Configuration du travail de classification de texte AutoML. Initialise une nouvelle tâche de classification de texte AutoML. |
TextClassificationMultilabelJob |
Configuration de la tâche multiétiquette de classification de texte AutoML. Initialise une nouvelle tâche AutoML Text Classification Multilabel. |
TextNerJob |
Configuration pour le travail NER de texte AutoML. Initialise une nouvelle tâche AutoML Text NER. |
TrainingSettings |
Classe TrainingSettings pour Azure Machine Learning. Classe TrainingSettings pour Azure Machine Learning. |
Énumérations
BlockedTransformers |
Énumération pour tous les modèles de classification pris en charge par AutoML. |
ClassificationModels |
Énumération pour tous les modèles de classification pris en charge par AutoML. |
ClassificationMultilabelPrimaryMetrics |
Métriques principales pour les tâches de classification multiétiquette. |
ClassificationPrimaryMetrics |
Métriques principales pour les tâches de classification. |
FeaturizationMode |
Mode de caractérisation : détermine le mode de caractérisation des données. |
ForecastHorizonMode |
Énumérez pour déterminer le mode de sélection de l’horizon de prévision. |
ForecastingModels |
Enum pour tous les modèles de prévision pris en charge par AutoML. |
ForecastingPrimaryMetrics |
Métriques principales pour la tâche de prévision. |
InstanceSegmentationPrimaryMetrics |
Métriques principales pour les tâches InstanceSegmentation. |
LearningRateScheduler |
Énumération du planificateur de taux d’apprentissage. |
LogTrainingMetrics |
Contient des classes de Machine Learning automatisé pour Azure Machine Learning SDKv2. Les principaux domaines incluent la gestion des tâches AutoML. |
LogValidationLoss |
Contient des classes de Machine Learning automatisé pour Azure Machine Learning SDKv2. Les principaux domaines incluent la gestion des tâches AutoML. |
NCrossValidationsMode |
Détermine la façon dont la valeur des validations N-Cross est déterminée. |
ObjectDetectionPrimaryMetrics |
Métriques principales pour la tâche Image ObjectDetection. |
RegressionModels |
Énumération pour tous les modèles de régression pris en charge par AutoML. |
RegressionPrimaryMetrics |
Métriques principales pour la tâche régression. |
SamplingAlgorithmType |
Contient des classes de Machine Learning automatisé pour Azure Machine Learning SDKv2. Les principaux domaines incluent la gestion des tâches AutoML. |
ShortSeriesHandlingConfiguration |
Paramètre définissant la manière dont AutoML doit gérer les séries chronologiques courtes. |
StochasticOptimizer |
Optimiseur stochastique pour les modèles d’image. |
TargetAggregationFunction |
Fonction d’agrégation cible. |
TargetLagsMode |
Modes de sélection des retards cibles. |
TargetRollingWindowSizeMode |
Ciblez le mode de taille des fenêtres propagées. |
UseStl |
Configurez la décomposition STL de la colonne cible de série chronologique. |
ValidationMetricType |
Méthode de calcul des métriques à utiliser pour les métriques de validation dans les tâches d’image. |
Fonctions
classification
Fonction permettant de créer une tâche de classification.
Un travail de classification est utilisé pour entraîner un modèle qui prédit le mieux la classe d’un échantillon de données. Différents modèles sont entraînés à l’aide des données d’entraînement. Le modèle avec les meilleures performances sur les données de validation en fonction de la métrique principale est sélectionné comme modèle final.
classification(*, training_data: Input, target_column_name: str, primary_metric: str | None = None, enable_model_explainability: bool | None = None, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None, **kwargs) -> ClassificationJob
Paramètres
- training_data
- Input
Données de formation à utiliser dans l’expérience. Doivent contenir des caractéristiques d’entraînement et une colonne d’étiquette (éventuellement une colonne de pondération d’échantillons).
- target_column_name
- str
Nom de la colonne d’étiquette.
Ce paramètre s’applique aux training_data
paramètres et validation_data
test_data
- primary_metric
Métrique optimisée par le Machine Learning automatisé pour la sélection du modèle. Le Machine Learning automatisé collecte plus de métriques qu’il ne peut en optimiser. Pour plus d’informations sur le calcul des métriques, consultez https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.
Valeurs acceptables : précision, AUC_weighted, norm_macro_recall, average_precision_score_weighted et precision_score_weighted Précision par défaut
- enable_model_explainability
- bool
Indique s’il faut activer l’explication du meilleur modèle AutoML à la fin de toutes les itérations d’entraînement AutoML. La valeur par défaut est Aucun. Pour plus d’informations, consultez Interprétabilité : explications des modèles dans le Machine Learning automatisé.
- weight_column_name
- str
Nom de la colonne de pondération d’échantillons. Le ML automatisé prend en charge une colonne pondérée en entrée. Les lignes des données sont alors pondérées en conséquence. Si les données d'entrée proviennent d'un pandas.DataFrame qui ne possède pas de noms de colonnes, les index de colonnes peuvent être utilisés, exprimés sous forme d'entiers.
Ce paramètre s’applique aux training_data
paramètres et validation_data
- validation_data
- Input
Données de validation à utiliser dans l’expérience. Doivent contenir des caractéristiques d’entraînement et une colonne d’étiquette (éventuellement une colonne de pondération d’échantillons).
La valeur par défaut est None
- validation_data_size
- float
Fraction des données à conserver pour la validation quand les données de validation de l’utilisateur ne sont pas spécifiées. Doit être comprise entre 0,0 et 1,0 non inclus.
Spécifiez validation_data
pour fournir des données de validation, sinon définissez n_cross_validations
ou validation_data_size
pour extraire les données de validation des données d’entraînement spécifiées.
Pour le pli de validation croisée personnalisée, utilisez cv_split_column_names
.
Pour plus d’informations, consultez Configurer des fractionnements de données et la validation croisée dans le Machine Learning automatisé.
La valeur par défaut est None
Nombre de validations croisées à effectuer quand les données de validation de l’utilisateur ne sont pas spécifiées.
Spécifiez validation_data
pour fournir des données de validation, sinon définissez n_cross_validations
ou validation_data_size
pour extraire les données de validation des données d’entraînement spécifiées.
Pour le pli de validation croisée personnalisée, utilisez cv_split_column_names
.
Pour plus d’informations, consultez Configurer des fractionnements de données et la validation croisée dans le Machine Learning automatisé.
La valeur par défaut est None
Liste des noms des colonnes contenant un fractionnement de validation croisée personnalisée. Chaque colonne de fractionnement de validation croisée représente un fractionnement de validation croisée où chaque ligne indique 1 pour l’entraînement ou 0 pour la validation.
La valeur par défaut est None
- test_data
- Input
La fonctionnalité de test de modèle utilisant les jeux de données de test ou les fractionnements de données de test est une fonctionnalité en préversion et peut changer à tout moment. Données de test à utiliser pour une série de tests et démarrées automatiquement une fois l’apprentissage du modèle terminé. La série de tests obtient les prédictions à l’aide du meilleur modèle et calcule des métriques en fonction de ces prédictions.
Si ce paramètre ou le test_data_size
paramètre n’est pas spécifié, aucune série de tests n’est automatiquement exécutée au terme de l’apprentissage du modèle.
Les données de test doivent contenir les fonctionnalités et la colonne d’étiquette.
Si test_data
est spécifié, le paramètre target_column_name
doit l’être.
La valeur par défaut est None
- test_data_size
- float
La fonctionnalité de test de modèle utilisant les jeux de données de test ou les fractionnements de données de test est une fonctionnalité en préversion et peut changer à tout moment. Fraction des données d’apprentissage à conserver pour les données de test d’une série de tests et automatiquement démarrées au terme de l’apprentissage du modèle. La série de tests obtient les prédictions à l’aide du meilleur modèle et calcule des métriques en fonction de ces prédictions.
Doit être comprise entre 0,0 et 1,0 non inclus.
Si test_data_size
est spécifié en même temps que validation_data_size
, les données de test sont fractionnées à partir de training_data
avant le fractionnement des données de validation.
Par exemple, si validation_data_size=0.1
, test_data_size=0.1
et les données de formation d’origine ont 1 000 lignes, alors les données de test ont 100 lignes, les données de validation contiennent 90 lignes et les données de formation comportent 810 lignes.
Pour les tâches basées sur la régression, l’échantillonnage aléatoire est utilisé. Pour les tâches de classification, l’échantillonnage stratifié est utilisé. Les prévisions ne prennent pas actuellement en charge la spécification d’un jeu de données de test à l’aide d’un fractionnement formation/test.
Si ce paramètre ou le test_data
paramètre n’est pas spécifié, aucune série de tests n’est automatiquement exécutée au terme de l’apprentissage du modèle.
La valeur par défaut est None
Retours
Objet de travail qui peut être soumis à un calcul Azure ML pour exécution.
Type de retour
forecasting
Fonction pour créer un travail de prévision.
Une tâche de prévision est utilisée pour prédire des valeurs cibles pour une période ultérieure en fonction des données historiques. Différents modèles sont entraînés à l’aide des données d’entraînement. Le modèle avec les meilleures performances sur les données de validation en fonction de la métrique principale est sélectionné comme modèle final.
forecasting(*, training_data: Input, target_column_name: str, primary_metric: str | None = None, enable_model_explainability: bool | None = None, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None, forecasting_settings: ForecastingSettings | None = None, **kwargs) -> ForecastingJob
Paramètres
- training_data
- Input
Données de formation à utiliser dans l’expérience. Doivent contenir des caractéristiques d’entraînement et une colonne d’étiquette (éventuellement une colonne de pondération d’échantillons).
- target_column_name
- str
Nom de la colonne d’étiquette.
Ce paramètre s’applique aux training_data
paramètres et validation_data
test_data
- primary_metric
Métrique optimisée par le Machine Learning automatisé pour la sélection du modèle. Le Machine Learning automatisé collecte plus de métriques qu’il ne peut en optimiser. Pour plus d’informations sur le calcul des métriques, consultez https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.
Valeurs acceptables : r2_score, normalized_mean_absolute_error normalized_root_mean_squared_error Valeurs par défaut normalized_root_mean_squared_error
- enable_model_explainability
- bool
Indique s’il faut activer l’explication du meilleur modèle AutoML à la fin de toutes les itérations d’entraînement AutoML. La valeur par défaut est Aucun. Pour plus d’informations, consultez Interprétabilité : explications des modèles dans le Machine Learning automatisé.
- weight_column_name
- str
Nom de la colonne de pondération d’échantillons. Le ML automatisé prend en charge une colonne pondérée en entrée. Les lignes des données sont alors pondérées en conséquence. Si les données d'entrée proviennent d'un pandas.DataFrame qui ne possède pas de noms de colonnes, les index de colonnes peuvent être utilisés, exprimés sous forme d'entiers.
Ce paramètre s’applique aux training_data
paramètres et validation_data
- validation_data
- Input
Données de validation à utiliser dans l’expérience. Doivent contenir des caractéristiques d’entraînement et une colonne d’étiquette (éventuellement une colonne de pondération d’échantillons).
La valeur par défaut est None
- validation_data_size
- float
Fraction des données à conserver pour la validation quand les données de validation de l’utilisateur ne sont pas spécifiées. Doit être comprise entre 0,0 et 1,0 non inclus.
Spécifiez validation_data
pour fournir des données de validation, sinon définissez n_cross_validations
ou validation_data_size
pour extraire les données de validation des données d’entraînement spécifiées.
Pour le pli de validation croisée personnalisée, utilisez cv_split_column_names
.
Pour plus d’informations, consultez Configurer des fractionnements de données et la validation croisée dans le Machine Learning automatisé.
La valeur par défaut est None
Nombre de validations croisées à effectuer quand les données de validation de l’utilisateur ne sont pas spécifiées.
Spécifiez validation_data
pour fournir des données de validation, sinon définissez n_cross_validations
ou validation_data_size
pour extraire les données de validation des données d’entraînement spécifiées.
Pour le pli de validation croisée personnalisée, utilisez cv_split_column_names
.
Pour plus d’informations, consultez Configurer des fractionnements de données et la validation croisée dans le Machine Learning automatisé.
La valeur par défaut est None
Liste des noms des colonnes contenant un fractionnement de validation croisée personnalisée. Chaque colonne de fractionnement de validation croisée représente un fractionnement de validation croisée où chaque ligne indique 1 pour l’entraînement ou 0 pour la validation.
La valeur par défaut est None
- test_data
- Input
La fonctionnalité de test de modèle utilisant les jeux de données de test ou les fractionnements de données de test est une fonctionnalité en préversion et peut changer à tout moment. Données de test à utiliser pour une série de tests et démarrées automatiquement une fois l’apprentissage du modèle terminé. La série de tests obtient les prédictions à l’aide du meilleur modèle et calcule des métriques en fonction de ces prédictions.
Si ce paramètre ou le test_data_size
paramètre n’est pas spécifié, aucune série de tests n’est automatiquement exécutée au terme de l’apprentissage du modèle.
Les données de test doivent contenir les fonctionnalités et la colonne d’étiquette.
Si test_data
est spécifié, le paramètre target_column_name
doit l’être.
La valeur par défaut est None
- test_data_size
- float
La fonctionnalité de test de modèle utilisant les jeux de données de test ou les fractionnements de données de test est une fonctionnalité en préversion et peut changer à tout moment. Fraction des données d’apprentissage à conserver pour les données de test d’une série de tests et automatiquement démarrées au terme de l’apprentissage du modèle. La série de tests obtient les prédictions à l’aide du meilleur modèle et calcule des métriques en fonction de ces prédictions.
Doit être comprise entre 0,0 et 1,0 non inclus.
Si test_data_size
est spécifié en même temps que validation_data_size
, les données de test sont fractionnées à partir de training_data
avant le fractionnement des données de validation.
Par exemple, si validation_data_size=0.1
, test_data_size=0.1
et les données de formation d’origine ont 1 000 lignes, alors les données de test ont 100 lignes, les données de validation contiennent 90 lignes et les données de formation comportent 810 lignes.
Pour les tâches basées sur la régression, l’échantillonnage aléatoire est utilisé. Pour les tâches de classification, l’échantillonnage stratifié est utilisé. Les prévisions ne prennent pas actuellement en charge la spécification d’un jeu de données de test à l’aide d’un fractionnement formation/test.
Si ce paramètre ou le test_data
paramètre n’est pas spécifié, aucune série de tests n’est automatiquement exécutée au terme de l’apprentissage du modèle.
La valeur par défaut est None
- forecasting_settings
- ForecastingSettings
Paramètres de la tâche de prévision
Retours
Objet de travail qui peut être soumis à un calcul Azure ML pour exécution.
Type de retour
image_classification
Crée un objet pour le travail de classification multiclasse AutoML Image.
image_classification(*, training_data: Input, target_column_name: str, primary_metric: str | ClassificationPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageClassificationJob
Paramètres
- training_data
- Input
Données de formation à utiliser dans l’expérience.
- target_column_name
- str
Nom de la colonne d’étiquette.
Ce paramètre s’applique aux paramètres training_data
et validation_data
.
- primary_metric
Métrique optimisée par le Machine Learning automatisé pour la sélection du modèle. Le Machine Learning automatisé collecte plus de métriques qu’il ne peut en optimiser. Pour plus d’informations sur le calcul des métriques, consultez https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.
Valeurs acceptables : précision, AUC_weighted, norm_macro_recall, average_precision_score_weighted et precision_score_weighted Précision par défaut.
- validation_data
- Input
Données de validation à utiliser dans l’expérience.
- validation_data_size
- float
Fraction des données à conserver pour la validation quand les données de validation de l’utilisateur ne sont pas spécifiées. Doit être comprise entre 0,0 et 1,0 non inclus.
Spécifiez pour fournir des données de validation. Sinon, définissez validation_data
validation_data_size
pour extraire les données de validation des données d’entraînement spécifiées.
La valeur par défaut est .2
- kwargs
- dict
Dictionnaire des paramètres de configuration supplémentaires.
Retours
Objet de travail de classification d’images qui peut être soumis à un calcul Azure ML pour exécution.
Type de retour
image_classification_multilabel
Crée un objet pour le travail de classification multi-étiquettes AutoML Image.
image_classification_multilabel(*, training_data: Input, target_column_name: str, primary_metric: str | ClassificationMultilabelPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageClassificationMultilabelJob
Paramètres
- training_data
- Input
Données de formation à utiliser dans l’expérience.
- target_column_name
- str
Nom de la colonne d’étiquette.
Ce paramètre s’applique aux paramètres training_data
et validation_data
.
- primary_metric
Métrique optimisée par le Machine Learning automatisé pour la sélection du modèle. Le Machine Learning automatisé collecte plus de métriques qu’il ne peut en optimiser. Pour plus d’informations sur le calcul des métriques, consultez https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.
Valeurs acceptables : précision, AUC_weighted, norm_macro_recall, average_precision_score_weighted, precision_score_weighted et Iou Par défaut sur Iou.
- validation_data
- Input
Données de validation à utiliser dans l’expérience.
- validation_data_size
- float
Fraction des données à conserver pour la validation quand les données de validation de l’utilisateur ne sont pas spécifiées. Doit être comprise entre 0,0 et 1,0 non inclus.
Spécifiez validation_data
pour fournir des données de validation, sinon défini validation_data_size
pour extraire les données de validation des données d’entraînement spécifiées.
Valeurs par défaut : .2
- kwargs
- dict
Dictionnaire des paramètres de configuration supplémentaires.
Retours
Image objet de travail de classification multi-étiquettes qui peut être envoyé à un calcul Azure ML pour l’exécution.
Type de retour
image_instance_segmentation
Crée un objet pour le travail de segmentation d’instance d’image AutoML.
image_instance_segmentation(*, training_data: Input, target_column_name: str, primary_metric: str | InstanceSegmentationPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageInstanceSegmentationJob
Paramètres
- training_data
- Input
Données de formation à utiliser dans l’expérience.
- target_column_name
- str
Nom de la colonne d’étiquette.
Ce paramètre s’applique aux paramètres training_data
et validation_data
.
- primary_metric
Métrique optimisée par le Machine Learning automatisé pour la sélection du modèle. Le Machine Learning automatisé collecte plus de métriques qu’il ne peut en optimiser. Pour plus d’informations sur le calcul des métriques, consultez https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.
Valeurs acceptables : MeanAveragePrecision par défaut sur MeanAveragePrecision.
- validation_data
- Input
Données de validation à utiliser dans l’expérience.
- validation_data_size
- float
Fraction des données à conserver pour la validation quand les données de validation de l’utilisateur ne sont pas spécifiées. Doit être comprise entre 0,0 et 1,0 non inclus.
Spécifiez validation_data
pour fournir des données de validation, sinon défini validation_data_size
pour extraire les données de validation des données d’entraînement spécifiées.
Valeurs par défaut : .2
- kwargs
- dict
Dictionnaire des paramètres de configuration supplémentaires.
Retours
Travail de segmentation d’image instance
Type de retour
image_object_detection
Crée un objet pour le travail de détection d’objet Image AutoML.
image_object_detection(*, training_data: Input, target_column_name: str, primary_metric: str | ObjectDetectionPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageObjectDetectionJob
Paramètres
- training_data
- Input
Données de formation à utiliser dans l’expérience.
- target_column_name
- str
Nom de la colonne d’étiquette.
Ce paramètre s’applique aux paramètres training_data
et validation_data
.
- primary_metric
Métrique optimisée par le Machine Learning automatisé pour la sélection du modèle. Le Machine Learning automatisé collecte plus de métriques qu’il ne peut en optimiser. Pour plus d’informations sur le calcul des métriques, consultez https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.
Valeurs acceptables : MeanAveragePrecision par défaut sur MeanAveragePrecision.
- validation_data
- Input
Données de validation à utiliser dans l’expérience.
- validation_data_size
- float
Fraction des données à conserver pour la validation quand les données de validation de l’utilisateur ne sont pas spécifiées. Doit être comprise entre 0,0 et 1,0 non inclus.
Spécifiez validation_data
pour fournir des données de validation, sinon défini validation_data_size
pour extraire les données de validation des données d’entraînement spécifiées.
Valeurs par défaut : .2
- kwargs
- dict
Dictionnaire des paramètres de configuration supplémentaires.
Retours
Objet de travail de détection d’objet image qui peut être envoyé à un calcul Azure ML pour l’exécution.
Type de retour
regression
Fonction pour créer un travail de régression.
Un travail de régression est utilisé pour entraîner un modèle afin de prédire les valeurs continues d’une variable cible à partir d’un jeu de données. Différents modèles sont entraînés à l’aide des données d’entraînement. Le modèle avec les meilleures performances sur les données de validation en fonction de la métrique principale est sélectionné comme modèle final.
regression(*, training_data: Input, target_column_name: str, primary_metric: str | None = None, enable_model_explainability: bool | None = None, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None, **kwargs) -> RegressionJob
Paramètres
- training_data
- Input
Données de formation à utiliser dans l’expérience. Doivent contenir des caractéristiques d’entraînement et une colonne d’étiquette (éventuellement une colonne de pondération d’échantillons).
- target_column_name
- str
Nom de la colonne d’étiquette.
Ce paramètre s’applique aux training_data
paramètres et validation_data
test_data
- primary_metric
Métrique optimisée par le Machine Learning automatisé pour la sélection du modèle. Le Machine Learning automatisé collecte plus de métriques qu’il ne peut en optimiser. Pour plus d’informations sur le calcul des métriques, consultez https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.
Valeurs acceptables : spearman_correlation, r2_score, normalized_mean_absolute_error, normalized_root_mean_squared_error. Par défaut, normalized_root_mean_squared_error
- enable_model_explainability
- bool
Indique s’il faut activer l’explication du meilleur modèle AutoML à la fin de toutes les itérations d’entraînement AutoML. La valeur par défaut est Aucun. Pour plus d’informations, consultez Interprétabilité : explications des modèles dans le Machine Learning automatisé.
- weight_column_name
- str
Nom de la colonne de pondération d’échantillons. Le ML automatisé prend en charge une colonne pondérée en entrée. Les lignes des données sont alors pondérées en conséquence. Si les données d'entrée proviennent d'un pandas.DataFrame qui ne possède pas de noms de colonnes, les index de colonnes peuvent être utilisés, exprimés sous forme d'entiers.
Ce paramètre s’applique aux training_data
paramètres et validation_data
- validation_data
- Input
Données de validation à utiliser dans l’expérience. Doivent contenir des caractéristiques d’entraînement et une colonne d’étiquette (éventuellement une colonne de pondération d’échantillons).
La valeur par défaut est None
- validation_data_size
- float
Fraction des données à conserver pour la validation quand les données de validation de l’utilisateur ne sont pas spécifiées. Doit être comprise entre 0,0 et 1,0 non inclus.
Spécifiez validation_data
pour fournir des données de validation, sinon définissez n_cross_validations
ou validation_data_size
pour extraire les données de validation des données d’entraînement spécifiées.
Pour le pli de validation croisée personnalisée, utilisez cv_split_column_names
.
Pour plus d’informations, consultez Configurer des fractionnements de données et la validation croisée dans le Machine Learning automatisé.
La valeur par défaut est None
Nombre de validations croisées à effectuer quand les données de validation de l’utilisateur ne sont pas spécifiées.
Spécifiez validation_data
pour fournir des données de validation, sinon définissez n_cross_validations
ou validation_data_size
pour extraire les données de validation des données d’entraînement spécifiées.
Pour le pli de validation croisée personnalisée, utilisez cv_split_column_names
.
Pour plus d’informations, consultez Configurer des fractionnements de données et la validation croisée dans le Machine Learning automatisé.
La valeur par défaut est None
Liste des noms des colonnes contenant un fractionnement de validation croisée personnalisée. Chaque colonne de fractionnement de validation croisée représente un fractionnement de validation croisée où chaque ligne indique 1 pour l’entraînement ou 0 pour la validation.
La valeur par défaut est None
- test_data
- Input
La fonctionnalité de test de modèle utilisant les jeux de données de test ou les fractionnements de données de test est une fonctionnalité en préversion et peut changer à tout moment. Données de test à utiliser pour une série de tests et démarrées automatiquement une fois l’apprentissage du modèle terminé. La série de tests obtient les prédictions à l’aide du meilleur modèle et calcule des métriques en fonction de ces prédictions.
Si ce paramètre ou le test_data_size
paramètre n’est pas spécifié, aucune série de tests n’est automatiquement exécutée au terme de l’apprentissage du modèle.
Les données de test doivent contenir les fonctionnalités et la colonne d’étiquette.
Si test_data
est spécifié, le paramètre target_column_name
doit l’être.
La valeur par défaut est None
- test_data_size
- float
La fonctionnalité de test de modèle utilisant les jeux de données de test ou les fractionnements de données de test est une fonctionnalité en préversion et peut changer à tout moment. Fraction des données d’apprentissage à conserver pour les données de test d’une série de tests et automatiquement démarrées au terme de l’apprentissage du modèle. La série de tests obtient les prédictions à l’aide du meilleur modèle et calcule des métriques en fonction de ces prédictions.
Doit être comprise entre 0,0 et 1,0 non inclus.
Si test_data_size
est spécifié en même temps que validation_data_size
, les données de test sont fractionnées à partir de training_data
avant le fractionnement des données de validation.
Par exemple, si validation_data_size=0.1
, test_data_size=0.1
et les données de formation d’origine ont 1 000 lignes, alors les données de test ont 100 lignes, les données de validation contiennent 90 lignes et les données de formation comportent 810 lignes.
Pour les tâches basées sur la régression, l’échantillonnage aléatoire est utilisé. Pour les tâches de classification, l’échantillonnage stratifié est utilisé. Les prévisions ne prennent pas actuellement en charge la spécification d’un jeu de données de test à l’aide d’un fractionnement formation/test.
Si ce paramètre ou le test_data
paramètre n’est pas spécifié, aucune série de tests n’est automatiquement exécutée au terme de l’apprentissage du modèle.
La valeur par défaut est None
Retours
Objet de travail qui peut être soumis à un calcul Azure ML pour exécution.
Type de retour
text_classification
Fonction pour créer un TextClassificationJob.
Un travail de classification de texte est utilisé pour entraîner un modèle qui peut prédire la classe/catégorie d’une donnée de texte. Les données d’entraînement d’entrée doivent inclure une colonne cible qui classifie le texte en une seule classe.
text_classification(*, training_data: Input, target_column_name: str, validation_data: Input, primary_metric: str | None = None, log_verbosity: str | None = None, **kwargs) -> TextClassificationJob
Paramètres
- training_data
- Input
Données de formation à utiliser dans l’expérience. Il doit contenir à la fois des fonctionnalités d’entraînement et une colonne cible.
- target_column_name
- str
Nom de la colonne cible.
- validation_data
- Input
Données de validation à utiliser dans l’expérience. Il doit contenir à la fois des fonctionnalités d’entraînement et une colonne cible.
- primary_metric
- Union[str, ClassificationPrimaryMetrics]
Métrique principale pour la tâche. Valeurs acceptables : précision, AUC_weighted, precision_score_weighted
- log_verbosity
- str
Niveau de détail du journal.
- kwargs
- dict
Dictionnaire des paramètres de configuration supplémentaires.
Retours
Objet TextClassificationJob.
Type de retour
text_classification_multilabel
Fonction pour créer un TextClassificationMultilabelJob.
Un travail multiétiquette de classification de texte est utilisé pour entraîner un modèle capable de prédire les classes/catégories d’une donnée de texte. Les données d’entraînement d’entrée doivent inclure une colonne cible qui classifie le texte en classe(s). Pour plus d’informations sur le format des données multiétiquettes, consultez : https://docs.microsoft.com/en-us/azure/machine-learning/how-to-auto-train-nlp-models#multi-label
text_classification_multilabel(*, training_data: Input, target_column_name: str, validation_data: Input, primary_metric: str | None = None, log_verbosity: str | None = None, **kwargs) -> TextClassificationMultilabelJob
Paramètres
- training_data
- Input
Données de formation à utiliser dans l’expérience. Il doit contenir à la fois des fonctionnalités d’entraînement et une colonne cible.
- target_column_name
- str
Nom de la colonne cible.
- validation_data
- Input
Données de validation à utiliser dans l’expérience. Il doit contenir à la fois des fonctionnalités d’entraînement et une colonne cible.
- primary_metric
- str
Métrique principale pour la tâche. Valeurs acceptables : précision
- log_verbosity
- str
Niveau de détail du journal.
- kwargs
- dict
Dictionnaire des paramètres de configuration supplémentaires.
Retours
Objet TextClassificationMultilabelJob.
Type de retour
text_ner
Fonction pour créer un TextNerJob.
Un travail de reconnaissance d’entité nommé de texte est utilisé pour entraîner un modèle capable de prédire les entités nommées dans le texte. Les données d’entraînement d’entrée doivent être un fichier texte au format CoNLL. Pour plus d’informations sur le format des données NER de texte, reportez-vous à : https://docs.microsoft.com/en-us/azure/machine-learning/how-to-auto-train-nlp-models#named-entity-recognition-ner
text_ner(*, training_data: Input, validation_data: Input, primary_metric: str | None = None, log_verbosity: str | None = None, **kwargs) -> TextNerJob
Paramètres
- training_data
- Input
Données de formation à utiliser dans l’expérience. Il doit contenir à la fois des fonctionnalités d’entraînement et une colonne cible.
- validation_data
- Input
Données de validation à utiliser dans l’expérience. Il doit contenir à la fois des fonctionnalités d’entraînement et une colonne cible.
- primary_metric
- str
Métrique principale pour la tâche. Valeurs acceptables : précision
- log_verbosity
- str
Niveau de détail du journal.
- kwargs
- dict
Dictionnaire des paramètres de configuration supplémentaires.
Retours
Objet TextNerJob.
Type de retour
Azure SDK for Python