Utiliser scikit-learn sur Azure Databricks

Cette page fournit des exemples d’utilisation du package scikit-learn pour entraîner des modèles Machine Learning dans Azure Databricks. scikit-learn est l’une des bibliothèques Python les plus populaires pour le Machine Learning mononœud. Elle est incluse dans Databricks Runtime et Databricks Runtime ML. Pour la version de la bibliothèque scikit-learn incluse dans le runtime de votre cluster, consultez Notes de publication de Databricks Runtime.

Vous pouvez importer ces notebooks et les exécuter dans votre espace de travail Azure Databricks.

Pour obtenir des exemples de notebooks supplémentaires permettant de démarrer rapidement sur Azure Databricks, consultez Tutoriels : Bien démarrer avec l’IA et le Machine Learning.

Exemple de base utilisant scikit-learn

Ce notebook offre une vue d’ensemble rapide de la formation de modèles Machine Learning sur Azure Databricks. Il utilise le package scikit-learn pour entraîner un modèle de classification simple. Il illustre également l’utilisation de MLflow pour suivre le processus de développement de modèles et Optuna pour automatiser le réglage des hyperparamètres.

Si votre espace de travail est activé pour Unity Catalog, utilisez cette version du notebook :

Notebook de classification scikit-learn (Unity Catalog)

Obtenir le notebook

Si votre espace de travail n’est pas activé pour Unity Catalog, utilisez cette version du notebook :

Notebook de classification scikit-learn

Obtenir le notebook

Exemple de bout en bout avec scikit-learn sur Azure Databricks

Ce notebook utilise scikit-learn pour illustrer un exemple complet de chargement de données, d’apprentissage d’un modèle, de réglage distribué des hyperparamètres et d’inférence de modèle. Il illustre également la gestion du cycle de vie des modèles en utilisant MLflow Model Registry pour consigner et inscrire votre modèle.

Si votre espace de travail est activé pour Unity Catalog, utilisez cette version du notebook :

Utilisation de scikit-learn avec l’intégration MLflow dans Databricks (Unity Catalog)

Obtenir le notebook

Si votre espace de travail n’est pas activé pour Unity Catalog, utilisez cette version du notebook :

Utilisation de scikit-learn avec l’intégration MLflow dans Databricks

Obtenir le notebook