Service de modèle avec Azure Databricks
Cet article décrit le Service de modèles Mosaic AI, y compris ses avantages et ses limitations.
Qu’est-ce que le modèle d’IA Mosaïque sert ?
Mosaïque AI Model Serving fournit une interface unifiée pour déployer, régir et interroger des modèles IA pour l’inférence en temps réel et par lots. Chaque modèle servi est disponible en tant qu’API REST que vous pouvez intégrer à votre application web ou cliente.
Model Serving fournit un service à haute disponibilité et à faible latence pour le déploiement de modèles. Le service effectue automatiquement un scale-up ou un scale-down pour répondre aux modifications de la demande, ce qui réduit les coûts d’infrastructure tout en optimisant les performances de latence. Cette fonctionnalité utilise le calcul serverless. Pour plus d’informations, consultez la Page de tarification du Service de modèles.
Le service de modèles prend en charge les modèles suivants :
- Modèles personnalisés. Il s’agit de modèles Python empaquetés au format MLflow. Ils peuvent être inscrits dans Unity Catalog ou dans le registre de modèle de l’espace de travail. Il peut s’agir notamment de modèles scikit-learn, XGBoost, PyTorch et Hugging Face Transformer.
- Le service d’agent est pris en charge comme modèle personnalisé. Consulter Déployer un agent pour une application d’IA générative
- Modèles ouverts de pointe mis à la disposition par les API Foundation Model. Ces modèles sont des architectures de modèle de base curées qui prennent en charge l’inférence optimisée. Les modèles de base, tels que Meta-Llama-3.1-70B-Instruct, GTE-Large et Mistral-7B, sont disponibles pour une utilisation immédiate avec la tarification de paiement par jeton , et les charges de travail qui nécessitent des garanties de performances et des variantes de modèle affinées peuvent être déployées avec un débit approvisionné.
- Databricks recommande d’utiliser
ai_query
avec Model Serve pour l’inférence par lots. Pour une expérimentation rapide,ai_query
vous pouvez utiliser des points de terminaison de paiement par jeton. Lorsque vous êtes prêt à exécuter l’inférence par lots sur des données volumineuses ou de production, Databricks recommande d’utiliser des points de terminaison de débit approvisionnés pour accélérer les performances. Pour savoir comment créer un point de terminaison de débit provisionné, consultez les API de modèle De base de débit provisionnée.- Consultez Effectuer une inférence par lot à l’aide de ai_query.
- Pour commencer à utiliser l’inférence par lots avec des machines virtuelles LLMs sur des tables de catalogue Unity, consultez les exemples de notebooks dans l’inférence Batch à l’aide du débit provisionné des API Foundation Model.
- Databricks recommande d’utiliser
- Modèles externes. Il s’agit de modèles IA générative hébergés en dehors de Databricks. Les exemples incluent des modèles tels que GPT-4 d’OpenAI, Claude d’Anthropic et d’autres. Les points de terminaison servant des modèles externes peuvent être régis de manière centralisée et les clients peuvent établir des limites de débit et un contrôle d’accès les concernant.
Remarque
Vous pouvez interagir avec des grands modèles de langage pris en charge en utilisant AI Playground. AI Playground est un environnement de type conversationnel dans lequel vous pouvez tester, inviter et comparer des LLM. Cette fonctionnalité est disponible dans votre espace de travail Azure Databricks.
Le service de modèles offre une API REST unifiée et l’API MLflow Deployment pour les tâches CRUD et d’interrogation. En outre, il fournit une interface utilisateur unique pour gérer tous vos modèles et leurs points de terminaison de service respectifs. Vous pouvez également accéder aux modèles directement à partir de SQL à l’aide de fonctions IA pour faciliter l’intégration aux flux de travail d’analytique.
Pour obtenir un didacticiel d’introduction sur la façon de servir des modèles personnalisés sur Azure Databricks, consultez Didacticiel : Déployer et interroger un modèle personnalisé.
Pour obtenir un tutoriel de démarrage sur la façon d’interroger un modèle de fondation sur Databricks, consultez Commencer à interroger des LLM sur Databricks.
Pourquoi utiliser le Service de modèles ?
- Déployez et interrogez tous les modèles : La mise en service de modèles fournit une interface unifiée qui vous permet de gérer tous les modèles dans un emplacement et de les interroger à l’aide d’une unique API, qu’ils soient hébergés sur Databricks ou en externe. Cette approche simplifie le processus d’expérimentation, notamment la personnalisation et le déploiement de modèles en production sur différents clouds et fournisseurs.
- Personnaliser en toute sécurité les modèles avec vos données privées : basé sur une plateforme Data Intelligence, Model Serving simplifie l’intégration des fonctionnalités et des embeddings dans les modèles grâce à l’intégration native avec le magasin de fonctionnalités Databricks et la recherche vectorielle d’IA Mosaic. Pour une précision accrue et une compréhension contextuelle améliorée, les modèles peuvent être affinés avec des données propriétaires et déployés sans effort sur la mise en service de modèle.
- Gouverner et surveiller des modèles : L’interface utilisateur de mise en service vous permet de gérer tous les points de terminaison de modèle de manière centralisée à partir d’un seul endroit, y compris les modèles hébergés en externe. Vous pouvez gérer les autorisations, suivre et définir des limites d’utilisation et surveiller la qualité de tous les types de modèles. Cela vous permet de démocratiser l’accès à SaaS et d’ouvrir des LLM au sein de votre organisation tout en veillant à ce que les garde-fous appropriés soient en place.
- Réduire les coûts avec l’inférence optimisée et la mise à l’échelle rapide : Databricks a implémenté une gamme d’optimisations pour vous assurer d’obtenir le meilleur en termes de débit et de latence pour les modèles volumineux. Les points de terminaison effectuent automatiquement un scale-up ou un scale-down pour répondre aux modifications de la demande, ce qui réduit les coûts d’infrastructure, tout en optimisant les performances de latence. Surveillez les coûts de service de modèle.
Remarque
Pour les charges de travail sensibles à la latence ou impliquant un nombre élevé de requêtes par seconde, Databricks recommande d’utiliser l’optimisation de l’itinéraire sur les points de terminaison de service de modèle personnalisés. Contactez votre équipe de compte Databricks pour vous assurer que votre espace de travail est activé pour une scalabilité élevée.
- Apporter la fiabilité et la sécurité à la mise en service de modèle : La mise en service de modèle est conçue pour une utilisation de production à haute disponibilité et à faible latence. Elle peut prendre en charge plus de 25 000 requêtes par seconde avec une latence de charge inférieure à 50 ms. Les charges de travail de mise en service sont protégées par plusieurs couches de sécurité, garantissant ainsi un environnement sécurisé et fiable pour les tâches les plus sensibles.
Remarque
Model Service ne fournit pas de correctifs de sécurité aux images de modèle existantes en raison du risque de déstabilisation des déploiements de production. Une nouvelle image de modèle créée à partir d’une nouvelle version de modèle contient les derniers correctifs. Contactez votre équipe de compte Databricks pour plus d’informations.
Exigences
- Modèle inscrit dans le catalogue Unity Catalog ou le Registre de modèles de l’espace de travail.
- Autorisations sur les modèles inscrits, comme décrit dans Listes de contrôle d’accès des points de terminaison de service.
- MLflow 1.29 ou version ultérieure.
- Si vous utilisez Azure Private Link pour respecter les règles d’entrée liées à la mise en réseau configurées sur l’espace de travail, Azure Private Link est uniquement pris en charge pour les points de terminaison de service de modèle qui utilisent le débit provisionné ou les points de terminaison qui servent des modèles personnalisés. Consultez Configurer la connectivité privée à partir du calcul serverless.
Activer la mise en service de modèles pour votre espace de travail
Aucune étape supplémentaire n’est nécessaire pour activer le service de modèles dans votre espace de travail.
Limitations et disponibilité de la région
Le Service de modèles Mosaic AI impose des limites par défaut pour garantir des performances fiables. Consultez l’article Limites et régions du service de modèle. Si vous avez des commentaires sur ces limites ou un point de terminaison dans une région non prise en charge, contactez l’équipe en charge de votre compte Databricks.
Protection des données dans le service de modèles
Databricks prend au sérieux la sécurité des données. Databricks comprend l’importance des données que vous analysez à l’aide du Service de modèles Mosaic AI et implémente les contrôles de sécurité suivants pour protéger vos données.
- Chaque requête client au service de modèles est logiquement isolée, authentifiée et autorisée.
- Le Service de modèles Mosaic AI chiffre toutes les données au repos (AES-256) et en transit (TLS 1.2+).
Pour tous les comptes payants, le Service de modèles Mosaic AI n’utilise pas les entrées utilisateur envoyées au service ou les sorties du service pour effectuer l’apprentissage de modèles ou améliorer les services Databricks.
Pour les API Databricks Foundation Model, dans le cadre de la fourniture du service, Databricks peut traiter et stocker temporairement des entrées et des sorties à des fins de prévention, de détection et d’atténuation des abus ou des utilisations dangereuses. Vos entrées et sorties sont isolées de celles d’autres clients, stockées dans la même région que votre espace de travail pendant trente (30) jours maximum et accessibles uniquement pour détecter et répondre aux problèmes de sécurité ou d’abus. Les API Foundation Model sont un service désigné Databricks, ce qui signifie qu’il respecte les limites de résidence des données comme implémenté par Databricks Geos.
Ressources supplémentaires
- Commencez à interroger les LLM sur Databricks.
- Didacticiel : Déployer et interroger un modèle personnalisé
- Présentation de la création d’applications IA de génération sur Databricks
- Déployer des modèles personnalisés.
- Migrer vers la mise en service de modèles
- Migrer des points de terminaison de service LLM optimisés vers un débit provisionné