Présentation du pool principal dans Clusters Big Data SQL Server

S’applique à : SQL Server 2019 (15.x)

Important

Le module complémentaire Clusters Big Data Microsoft SQL Server 2019 sera mis hors service. La prise en charge de la plateforme Clusters Big Data Microsoft SQL Server 2019 se terminera le 28 février 2025. Tous les utilisateurs existants de SQL Server 2019 avec Software Assurance seront entièrement pris en charge sur la plateforme, et le logiciel continuera à être maintenu par les mises à jour cumulatives SQL Server jusqu’à ce moment-là. Pour plus d’informations, consultez le billet de blog d’annonce et les Options Big Data sur la plateforme Microsoft SQL Server.

Cet article décrit le rôle de l’instance maître SQL Server dans un cluster Big Data SQL Server. Le pool principal contient l’instance maître de SQL Server. L’instance maître est une instance SQL s’exécutant dans un cluster Big Data SQL Server. L’instance maître gère la connectivité, les requêtes scale-out, les métadonnées, les bases de données utilisateur et les services d’apprentissage automatique.

L’instance principale SQL Server fournit les fonctionnalités suivantes :

Connectivité

L’instance principale SQL Server fournit un point de terminaison TDS accessible depuis l’extérieur pour le cluster. Vous pouvez connecter des applications ou des outils SQL Server comme Azure Data Studio ou SQL Server Management Studio à ce point de terminaison, comme vous le feriez pour n’importe quelle autre instance SQL Server.

Scale-out de la gestion des requêtes

L’instance principale SQL Server contient le moteur de requête avec scale-out qui est utilisé pour distribuer les requêtes entre les instances SQL Server sur les nœuds du pool de calcul. Le moteur de requête scale-out fournit également un accès via Transact-SQL à toutes les tables Hive dans le cluster, sans aucune configuration supplémentaire.

Base de données de métadonnées et bases de données utilisateur

En plus des bases de données système SQL Server standard, l’instance maître SQL contient :

  • Une base de données de métadonnées qui contient les métadonnées des tables HDFS.
  • Un mappage des partitions du plan de données.
  • Des détails sur les tables externes qui fournissent l’accès au plan de données du cluster.
  • Des sources de données externes PolyBase et des tables externes définies dans les bases de données utilisateur.

Vous pouvez également choisir d’ajouter vos propres bases de données utilisateur à l’instance principale SQL Server.

Services Machine Learning

Les services d’apprentissage automatique SQL Server sont un module complémentaire du moteur de base de données. Les services d’apprentissage automatique sont utilisés pour exécuter les codes Java, R et Python dans SQL Server. Cette fonctionnalité est basée sur l’infrastructure d’extensibilité SQL Server, qui isole les processus externes des processus principaux du moteur, mais qui s’intègre totalement aux données relationnelles sous forme de procédures stockées, de script T-SQL contenant des instructions R ou Python, ou de code Java, R ou Python contenant du T-SQL.

Dans le cadre d’un cluster Big Data SQL Server, les services Machine Learning sont disponibles sur l’instance principale SQL Server par défaut. Une fois que l’exécution de scripts externes est activée sur l’instance maître SQL Server, il sera possible d’exécuter des scripts Java, R et Python avec sp_execute_external_script.

Avantages des services Machine Learning dans un cluster Big Data

Clusters Big Data SQL Server permet de joindre facilement des données Big Data aux données dimensionnelles généralement stockées dans la base de données des entreprises. La valeur des données Big Data augmente considérablement quand elles ne sont pas seulement dans les mains de certaines parties d’une organisation, mais sont également incluses dans les rapports, les tableaux de bord et les applications. En même temps, les scientifiques des données peuvent continuer à utiliser les outils de l’écosystème Spark/HDFS, et disposer d’un accès facile et en temps réel aux données de l’instance principale SQL Server et dans des sources de données externes accessibles via l’instance principale SQL Server.

Avec Clusters Big Data SQL Server, vous pouvez en faire plus avec vos lacs de données d’entreprise. Les développeurs et les analystes SQL Server peuvent :

  • Créer des applications qui utilisent des données provenant de lacs de données d’entreprise.
  • Travailler sur l’ensemble des données avec des requêtes Transact-SQL.
  • Utiliser l’écosystème existant d’outils et d’applications SQL Server pour accéder aux données d’entreprise et les analyser.
  • Réduire le besoin de déplacement de données via la virtualisation des données et les mini-Data Warehouses.
  • Continuer à utiliser Spark pour les scénarios Big Data.
  • Créer des applications d’entreprise intelligentes avec Spark ou SQL Server pour entraîner des modèles sur des lacs de données.
  • Exploiter des modèles dans les bases de données de production pour obtenir de meilleures performances.
  • Diffuser des données directement dans des mini-Data Warehouses de l’entreprise pour une analytique en temps réel.
  • Explorer les données visuellement avec des outils d’analyse interactive et décisionnels.

Étapes suivantes

Pour en savoir plus sur les Clusters Big Data SQL Server, consultez les ressources suivantes :