Projets d'exploration de données (Analysis Services - Exploration de données)
Lorsque vous développez une solution d’exploration de données dans Analysis Services, vous devez créer au préalable un projet Analysis Services. Dans ce projet, vous définissez la source de données que vous utiliserez pour l'analyse, puis vous configurez un modèle qui inclut un algorithme et des instructions personnalisées pour la gestion des données. Vous pouvez également continuer à tester et affiner le modèle dans le projet. Lorsque vous êtes satisfait de la solution, vous pouvez la déployer sur un autre serveur ou l'utiliser dans une application pour effectuer des prédictions et une analyse.
Les sections suivantes détaillent les outils et processus de création d'une solution d'exploration de données tout en fournissant des liens vers les ressources à utiliser pour chaque étape.
Création d'un projet Analysis Services
Lorsque vous développez une solution d'exploration de données, vous devez créer au préalable un projet Analysis Services avec Business Intelligence Development Studio. Chaque projet d’exploration de données contient les quatre types d’objet suivants : les sources de données, les vues de sources de données basées sur les sources de données, les structures d’exploration définissant l'utilisation des données dans le modèle et les modèles d'exploration permettant de créer et de stocker les motifs.
Pour plus d'informations :Définition d'un projet Analysis Services, Définition d'une source de données à l'aide de l'Assistant Source de données (Analysis Services)
Définition d'une source de données
La source de données définit la chaîne de connexion et les informations d'authentification que le serveur Analysis Services utilisera pour se connecter à la source de données. La source de données peut contenir plusieurs tables ou vues. Analysis Services peut utiliser des jeux de données issus de bases de données relationnelles et de bases de données OLAP ou provenant de fournisseurs externes.
Après avoir défini cette connexion vers une source de données, vous pouvez créer une vue qui identifie les données spécifiques se rapportant à votre modèle. La vue de source de données permet également de personnaliser la manière dont les données de la source sont fournies au modèle d'exploration de données. Vous pouvez modifier la structure des données pour la rendre plus pertinente par rapport à votre projet ou ne choisir que certains types de données. Si vous souhaitez filtrer les données, vous pouvez effectuer cette opération dans la vue de source de données ou dans les filtres qui sont appliqués au niveau du modèle.
Les spécifications relatives à la quantité de données requises et à la manière dont elles doivent être nettoyées et mises en forme varient selon l'algorithme utilisé pour étudier ces données.
Pour plus d'informations :Définition d'une vue de source de données (Analysis Services)
Ajout de structures d'exploration de données dans un projet Analysis Services
Lorsque vous avez suffisamment de données pour commencer l'analyse, vous pouvez sélectionner les colonnes de données les plus pertinentes pour votre problème professionnel et ajouter des structures d'exploration de données au projet. Une structure d'exploration de données définit les colonnes de données, ainsi que les colonnes avec les tables imbriquées qui proviennent d’une vue de source de données ou d'un cube OLAP du projet.
Pour ajouter une nouvelle structure d’exploration de données, vous pouvez lancer l’Assistant Exploration de données qui vous guidera tout au long de la procédure de définition de données et, facultativement, de la procédure de création d’un modèle d’exploration de données initial. Lors de la création d’une structure, vous pouvez également partitionner vos données pour inclure un jeu de données d'apprentissage, utilisé pour générer des modèles, et un jeu de données de test, qui peut servir à tester ou valider tous les modèles d'exploration de données basés sur cette structure. Vous pouvez utiliser l'onglet Structure d'exploration de données du Concepteur d'exploration de données pour modifier des structures d'exploration de données existantes, et notamment ajouter des colonnes et des tables imbriquées.
Pour plus d'informations :Création d'une nouvelle structure d'exploration de données, Concepteur d'exploration de données, Assistant Exploration de données (Analysis Services - Exploration de données)
Utilisation de modèles d'exploration de données
Vous pouvez ajouter un ou plusieurs modèles d'exploration de données dans chaque structure. Le modèle d’exploration de données définit l’algorithme ou la méthode d’analyse que vous utiliserez sur les données. Vous traitez chaque modèle en exécutant les données de la vue de source de données au moyen de l'algorithme, qui génère un modèle mathématique des données. Ce processus porte le nom d’apprentissage du modèle.
Une fois le modèle traité, vous pouvez explorer visuellement le modèle d’exploration de données et créer des requêtes de prédiction s'y rapportant.
Analysis Services fournit plusieurs options pour traiter des objets de modèle d'exploration de données, y compris la possibilité de déterminer quels objets seront traités ainsi que leur mode de traitement. Par exemple, vous pouvez traiter une structure et mettre les données en cache, puis continuer d’ajouter de nouveaux modèles à la structure. Si les données sont mises en cache, vous pouvez utiliser des requêtes d’extraction qui renvoient des informations détaillées sur les cas utilisés dans le modèle.
Pour plus d'informations :Algorithmes d'exploration de données (Analysis Services – exploration de données), Traitement des objets Analysis Services, Utilisation de l'extraction sur les modèles et les structures d'exploration de données (Analysis Services - Exploration de données).
Validation des modèles d'exploration de données
Une fois un modèle créé, vous pouvez étudier les résultats et déterminer quels sont les modèles les plus efficaces. Dans l’onglet Visionneuse de modèle d'exploration de données du Concepteur d'exploration de données, Analysis Services fournit des visionneuses pour chaque type de modèle d’exploration de données que vous pouvez utiliser pour explorer les modèles.
Dans l’onglet Graphique d'analyse de précision de l'exploration de données du concepteur, Analysis Services fournit des outils que vous pouvez utiliser pour comparer directement les modèles d’exploration de données et choisir le modèle le plus précis ou le plus utile. Ces outils incluent un graphique de courbes d'élévation, un graphique des bénéfices et une matrice de classification.
Vous pouvez également utiliser le rapport de validation croisée, qui est une nouveauté dans SQL Server 2008, pour effectuer un sous-échantillonnage itératif de vos données afin de déterminer si le modèle est influencé par un jeu de données particulier. Les statistiques de ce rapport peuvent être utilisées pour comparer des modèles objectivement et évaluer la qualité de vos données d'apprentissage.
Pour plus d'informations :Affichage d'un modèle d'exploration de données, Validation des modèles d'exploration de données (Analysis Services - Exploration de données)
Création de prédictions
L'objectif principal de la plupart des projets d'exploration de données consiste à utiliser un modèle d'exploration de données pour créer des prédictions. Une fois que vous avez exploré et comparé les modèles d'exploration de données, vous pouvez utiliser un ou plusieurs outils pour créer des prédictions. Analysis Services fournit un langage de requête appelé DMX (Data Mining Extensions) qui est à la base de la création des prédictions et qui est facilement scriptable. Pour vous aider à créer des requêtes de prédictions DMX, SQL Server fournit un générateur de requêtes, disponible dans SQL Server Management Studio et Business Intelligence Development Studio, ainsi que des modèles DMX pour l'éditeur de requêtes dans Management Studio. Dans BI Development Studio, vous pouvez accéder au générateur de requêtes à partir de l'onglet Prévision de modèle d'exploration de données du Concepteur d'exploration de données.
Pour plus d'informations :Création de requêtes de prédiction DMX, Guide de référence des instructions DMX (Data Mining Extensions)
SQL Server Management Studio
Une fois que vous avez utilisé BI Development Studio pour générer des modèles d'exploration de données pour votre projet d'exploration de données, vous pouvez gérer et utiliser les modèles, et créer des prédictions dans Management Studio. Avec les outils de requête de SQL Server Management Studio, vous pouvez explorer les données de vos modèles, créer des requêtes de contenu complexe ou gérer des objets d'exploration de données stockés dans une instance de SQL Server.
Pour plus d'informations :Exploration de données dans SQL Server Management Studio, Exploration de données dans SQL Server Management Studio
SQL Server Reporting Services
Après avoir créé un modèle d'exploration de données, vous pouvez distribuer les résultats à un public plus étendu. Comme les résultats d'exploration de données sont stockés dans un schéma cohérent qui est facilement accessible via des requêtes de base de données, vous pouvez utiliser divers outils clients pour présenter les résultats d'analyse, explorer les motifs du modèle ou élaborer des prédictions.
Vous pouvez utiliser le Concepteur de rapports dans Microsoft SQL Server Reporting Services pour créer des rapports que vous pouvez utiliser pour présenter les informations que contient un modèle d'exploration de données. Vous pouvez utiliser le résultat de toute requête DMX comme base d'un rapport et vous pouvez tirer profit des fonctionnalités de paramétrage et de mise en forme disponibles dans Reporting Services.
Pour plus d'informations :Type de connexion Analysis Services pour DMX (SSRS), Intégration de Reporting Services dans les applications
Utilisation par programme de l'exploration de données
Analysis Services fournit plusieurs outils qui vous permettent d'utiliser par programmation l'exploration de données. Le langage DMX (Data Mining Extensions) fournit des instructions qui permettent de créer des modèles d'exploration de données, d'en effectuer l'apprentissage et de les utiliser. Vous pouvez également effectuer ces tâches en utilisant une combinaison d'instructions XMLA (XML for Analysis) et ASSL (Analysis Services Scripting Language), ou en utilisant des objets AMO (Analysis Management Objects).
Vous pouvez accéder à toutes les métadonnées associées à l'exploration de données en utilisant les ensembles de lignes de schéma d'exploration de données. Par exemple, vous pouvez utiliser les ensembles de lignes de schéma pour déterminer les types de données pris en charge par un algorithme ou les noms de modèles qui existent dans une base de données.
Pour plus d'informations :Guide de référence du langage DMX (Data Mining Extensions), Ensembles de lignes de schéma d'exploration de données, Utilisation de XMLA (XML for Analysis) dans Analysis Services