Exploration du modèle de centre d'appels (Didacticiel sur l'exploration de données intermédiaire)
Maintenant que vous avez généré le modèle exploratoire, vous pouvez l'utiliser pour en savoir plus sur vos données à l'aide des outils suivants fournis dans Business Intelligence Development Studio.
Visionneuse de l'algorithme MNN (Microsoft Neural Network)** :** cette visionneuse, qui est disponible sous l'onglet Visionneuse de modèle d'exploration de données du Concepteur d'exploration de données, est conçue pour vous aider à vous familiariser avec les interactions dans les données.
Visionneuse de l'arborescence de contenu générique Microsoft** :** cette visionneuse standard fournit des détails approfondis sur les modèles et les statistiques découverts par l'algorithme lorsqu'il a généré le modèle.
Concepteur de vue de source de données** :** cette visionneuse fournit des tables, des graphiques, des graphiques croisés dynamiques et des tableaux croisés dynamiques qui vous permettent d'explorer les données sources. Il peut être très utile de retourner aux données sources pour comprendre les tendances mises en évidence par le modèle.
Visionneuse de l'algorithme MNN (Microsoft Neural Network)
Cette visionneuse comprend trois volets : Entrée, Sortie et Variables.
Le volet Sortie vous permet de sélectionner des valeurs différentes pour l'attribut prévisible, ou la variable dépendante. Si votre modèle contient plusieurs attributs prévisibles, vous pouvez sélectionner l'attribut dans la liste Attribut de sortie.
Le volet Variables compare les deux résultats que vous avez choisis en termes de d'attributs, ou de variables. Les barres de couleur représentent visuellement dans quelle mesure la variable affecte les résultats cibles. Vous pouvez également afficher les variables sous forme de scores de finesse. Un score de finesse est calculé différemment en fonction du type de modèle d'exploration de données utilisé, mais il indique généralement l'amélioration apportée au modèle lorsque cet attribut est utilisé pour la prédiction.
Le volet Entrée vous permet d'ajouter des facteurs d'influence au modèle pour essayer différents scénarios.
Utilisation du volet Sortie
Dans ce modèle initial, vous voulez voir comment divers facteurs affectent le niveau de service. Pour ce faire, vous pouvez sélectionner Service Grade dans la liste des attributs de sortie, puis comparer différents niveaux de service en sélectionnant des plages dans les listes déroulantes de Value 1 et de Value 2.
Pour comparer les niveaux de service les plus bas et les plus élevés
Pour Value 1, sélectionnez la plage comprenant les valeurs les plus basses. Par exemple, la plage 0.0-0.7 représente les taux d'abandon les plus bas, et par conséquent le meilleur niveau de service.
[!REMARQUE]
Les valeurs exactes de cette plage peuvent varier en fonction de la façon dont vous avez configuré le modèle.
Pour Value 2, sélectionnez la plage comprenant les valeurs les plus élevées. Par exemple, une plage comprenant des valeurs >= 0.12 représente les taux d'abandon les plus élevés, et par conséquent le niveau de service le moins bon.
Le contenu du volet Variables est mis à jour pour comparer les attributs qui contribuent aux valeurs de résultat. Par conséquent, la colonne de gauche vous montre les attributs associés au meilleur niveau de service, et la colonne de droite vous montre ceux associés au niveau de service le moins bon.
Utilisation du volet Variables
Une fois que vous avez configuré les résultats à comparer à l'aide du volet Sortie, vous pouvez utiliser la liste Variables pour voir de quelle façon chaque variable contribue à ce résultat. Dans ce modèle, les trois principaux facteurs qui différencient le niveau de service le plus élevé du niveau de service le moins bon sont les suivants : Average Time Per Issue (Durée moyenne par problème), Orders (Commandes) et Day Of Week (Jour de la semaine).Le volet Variables fournit également des statistiques détaillées sur l'importance de chaque variable utilisée.
Pour afficher et copier la probabilité et les scores de finesse pour un attribut
Dans le volet Variables, placez la souris sur la barre de couleur située dans la première ligne.
Cette barre de couleur vous indique dans quelle mesure Average Time Per Issue (Durée moyenne par problème) contribue à améliorer le niveau de service. L'info-bulle affiche un score global, des probabilités et des scores de finesse pour chaque combinaison d'une variable et d'un résultat cible.
Dans le volet Variables, cliquez avec le bouton droit sur n'importe quelle barre de couleur, puis sélectionnez Copier.
Dans une feuille de calcul Excel, cliquez avec le bouton droit sur une cellule, puis sélectionnez Coller.
Le rapport est collé sous forme de table HTML et affiche uniquement les scores correspondant à chaque barre.
Dans une autre feuille de calcul Excel, cliquez avec le bouton droit sur une cellule, puis sélectionnez Collage spécial.
Le rapport est collé au format texte et inclut les statistiques associées décrites dans la section suivante.
Utilisation du volet Entrée
Supposons que vous souhaitiez examiner l'incidence d'un facteur spécifique, tel que le jour de la semaine, l'équipe ou le nombre de commandes. Vous pouvez sélectionner une variable particulière à l'aide du volet Entrée. Le volet Variables est alors automatiquement mis à jour pour comparer les deux groupes précédemment sélectionnés en fonction de la variable spécifiée. Vous pouvez utiliser ces informations pour explorer les facteurs susceptibles d'influer sur le résultat cible. Par exemple, l'examen initial du modèle a révélé que le niveau de service était meilleur le lundi et le mardi mais qu'il avait tendance à être moins bon le jeudi ; par conséquent, vous décidez d'analyser les facteurs en cause.
Pour passer en revue l'incidence de la modification des attributs d'entrée sur le niveau de service
Dans le volet Entrée, pour attribut, sélectionnez Day Of Week.
Pour Valeur, sélectionnez Thursday (Jeudi).
Le volet Variables est mis à jour afin de montrer l'influence de toutes les autres variables en considérant que le jour de la semaine est Thursday (Jeudi). Toutes les autres sélections restent inchangées ; vous comparez toujours les niveaux de service les plus bas et les plus élevés.
Pour Valeur, remplacez le jour de la semaine par Saturday (Samedi).
Le volet Variables est mis à jour afin de montrer les variables qui influent le plus sur le niveau de service les samedis.
Dans le volet Entrée, cliquez sur la ligne vide suivante sous Attribut, puis sélectionnez Shift. Pour Valeur, sélectionnez AM.
Une nouvelle condition d'entrée est ajoutée à la liste. Le volet Variables est mis à jour afin de montrer l'impact sur le modèle d'une équipe particulière pour le jour de semaine sélectionné.
Continuez de modifier les valeurs de Shift et Day Of Week afin de rechercher des corrélations intéressantes entre le niveau de service et ces variables.
[!REMARQUE]
Pour effacer le contenu du volet Entrée afin d'utiliser d'autres attributs, cliquez sur Actualiser le contenu de l'observateur.
Interprétation des statistiques fournies dans la visionneuse
Des temps d'attente plus longs sont un prédicteur fort d'un taux d'abandon élevé, ce qui correspond à un niveau de service médiocre. Cela peut sembler être une conclusion évidente ; toutefois, le modèle d'exploration de données vous fournit des données statistiques supplémentaires afin de vous aider à interpréter ces tendances.
Score : valeur qui indique l'importance globale de cette variable pour établir une discrimination entre les résultats. Plus le score est élevé, plus l'incidence de la variable sur le résultat est importante.
Probabilité de value 1 : pourcentage qui représente la probabilité de cette valeur pour ce résultat.
Probabilité de value 2 : pourcentage qui représente la probabilité de cette valeur pour ce résultat.
Finesse pour Value 1 et Finesse pour Value 2 : scores qui représentent l'impact de l'utilisation de cette variable particulière pour prédire les résultats de Value 1 et de Value 2. Plus le score est élevé, plus la variable est appropriée pour prédire les résultats.
Comment interpréter ces informations ? À titre d'exemple, comparons les niveaux de service les plus élevés et les moins élevés, puis examinons l'influence d'Average Time Per Issue. Le modèle liste certaines plages de valeurs pour Average Time Per Issue, and provides these statistics: Probabilité de value 1 représente 60,6 % et Probabilité de value 2 représente 8,30 %. Cela signifie que, lorsque Average Time Per Issue était comprise dans la plage 44-70 minutes, 60,6 % des cas étaient dans l'équipe ayant les niveaux de service les plus élevés (Value 1) et 8,30 % des cas étaient dans l'équipe ayant les niveaux de service les moins bons (Value 2).
Vous pouvez tirer des conclusions de cette information. Un temps de réponse aux appels plus court (plage 44-70) contribue fortement à un meilleur niveau de service (plage 0.00-0.07). Le score (92.35) vous indique que cette variable est très importante.
Toutefois, d'autres facteurs ont des effets plus subtils et plus difficiles à interpréter. Par exemple, l'équipe semble avoir une influence sur le service mais cela varie en fonction du jour de la semaine ; par ailleurs, les scores de finesse et les probabilités relatives indiquent que l'équipe n'est pas un facteur important.
La valeur d'un modèle de réseau neuronal tient au fait qu'il expose des relations très subtiles qui sont difficiles à détecter à l'aide d'une analyse classique. Vous devez prendre du temps pour explorer le modèle et interpréter les relations en fonction de votre propre connaissance du problème de l'entreprise.
Retour au début
Visionneuse de l'arborescence de contenu générique Microsoft
Cette visionneuse peut être utilisée pour afficher des informations encore plus détaillées créées par l'algorithme lors du traitement du modèle. La Visionneuse de l'arborescence de contenu génériqueMicrosoft représente le modèle d'exploration de données sous la forme d'une série de nœuds, où chaque nœud représente ce qui a été appris sur les données d'apprentissage. Cette visionneuse peut être utilisée avec tous les modèles, mais le contenu des nœuds est différent en fonction du type de modèle.
Pour les modèles de réseau neuronal ou les modèles de régression logistique, vous pouvez rechercher le nœud des statistiques marginales (marginal statistics node), qui est particulièrement utile. Ce nœud contient des statistiques dérivées sur la distribution des valeurs dans vos données. Ces informations peuvent être utiles si vous voulez obtenir un résumé des données sans avoir à écrire de nombreuses requêtes T-SQL. Le graphique des valeurs de placement dans un conteneur dans la rubrique précédente a été dérivé du nœud des statistiques marginales.
Pour obtenir un résumé des valeurs de données à partir du modèle d'exploration de données
Dans le Concepteur d'exploration de données, sous l'onglet Visionneuse de modèle d'exploration de données, sélectionnez <nom du modèle d'exploration de données>.
Dans la liste Visionneuse, sélectionnez Visionneuse de l'arborescence de contenu générique Microsoft.
La vue du modèle d'exploration de données est actualisée pour afficher une hiérarchie de nœuds dans le volet gauche et une table HTML dans le volet droit.
Dans le volet Légende du nœud, cliquez sur le nœud dont le nom est 10000000000000000.
Le nœud de niveau supérieur de tout modèle est toujours le nœud racine du modèle. Dans un modèle de réseau neuronal ou de régression logistique, le nœud situé immédiatement sous ce nœud est le nœud des statistiques marginales.
Dans le volet Détails du nœud, faites défiler vers le bas jusqu'à la ligne NODE_DISTRIBUTION.
Faites défiler la table NODE_DISTRIBUTION pour voir la distribution des valeurs telle qu'elle a été calculée par l'algorithme MNN (Microsoft Neural Network).
Pour utiliser ces données dans un rapport, vous pouvez sélectionner puis copier les informations correspondant à des lignes spécifiques, ou utiliser la requête DMX (Data Mining Extensions) suivante pour extraire le contenu complet du nœud.
SELECT * FROM [Call Center Binned NN].CONTENT WHERE NODE_NAME = '10000000000000000'
Vous pouvez également utiliser la hiérarchie de nœuds et les détails de la table NODE_DISTRIBUTION pour parcourir des chemins d'accès individuels dans le réseau neuronal et afficher des statistiques provenant de la couche masquée. Pour plus d'informations, consultez Interrogation d'un modèle de réseau neuronal (Analysis Services - Exploration de données).
Retour au début
Concepteur de vue de source de données
Cette visionneuse est utilisée lors de la création d'une structure d'exploration de données ou d'un cube, mais elle fournit également un vaste choix d'outils utiles pour mieux comprendre les données sources. Par exemple, si le modèle a détecté une tendance que vous ne comprenez pas parfaitement, vous pouvez consulter des lignes individuelles dans les données sous-jacentes, ou bien créer des résumés ou des graphiques vous permettant de comprendre les corrélations.
Cette section fournit un exemple de la façon dont vous pouvez utiliser le Concepteur de vue de source de données pour explorer des tendances révélées par le modèle sans avoir à copier des données vers Excel ou à exécuter plusieurs requêtes T-SQL sur la source de données.
Dans ce scénario, vous allez créer des graphiques qui présentent graphiquement la corrélation entre le temps de réponse et le niveau de service qui ont été détectés par le modèle.
Pour créer un graphique croisé dynamique qui illustre une tendance à partir du modèle d'exploration de données
Dans l'Explorateur de solutions, sous Vues des sources de données, double-cliquez sur Call Center.dsv.
Sous l'onglet Call Center.dsv, cliquez avec le bouton droit sur la table, FactCallCenter, puis sélectionnez Explorer les données.
Un nouvel onglet, intitulé Explorer la table FactCallCenter, s'ouvre. Cet onglet contient quatre sections sous des onglets différents : Table, Tableau croisé dynamique, Graphique et Graphique croisé dynamique.
Cliquez sur l'onglet Graphique croisé dynamique.
Dans la Liste des champs du graphique, sélectionnez AverageTimePerIssue, puis faites-le glisser jusqu'à la zone intitulée Déposer les champs de catégorie ici de la zone de graphique.
Puisque les données sources proviennent d'une table plate, la hiérarchie affichée dans la Liste des champs du graphique contient les mêmes informations au niveau de la hiérarchie et au niveau des champs. Toutefois, si vous travaillez avec un cube ou une dimension, la hiérarchie peut contenir plusieurs membres. Par exemple, une hiérarchie Date peut contenir des champs tels que Trimestre, Mois ou Jour. Vous pouvez faire glisser toute la hiérarchie ou un seule membre de la hiérarchie jusqu'au graphique.
Dans la Liste des champs du graphique, recherchez ServiceGrade, puis faites-le glisser jusqu'au centre de la zone de graphique.
Le graphique est mis à jour pour ajouter une zone intitulée Sum of ServiceGrade (Somme des valeurs ServiceGrade) en haut du graphique.
Dans la barre d'outils, cliquez sur l'icône sigma, puis sélectionnez Moyenne.
Le titre est mis à jour pour afficher Average of ServiceGrade (Moyenne de ServiceGrade).
Dans la Liste des champs du graphique, sélectionnez Shift, puis faites-le glisser jusqu'à la zone intitulée Placer les champs de filtre ici de la zone de graphique. Faites glisser WageType à partir de la Liste des champs du graphique et déposez-le en regard de Shift.
Vous pouvez à présent filtrer par équipe pour voir si la tendance est différente en fonction de l'équipe, ou si le jour est un jour férié ou un jour ouvré.
Sélectionnez AverageTimePerIssue en bas du graphique, et refaites-le glisser jusqu'à la Liste des champs du graphique.
Dans la Liste des champs du graphique, sélectionnez AverageTimePerLevelTwoOperators, puis faites-le glisser jusqu'à la zone intitulée Déposer les champs de catégorie ici de la zone de graphique.
Le graphique est mis à jour pour afficher la corrélation entre une augmentation du nombre d'opérateurs et le niveau de service moyen. Il ne semble pas y avoir de relation linéaire. Vous pouvez continuer à faire des essais en déposant de nouveaux champs dans le graphique, ou en changeant de type de graphique.
Notez toutefois que ces graphiques peuvent généralement afficher uniquement quelques attributs à la fois, alors que l'algorithme MNN (Microsoft Neural Network) analyse de nombreuses interactions complexes entres plusieurs entrées. De plus, le modèle de réseau neuronal détecte de nombreuses corrélations qui sont trop subtiles pour être exprimées dans un graphique.
Si vous voulez exporter le diagramme du réseau de dépendances ou un modèle de réseau neuronal, vous pouvez également utiliser le complément Modèles d'exploration de données pour Visio. Ce complément gratuit pour Visio 2007 fournit des diagrammes élaborés et personnalisables pour des modèles d'exploration de données que vous pouvez utiliser dans des présentations ou des rapports. Pour plus d'informations, consultez Data Mining Add-ins for Office 2007 (en anglais).
Retour au début
Tâche suivante de la leçon
Voir aussi
Tâches
Référence
Concepts
Historique des modifications
Mise à jour du contenu |
---|
Correction des noms de modèles d'exploration de données dans les prédictions et les instructions DDL pour correspondre à la mise à jour du scénario. |
Mise à jour du modèle pour inclure le jour de la semaine ; suppression du tableau de statistiques relatif au modèle antérieur. Description des effets liés au jour de la semaine. |