Ajout de modèles d'exploration de données à une structure (Analysis Services - Exploration de données)

Alors qu'une structure d'exploration de données définit le domaine de données, un modèle d'exploration de données définit comment appliquer les données dans ce domaine à un problème particulier. Après avoir créé une structure d'exploration de données, vous pouvez ajouter plusieurs modèles d'exploration de données à la structure. Chaque fois que vous créez un modèle, vous pouvez cibler un problème d'entreprise différent. Par exemple, vous pouvez modifier les paramètres pour utiliser une approche légèrement différente ou utiliser un sous-ensemble de données différent pour obtenir des résultats différents ou extraire des séquences spécifiques à une population cible.

Pour plus d'informations :Création d'une nouvelle structure d'exploration de données, Assistant Exploration de données (Analysis Services - Exploration de données), Gestion des structures d'exploration de données dans le Concepteur d'exploration de données

Création d'un modèle d'exploration de données

Deux approches permettent de créer des modèles d'exploration de données. Vous pouvez définir votre structure d'exploration de données, puis faire des essais avec différents modèles qui utilisent aussi cette structure. Une autre solution consiste à créer le modèle désiré, puis à utiliser la structure générée pour créer des modèles supplémentaires.

Lorsque vous utilisez l'Assistant Exploration de données pour créer un modèle d'exploration de données, vous créez d'abord une structure d'exploration de données. L'Assistant vous donne ensuite l'option d'ajouter un modèle d'exploration de données initial à la structure, puis de configurer un jeu de données d'apprentissage et un jeu de données de test dans cette structure. Toutefois, vous n'êtes pas obligé de créer un modèle immédiatement après. Si vous créez uniquement la structure, vous n'avez pas besoin de prendre de décision concernant la colonne à utiliser comme attribut prévisible ou la façon d'utiliser les données dans un modèle particulier. Il vous suffit de définir la structure de données générale que vous souhaitez utiliser ultérieurement. Par la suite, vous pouvez utiliser le Concepteur d'exploration de données pour ajouter de nouveaux modèles d'exploration de données basés sur la structure.

Si vous connaissez déjà le type de modèle d'exploration de données que vous souhaitez générer, vous pouvez générer la structure, puis utiliser l'Assistant Exploration de données pour ajouter votre premier modèle à la structure d'exploration de données. Vous pouvez ajouter plus de modèles à la structure une fois l'Assistant terminé.

Notes

Dans DMX, l'instruction CREATE MINING MODEL commence par le modèle d'exploration de données. Autrement dit, vous définissez votre choix de modèle d'exploration de données, et Analysis Services génère automatiquement la structure sous-jacente. Par la suite, vous pouvez ajouter de nouveaux modèles d'exploration de données à cette structure à l'aide de l'instruction ALTER STRUCTURE… ADD MODEL.

Pour plus d'informations :Gestion des modèles d'exploration de données dans le Concepteur d'exploration de données

Définition d'un modèle d'exploration de données

  1. Après avoir défini votre domaine de données, vous indiquez à Analysis Services comment utiliser chaque colonne dans les données en spécifiant le contenu et l'utilisation des colonnes. Vous n'êtes pas tenu d'utiliser toutes les colonnes comprises dans la structure d'exploration de données dans votre nouveau modèle d'exploration de données. Même lorsque deux modèles sont basés sur la même structure, vous pouvez indiquer à Analysis Services d'ignorer une colonne particulière pour un modèle. Pour plus d'informations, consultez Architecture logique (Analysis Services - Exploration de données).

Choix d'un algorithme

Lorsque vous ajoutez un modèle à une structure, vous devez sélectionner un algorithme d'exploration de données à utiliser dans ce modèle. Chaque algorithme effectue un type différent d'analyse et certains ont des spécifications différentes quant au nombre et au type de colonnes de données utilisées pour l'entrée ou la prédiction.

Par conséquent, en fonction de l'algorithme que vous sélectionnez, il est possible que certaines colonnes de données que vous avez incluses dans la structure d'exploration de données soient ignorées ou qu'elles aient besoin d'être converties en un autre type de données, ou il se peut que les valeurs aient besoin d'être supprimées. L'Assistant Exploration de données modifiera automatiquement certaines valeurs pour que le modèle fonctionne. Toutefois, dans d'autres cas, il pourra vous recommander de corriger les données en premier ou d'ajouter une colonne requise telle qu'une clé de cas.

Dans certains cas, vous pouvez modifier l'algorithme utilisé dans un modèle, mais la plupart des modifications apportées à la définition du modèle exigent que vous retraitiez le modèle et ses données. En général, chaque fois que vous modifiez l'algorithme utilisé dans un modèle, vous devez le considérer comme un modèle complètement nouveau qui doit être retraité.

Pour plus d'informations :Algorithmes d'exploration de données (Analysis Services – exploration de données)

Spécification de l'utilisation des colonnes

Après avoir sélectionné un algorithme, vous devez spécifier la façon dont l'algorithme gère les données dans votre structure. Il s'agit notamment de sélectionner une ou des colonnes prévisibles, si le modèle en requiert une, de sélectionner des colonnes à utiliser comme entrées et de spécifier un cas ou une clé de table imbriquée. Pour chaque modèle, ces définitions de colonne peuvent varier, même si les modèles utilisent les mêmes données, car les spécifications de chaque algorithme sont différentes. Nous vous recommandons de sélectionner les colonnes qui sont les plus utiles à l'analyse. Les données inutiles ne font qu'augmenter le temps de traitement et peuvent affecter la qualité des résultats. L'Assistant Exploration de données inclut une fonction Suggérer facultative qui analyse les colonnes incluses dans la structure et qui recommande les colonnes fournissant le plus d'informations à l'aide d'un score basé sur la méthode entropique.

Pour plus d'informations :Colonnes d'un modèle d'exploration de données, Définition des propriétés sur un modèle d'exploration de données

Spécification du contenu de colonne

  1. Pour certaines colonnes, vous devrez peut-être spécifier le contenu de colonne. Dans l'exploration de données SQL Server, la propriété Type de contenu de chaque colonne de données indique à l'algorithme comment il doit traiter les données dans cette colonne. Par exemple, si vos données ont une colonne Revenu qui a des valeurs variables, vous devez spécifier que la colonne contient des nombres continus en attribuant au contenu le type Continu. Vous pouvez aussi spécifier que les nombres dans la colonne Revenu doivent être regroupés dans des compartiments en attribuant au contenu le type Discrétisé et en indiquant éventuellement le nombre exact de compartiments. Vous pouvez créer des modèles distincts qui gèrent les colonnes différemment : par exemple, vous pouvez faire des essais avec un modèle qui répartit les clients en trois groupes d'âge et un autre modèle qui répartit les clients en dix groupes d'âge.

Pour plus d'informations :Types de données (Exploration de données), Types de contenu (Exploration de données)