Méthodes de discrétisation (exploration de données)

Article
07/30/2013

Certains algorithmes utilisés pour créer des modèles d'exploration de données dans SQL Server Analysis Services nécessitent des types de contenu spécifiques pour pouvoir fonctionner correctement. Par exemple, l'algorithme Microsoft Naive Bayes ne peut pas utiliser de colonnes continues comme entrée ni prédire des valeurs continues. En outre, certaines colonnes peuvent contenir tellement de valeurs que l'algorithme ne peut pas identifier facilement les motifs intéressants qui ressortent des données et qui vont servir à créer un modèle.

Dans ce cas, vous pouvez discrétiser les données des colonnes afin de pouvoir utiliser les algorithmes pour créer un modèle d'exploration de données. La discrétisation est le processus consistant à mettre des valeurs dans des compartiments afin d'obtenir un nombre limité d'états possibles. Les compartiments eux-mêmes sont traités comme des valeurs discrètes et ordonnées. Vous pouvez discrétiser les colonnes de nombres et de chaînes.

Plusieurs méthodes vous permettent de discrétiser des données. Si votre solution d'exploration de données utilise des données relationnelles, vous pouvez déterminer le nombre de compartiments à utiliser pour le regroupement des données en définissant la valeur de la propriété DiscretizationBucketCount. Le nombre de compartiments par défaut est 5.

Si votre solution d'exploration de données utilise les données d'un cube OLAP (Online Analytical Processing), l'algorithme d'exploration de données calcule automatiquement le nombre de compartiments à générer, en utilisant l'équation suivante, où n est le nombre de valeurs distinctes de données dans la colonne :

Number of Buckets = sqrt(n)

Si vous ne voulez pas qu'Analysis Services calcule le nombre de compartiments, vous pouvez utiliser la propriété DiscretizationBucketCount pour spécifier manuellement le nombre de compartiments.

Le tableau suivant décrit les méthodes que vous pouvez utiliser pour discrétiser des données dans Analysis Services.

Méthode de discrétisation	Description
AUTOMATIC	Analysis Services détermine la méthode de discrétisation à utiliser.
CLUSTERS	L'algorithme divise les données en groupes en échantillonnant les données d'apprentissage, en initialisant à un certain nombre de points aléatoires, puis en exécutant plusieurs itérations de l'algorithme MC (Microsoft Clustering) à l'aide de la méthode de clustering EM (expectation-maximisation). La méthode CLUSTERS est utile car elle fonctionne sur n'importe quelle courbe de distribution. Cependant, elle nécessite une durée de traitement plus longue que les autres méthodes de discrétisation. Cette méthode peut uniquement être utilisée sur des colonnes numériques.
EQUAL_AREAS	L'algorithme divise les données en groupes contenant un nombre égal de valeurs. Cette méthode convient surtout aux courbes de distribution normales, mais elle n'est pas efficace si la distribution comprend un nombre élevé de valeurs dans un groupe resserré de valeurs continues. Par exemple, si la moitié des éléments a un coût de 0, la moitié des données se trouvera sous un point unique de la courbe. Dans ce type de distribution, cette méthode disperse les données pour tenter d'établir une discrétisation équivalente dans plusieurs zones, ce qui engendre une représentation inexacte des données.

AUTOMATIC

Analysis Services détermine la méthode de discrétisation à utiliser.

CLUSTERS

L'algorithme divise les données en groupes en échantillonnant les données d'apprentissage, en initialisant à un certain nombre de points aléatoires, puis en exécutant plusieurs itérations de l'algorithme MC (Microsoft Clustering) à l'aide de la méthode de clustering EM (expectation-maximisation). La méthode CLUSTERS est utile car elle fonctionne sur n'importe quelle courbe de distribution. Cependant, elle nécessite une durée de traitement plus longue que les autres méthodes de discrétisation.

Cette méthode peut uniquement être utilisée sur des colonnes numériques.

EQUAL_AREAS

L'algorithme divise les données en groupes contenant un nombre égal de valeurs. Cette méthode convient surtout aux courbes de distribution normales, mais elle n'est pas efficace si la distribution comprend un nombre élevé de valeurs dans un groupe resserré de valeurs continues. Par exemple, si la moitié des éléments a un coût de 0, la moitié des données se trouvera sous un point unique de la courbe. Dans ce type de distribution, cette méthode disperse les données pour tenter d'établir une discrétisation équivalente dans plusieurs zones, ce qui engendre une représentation inexacte des données.

Notes

Vous pouvez utiliser la méthode EQUAL_AREAS pour discrétiser des chaînes.
La méthode CLUSTERS utilise un échantillon aléatoire de 1 000 enregistrements pour discrétiser les données. Utilisez la méthode EQUAL_AREAS si vous ne voulez pas que l'algorithme échantillonne les données.
Le didacticiel du modèle d'exploration de données du réseau neuronal fournit un exemple montrant comment la discrétisation peut être personnalisée. Pour plus d'informations, consultez Leçon 5 : Génération de modèles de réseau neuronal et de régression logistique (Didacticiel sur l'exploration de données intermédiaire).