CREATE MINING MODEL (DMX)

S’applique à : SQL Server Analysis Services

Crée à la fois un modèle d'exploration de données et une structure d'exploration de données dans la base de données. Vous pouvez créer un modèle en définissant le nouveau modèle dans l'instruction ou en utilisant le langage PMML (Predictive Model Markup Language). La deuxième option s'adresse uniquement aux utilisateurs expérimentés.

La structure d'exploration de données est nommée en annexant "_structure" au nom du modèle, ce qui garantit l'unicité du nom de la structure dans le nom du modèle.

Pour créer un modèle d’exploration de données pour une structure d’exploration de données existante, utilisez l’instruction ALTER MINING STRUCTURE (DMX).

Syntaxe

  
CREATE [SESSION] MINING MODEL <model>  
(  
    [(<column definition list>)]  
)  
USING <algorithm> [(<parameter list>)] [WITH DRILLTHROUGH]  
CREATE MINING MODEL <model> FROM PMML <xml string>  

Arguments

modèle
Nom unique du modèle

liste de définitions de colonne
Liste des définitions de colonnes séparées par des virgules.

algorithm
Nom d'un algorithme d'exploration de données, tel que défini par le fournisseur actuel.

Remarque

Une liste des algorithmes pris en charge par le fournisseur actuel peut être récupérée à l’aide de DMSCHEMA_MINING_SERVICES Ensemble de lignes. Pour afficher les algorithmes pris en charge dans l’instance actuelle d’Analysis Services, consultez Propriétés d’exploration de données.

liste de paramètres
facultatif. Liste séparée par des virgules des paramètres définis par le fournisseur de l'algorithme.

chaîne XML
(Pour une utilisation avancée uniquement.) Modèle encodé XML (PMML). La chaîne doit être entourée de guillemets simples (').

La clause SESSION vous permet de créer un modèle d’exploration de données qui est automatiquement supprimé du serveur lorsque la connexion se ferme ou que la session expire. Les modèles d’exploration de données SESSION sont utiles, car ils ne nécessitent pas que l’utilisateur soit administrateur de base de données et qu’ils utilisent uniquement de l’espace disque tant que la connexion est ouverte.

La clause WITH DRILLTHROUGH permet d’explorer le nouveau modèle d’exploration de données. L'extraction ne peut être activée que lors de la création du modèle. Pour certains types de modèles, l'extraction est requise pour parcourir le modèle dans la visionneuse personnalisée. L'extraction n'est pas requise pour la prédiction ou pour parcourir le modèle à l'aide de la Visionneuse de l'arborescence de contenu générique Microsoft.

L’instruction CREATE MINING MODEL crée un modèle d’exploration de données basé sur la liste de définitions de colonne, l’algorithme et la liste des paramètres d’algorithme.

Liste des définitions de colonnes

Pour définir la structure d'un modèle qui utilise la liste des définitions de colonnes, vous devez fournir les informations suivantes pour chaque colonne :

  • Nom (obligatoire)

  • Type de données (obligatoire)

  • Distribution

  • Liste des indicateurs de modélisation

  • Type de contenu (obligatoire)

  • Requête de prédiction, qui indique à l’algorithme pour prédire cette colonne, indiquée par la clause PREDICT ou PREDICT_ONLY

  • Relation à une colonne d’attribut (obligatoire uniquement si elle s’applique), indiquée par la clause RELATED TO

Utilisez la syntaxe suivante pour la liste des définitions de colonnes, pour définir une seule colonne :

<column name>    <data type>    [<Distribution>]    [<Modeling Flags>]    <Content Type>    [<prediction>]    [<column relationship>]   

Utilisez la syntaxe suivante pour la liste des définitions de colonnes, pour définir une colonne de tables imbriquées :

<column name>    TABLE    [<prediction>] ( <non-table column definition list> )  

À l'exception des indicateurs de modélisation, vous ne pouvez utiliser qu'une seule clause d'un groupe particulier pour définir une colonne. Vous pouvez définir plusieurs indicateurs de modélisation pour une colonne.

Pour la liste des types de données, types de contenu, distributions de colonnes et indicateurs de modélisation à utiliser pour définir une colonne, consultez les rubriques suivantes :

Vous pouvez ajouter une clause à l'instruction pour décrire la relation entre deux colonnes. Analysis Services prend en charge l’utilisation de la clause de relation> colonne suivante<.

ASSOCIÉ À
Cette forme indique une hiérarchie des valeurs. La cible d'une colonne RELATED TO peut être une colonne clé dans une table imbriquée, une colonne de valeurs discrètes dans la ligne de cas ou une autre colonne RELATED TO qui indique une hiérarchie plus profonde.

Utilisez une clause de prévision pour décrire de quelle manière la colonne de prévision est utilisée. Le tableau suivant décrit les deux clauses possibles.

<clause de prédiction> Description
PREDICT Cette colonne peut être prédite par le modèle, et elle peut être fournie à des cas d'entrée pour prédire la valeur d'autres colonnes prédictibles.
PREDICT_ONLY Cette colonne peut être prédite par le modèle, mais ses valeurs ne peuvent pas être utilisées dans des cas d'entrée pour prédire la valeur d'autres colonnes prédictibles.

Liste des définitions des paramètres

La liste des paramètres permet d'ajuster les performances et les fonctionnalités d'un modèle d'exploration de données. La syntaxe de la liste des paramètres est la suivante :

[<parameter> = <value>, <parameter> = <value>,...]  

Pour obtenir la liste des paramètres associés à chaque algorithme, consultez Algorithmes d’exploration de données (Analysis Services - Exploration de données).

Notes

Si vous souhaitez créer un modèle qui a un jeu de données de test intégré, vous devez utiliser l'instruction CREATE MINING STRUCTURE suivie de ALTER MINING STRUCTURE. Toutefois, les types de modèles ne prennent pas tous en charge un jeu de données d'exclusion. Pour plus d’informations, consultez CREATE MINING STRUCTURE (DMX).

Pour obtenir une procédure pas à pas de la création d’un modèle d’exploration de données à l’aide de l’instruction CREATEMODEL, consultez le didacticiel DMX de prédiction de série chronologique.

Exemple de modèle Naive Bayes

L’exemple suivant utilise l’algorithme Microsoft Naive Bayes pour créer un modèle d’exploration de données. La colonne Bike Buyer (Acheteur de vélo) est définie comme l'attribut prédictible.

CREATE MINING MODEL [NBSample]  
(  
    CustomerKey LONG KEY,   
    Gender TEXT DISCRETE,  
    [Number Cars Owned] LONG DISCRETE,  
    [Bike Buyer] LONG DISCRETE PREDICT  
)  
USING Microsoft_Naive_Bayes  

Exemple de modèle Association

L’exemple suivant utilise l’algorithme Microsoft Association pour créer un modèle d’exploration de données. L'instruction bénéficie de la possibilité d'imbriquer une table dans la définition du modèle en utilisant une colonne de table. Le modèle est modifié à l’aide des paramètres MINIMUM_PROBABILITY et MINIMUM_SUPPORT .

CREATE MINING MODEL MyAssociationModel (  
    OrderNumber TEXT KEY,  
    [Products] TABLE PREDICT (  
        [Model] TEXT KEY  
    )  
)  
USING Microsoft_Association_Rules (Minimum_Probability = 0.1, MINIMUM_SUPPORT = 0.01)  

Exemple de modèle Sequence Clustering

L’exemple suivant utilise l’algorithme Microsoft Sequence Clustering pour créer un modèle d’exploration de données. Deux clés sont utilisées pour définir le modèle. La colonne OrderNumber est utilisée comme clé de cas et spécifie des commandes individuelles. La colonne LineNumber est utilisée comme clé de table imbriquée et spécifie la séquence selon laquelle les éléments ont été ajoutés à une commande.

CREATE MINING MODEL BuyingSequence (  
    [Order Number] TEXT KEY,  
    [Products] TABLE   
     (  
        [Line Number] LONG KEY SEQUENCE,  
        [Model] TEXT DISCRETE PREDICT  
    )  
)  
USING Microsoft_Sequence_Clustering  

Exemple de modèle Time Series

L’exemple suivant utilise l’algorithme Microsoft Times Series pour créer un modèle d’exploration de données à l’aide de l’algorithme ARTxp. ReportingDate est la colonne clé pour la série chronologique et ModelRegion est la colonne clé pour la série de données. Dans cet exemple, on suppose que la périodicité des données est tous les 12 mois. Par conséquent, le paramètre PERIODICITY_HINT est défini sur 12.

Remarque

Vous devez spécifier le paramètre PERIODICITY_HINT à l’aide de caractères accolades. De plus, étant donné que la valeur est une chaîne, elle doit être placée entre guillemets simples : « {<valeur> numérique} ».

CREATE MINING MODEL SalesForecast (  
        ReportingDate DATE KEY TIME,  
        ModelRegion TEXT KEY,  
        Amount LONG CONTINUOUS PREDICT,  
        Quantity LONG CONTINUOUS PREDICT  
)  
USING Microsoft_Time_Series (PERIODICITY_HINT = '{12}', FORECAST_METHOD = 'ARTXP')  

Voir aussi

Instructions de définition de données DMX (Data Mining Extensions)
Instructions de manipulation de données DMX (Data Mining Extensions)
Guide de référence des instructions DMX (Data Mining Extensions)