Lezione 1: Creazione della struttura di data mining Bike Buyer

In questa lezione verrà creata una struttura di data mining che consente di stimare se un potenziale cliente di Adventure Works Cycles acquisterà una bicicletta. Se non si ha familiarità con le strutture di data mining e il loro ruolo nel data mining, vedere Strutture di data mining (Analysis Services – Data mining).

La struttura di data mining Bike Buyer che si creerà in questa lezione supporta l'aggiunta di modelli di data mining basati sull'Algoritmo Microsoft Clustering e sull'Algoritmo Microsoft Decision Trees. Nelle lezioni successive si utilizzeranno i modelli di data mining di clustering per esaminare le diverse modalità di raggruppamento dei clienti e si utilizzeranno modelli di data mining di albero delle decisioni per stimare se un potenziale cliente acquisterà una bicicletta.

Istruzione CREATE MINING STRUCTURE

Per creare una struttura di data mining viene utilizzata l'istruzione CREATE MINING STRUCTURE (DMX). Il codice nell'istruzione può essere suddiviso nelle parti seguenti:

  • Denominazione della struttura.

  • Definizione della colonna chiave.

  • Definizione delle colonne di data mining.

  • Definizione di un set di dati di testing facoltativo.

Di seguito è riportato un esempio generico dell'istruzione CREATE MINING STRUCTURE:

CREATE MINING STRUCTURE [<mining structure name>]
(
    <key column>,
    <mining structure columns>
) 
WITH HOLDOUT (<holdout specifier>)

La prima riga del codice definisce il nome della struttura:

CREATE MINING STRUCTURE [<mining structure name>]

Per informazioni sulla denominazione di un oggetto in DMX (Data Mining Extensions), vedere Identificatori (DMX).

La riga successiva del codice definisce la colonna chiave per la struttura di data mining, che identifica in modo univoco un'entità nei dati di origine:

<key column>,

In questa struttura di data mining creata, l'identificatore del cliente, CustomerKey, definisce un'entità nei dati di origine.

La riga successiva del codice viene utilizzata per definire le colonne di data mining che verranno utilizzate dai modelli di data mining associati alla struttura di data mining:

<mining structure columns>

La funzione DISCRETIZE in <mining structure columns> consente di discretizzare colonne continue utilizzando la sintassi seguente:

DISCRETIZE(<method>,<number of buckets>)

Per ulteriori informazioni sulla discretizzazione di colonne, vedere Metodi di discretizzazione (data mining). Per ulteriori informazioni sui tipi di colonne della struttura di data mining che è possibile definire, vedere Colonne della struttura di data mining.

L'ultima riga del codice definisce una partizione facoltativa nella struttura di data mining:

WITH HOLDOUT (<holdout specifier>)

Specificare alcuni dati da utilizzare per testare i modelli di data mining correlati alla struttura e i rimanenti dati da utilizzare per il training dei modelli. Per impostazione predefinita, in Analysis Services viene creato un set di dati di test che contiene il 30% di tutti i dati dei case. È necessario aggiungere la specifica che i set di dati di test devono contenere il 30% dei case fino a un massimo di 1000 case. Se il 30% dei case è minore di 1000, il set di dati di test conterrà la quantità inferiore.

Argomenti della lezione

In questa lezione verranno eseguite le attività seguenti:

  • Creazione di una nuova query vuota.

  • Modifica della query per creare la struttura di data mining.

  • Esecuzione della query.

Creazione della query

Il primo passaggio consiste nella connessione a un'istanza di Analysis Services e nella creazione di una nuova query DMX in SQL Server Management Studio.

Per creare una nuova query DMX in SQL Server Management Studio

  1. Aprire SQL Server Management Studio.

  2. Nella finestra di dialogo Connetti al server selezionare Analysis Services in Tipo server. In Nome server digitare LocalHost o il nome dell'istanza di Analysis Services a cui si desidera connettersi per la lezione. Fare clic su Connetti.

  3. In Esplora oggetti fare clic con il pulsante destro del mouse sull'istanza di Analysis Services, scegliere Nuova query, quindi fare clic su DMX per aprire l'editor di querycon una nuova query vuota.

Modifica della query

Il passaggio successivo consiste nella modifica dell'istruzione CREATE MINING STRUCTURE descritta in precedenza per creare la struttura di data mining Bike Buyer.

Per personalizzare l'istruzione CREATE MINING STRUCTURE

  1. Nell'editor di query copiare l'esempio generico dell'istruzione CREATE MINING STRUCTURE nella query vuota.

  2. Sostituire quanto segue:

    [<mining structure>] 
    

    con:

    [Bike Buyer]
    
  3. Sostituire quanto segue:

    <key column> 
    

    con:

    CustomerKey LONG KEY
    
  4. Sostituire quanto segue:

    <mining structure columns> 
    

    con:

       [Age] LONG DISCRETIZED(Automatic,10),
       [Bike Buyer] LONG DISCRETE,
       [Commute Distance] TEXT DISCRETE,
       [Education] TEXT DISCRETE,
       [Gender] TEXT DISCRETE,
       [House Owner Flag] TEXT DISCRETE,
       [Marital Status] TEXT DISCRETE,
       [Number Cars Owned] LONG DISCRETE,
       [Number Children At Home] LONG DISCRETE,
       [Occupation] TEXT DISCRETE,
       [Region] TEXT DISCRETE,
       [Total Children]LONG DISCRETE,
       [Yearly Income] DOUBLE CONTINUOUS
    
  5. Sostituire quanto segue:

    WITH HOLDOUT (holdout specifier>)
    

    con:

    WITH HOLDOUT (30 PERCENT or 1000 CASES)
    

    L'istruzione della struttura di data mining completa dovrebbe essere la seguente:

    CREATE MINING STRUCTURE [Bike Buyer]
    (
       [Customer Key] LONG KEY,
       [Age]LONG DISCRETIZED(Automatic,10),
       [Bike Buyer] LONG DISCRETE,
       [Commute Distance] TEXT DISCRETE,
       [Education] TEXT DISCRETE,
       [Gender] TEXT DISCRETE,
       [House Owner Flag] TEXT DISCRETE,
       [Marital Status] TEXT DISCRETE,
       [Number Cars Owned]LONG DISCRETE,
       [Number Children At Home]LONG DISCRETE,
       [Occupation] TEXT DISCRETE,
       [Region] TEXT DISCRETE,
       [Total Children]LONG DISCRETE,
       [Yearly Income] DOUBLE CONTINUOUS
    )
    WITH HOLDOUT (30 PERCENT or 1000 CASES)
    
  6. Scegliere Salva DMXQuery1.dmx con nome dal menu File.

  7. Nella finestra di dialogo Salva con nome individuare la cartella appropriata e assegnare al file il nome Bike Buyer Structure.dmx.

Esecuzione della query

Il passaggio conclusivo consiste nell'esecuzione della query. Dopo la creazione e il salvataggio di una query, è necessario eseguirla. Ovvero, l'istruzione deve essere eseguita per creare la struttura di data mining nel server. Per ulteriori informazioni sull'esecuzione di query nell'editor di query, vedere Finestra dell'editor di query del Motore di database di SQL Server Management Studio.

Per eseguire la query

  • Nell'editor di query fare clic su Esegui sulla barra degli strumenti.

    Al termine dell'esecuzione dell'istruzione, lo stato della query viene visualizzato nella scheda Messaggi nella parte inferiore dell'editor di query. Dovrebbero essere visualizzati i messaggi seguenti:

    Executing the query 
    Execution complete
    

    A questo punto sul server è presente una nuova struttura denominata Bike Buyer.

Nella lezione successiva verranno aggiunti modelli di data mining alla struttura appena creata.