Progetti di data mining

Un progetto di data mining è parte di una soluzione Analysis Services. Durante il processo di progettazione, gli oggetti creati nel progetto sono disponibili per l'esecuzione di test e query come parte di un database dell'area di lavoro. Per consentire agli utenti di eseguire query o esplorare gli oggetti nel progetto, è necessario distribuire il progetto in un'istanza di Analysis Services in esecuzione in modalità multidimensionale.

In questo argomento vengono fornite informazioni di base necessarie per comprendere e creare i progetti di data mining.

Creazione di progetti di data mining

Oggetti nei progetti di data mining

  • Origini dati

  • Viste origine dati

  • Strutture di data mining

  • Modelli di data mining

Utilizzo del progetto di data mining completato

  • Visualizzare ed esplorare modelli

  • Eseguire test e convalidare modelli

  • Creare stime

Accesso a livello di codice ai progetti di data mining

Creazione di progetti di data mining

In SQL Server Data Tools (SSDT) per compilare i progetti di data mining si utilizza il modello Progetto OLAP e data mining. È inoltre possibile creare progetti di data mining a livello di codice tramite AMO. È possibile generare script dei singoli oggetti di data mining tramite ASSL (Analysis Services Scripting Language). Per ulteriori informazioni, vedere Accesso ai dati di modelli multidimensionali (Analysis Services - Dati multidimensionali).

Se si crea un progetto di data mining all'interno di una soluzione esistente, per impostazione predefinita gli oggetti di data mining saranno distribuiti in un database di Analysis Services con lo stesso nome del file della soluzione. È possibile modificare il nome e il server di destinazione utilizzando la finestra di dialogo Proprietà progetto. Per ulteriori informazioni, vedere Configurare proprietà di progetti di Analysis Services (SSDT).

Nota di attenzioneAttenzione

Per compilare e distribuire correttamente il progetto, è necessario avere accesso a un'istanza di Analysis Services in esecuzione in modalità OLAP/data mining. Non è possibile sviluppare o distribuire soluzioni di data mining in un'istanza di Analysis Services che supporta modelli tabulari, né è possibile utilizzare direttamente i dati da una cartella di lavoro di PowerPivot o da un modello tabulare che utilizza l'archivio dati in memoria. Per determinare se l'istanza di Analysis Services disponibile supporta il data mining, vedere Determinare la modalità server di un'istanza di Analysis Services.

In ogni progetto di data mining creato si effettueranno i passaggi riportati di seguito:

  1. Scegliere un'origine dati, ad esempio un cubo, un database o un file di Excel o di testo, che contiene i dati non elaborati da utilizzare per la compilazione dei modelli.

  2. Definire un subset dei dati nell'origine dati da utilizzare per l'analisi e salvarlo come vista origine dati.

  3. Definire una struttura di data mining per supportare la modellazione.

  4. Aggiungere modelli di data mining alla struttura di data mining, scegliendo un algoritmo e specificando la modalità in cui i dati verranno gestiti dall'algoritmo.

  5. Eseguire il training dei modelli popolandoli con i dati selezionati o un subset filtrato dei dati.

  6. Esplorare, eseguire test e ricompilare i modelli.

Al completamento del progetto, è possibile distribuirlo per consentire agli utenti di esplorarlo o eseguire query oppure fornire l'accesso a livello di codice ai modelli di data mining in un'applicazione per supportare stime e analisi.

Torna all'inizio

Oggetti nei progetti di data mining

Tutti i progetti di data mining contengono i quattro tipi di oggetti seguenti. È possibile disporre di più oggetti di tutti i tipi.

  • Origini dati

  • Viste origine dati

  • Strutture di data mining

  • Modelli di data mining

Ad esempio, un solo progetto di data mining può contenere un riferimento a più origini dati, ciascuna delle quali supporta più viste origine dati. A sua volta, ogni vista origine dati può supportare più strutture di data mining, ciascuna con molti modelli di data mining correlati.

Inoltre, il progetto potrebbe includere algoritmi plug-in, assembly personalizzati o stored procedure personalizzate; questi oggetti tuttavia non vengono descritti in questo argomento. Per ulteriori informazioni, vedere Guida per gli sviluppatori (Analysis Services).

Torna all'inizio

Origini dati

L'origine dati definisce la stringa di connessione e le informazioni di autenticazione utilizzate dal server Analysis Services per connettersi all'origine dati. L'origine dati può contenere più tabelle o viste; può trattarsi semplicemente di una sola cartella di lavoro di Excel o un file di testo oppure essere più complessa, come un database OLAP (Online Analytical Processing, elaborazione analitica in linea) o un database relazionale di grandi dimensioni.

Un progetto di data mining può fare riferimento a più origini dati. Anche se un modello di data mining può utilizzare una sola origine dati alla volta, il progetto può avere più modelli tratti da origini dati diverse.

In Analysis Services sono supportati dati da più provider esterni e nel data mining di SQL Server è possibile utilizzare sia dati relazionali sia dati del cubo come origine dati. Tuttavia, se si sviluppano entrambi i tipi di progetti (modelli basati su origini relazionali e modelli basati su cubi OLAP) può essere utile svilupparli e gestirli in progetti separati.

  • In genere i modelli basati su un cubo OLAP devono essere sviluppati all'interno della soluzione di progettazione OLAP. Ciò è dovuto al fatto che i modelli basati su un cubo devono elaborare il cubo per aggiornare i dati. In genere è necessario utilizzare dati del cubo solo quando si tratta del mezzo principale di archiviazione dati e accesso o quando si richiedono le aggregazioni, le dimensioni e gli attributi creati dal progetto multidimensionale.

  • Se nel progetto si utilizzano solo dati relazionali, è necessario creare i modelli relazionali all'interno di un progetto separato, in modo da evitare di rielaborare inutilmente altri oggetti. In molti casi, il database di gestione temporanea o il data warehouse utilizzato per supportare la creazione del cubo contiene già le viste necessarie per eseguire il data mining ed è possibile utilizzare tali viste per il data mining anziché utilizzare le aggregazioni e le dimensioni nel cubo.

  • Non è possibile utilizzare direttamente dati in memoria o PowerPivot per compilare i modelli di data mining.

L'origine dati identifica solo il server o il provider e il tipo di dati generale. Se è necessario modificare la formattazione dei dati e le aggregazioni, utilizzare l'oggetto vista origine dati.

Per controllare la modalità di gestione dei dati dall'origine dati, è possibile aggiungere colonne derivate o calcoli, modificare le aggregazioni o rinominare le colonne nei dati della vista origine dati. È inoltre possibile utilizzare anche i dati a valle, modificando le colonne della struttura di data mining o utilizzando flag di modellazione e filtri al livello della colonna del modello di data mining.

Se è necessario pulire i dati o modificare i dati nel data warehouse per creare variabili aggiuntive, modificare tipi di dati o creare un'aggregazione alternativa, potrebbe essere necessario creare tipi di progetto aggiuntivi a supporto del data mining. Per ulteriori informazioni sui progetti correlati, vedere Progetti correlati per soluzioni di data mining.

Torna all'inizio

Viste origine dati

Dopo avere definito la connessione a un'origine dati, viene creata una vista che individua i dati specifici rilevanti per il modello.

La vista origine dati consente inoltre di personalizzare la modalità in cui i dati nell'origine dati vengono forniti al modello di data mining. È possibile modificare la struttura dei dati in modo da renderla più rilevante per il progetto oppure scegliere solo determinati tipi di dati.

Ad esempio, tramite Editor vista origine dati è possibile:

  • Creare colonne derivate, ad esempio datepart, sottostringhe e così via.

  • Aggregare valori utilizzando istruzioni Transact-SQL come GROUP BY

  • Limitare temporaneamente i dati o i dati di esempio

Per ulteriori informazioni sulla modifica di dati all'interno di una vista origine dati, vedere Viste origine dati in modelli multidimensionali.

Nota di attenzioneAttenzione

Se si desidera filtrare i dati, è possibile eseguire questa operazione nella vista origine dati, ma anche creare filtri sui dati a livello del modello di data mining. Poiché la definizione del filtro è archiviata con il modello di data mining, l'utilizzo di filtri modello semplifica la determinazione dei dati utilizzati per il training del modello. Inoltre, è possibile creare più modelli correlati, con criteri di filtro diversi. Per ulteriori informazioni, vedere Filtri per i modelli di data mining (Analysis Services - Data mining).

Si noti che la vista origine dati creata può contenere dati aggiuntivi non utilizzati direttamente per l'analisi. Ad esempio, è possibile aggiungere alla vista origine dati altri dati utilizzati per test, stime o drill-through. Per ulteriori informazioni su questi utilizzi, vedere Test e convalida (Data mining) e Drill-through.

Torna all'inizio

Strutture di data mining

Dopo avere creato l'origine dati e la vista origine dati, è necessario selezionare le colonne di dati più rilevanti per le esigenze aziendali, definendo strutture di data mining all'interno del progetto. Con una struttura di data mining si indica al progetto quali colonne di dati della vista origine dati devono effettivamente essere utilizzate nella modellazione, nel training e nei test.

Per aggiungere una nuova struttura di data mining, avviare la Creazione guidata modello di data mining. Con la procedura guidata viene automaticamente definita una struttura di data mining, viene avviato il processo di scelta dei dati e, facoltativamente, di aggiunta di un modello di data mining alla struttura. In una struttura di data mining si scelgono le tabelle e le colonne dalla vista origine dati o da un cubo OLAP e si definiscono le relazioni tra le tabelle, se i dati includono tabelle nidificate.

La scelta dei dati sarà molto diversa nella Creazione guidata modello di data mining, a seconda che si utilizzino origini dati relazionali o OLAP.

  • Quando si scelgono dati da un'origine dati relazionale, l'impostazione di una struttura di data mining è semplice: si scelgono le colonne dai dati nella vista origine dati e si impostano personalizzazioni aggiuntive, quali gli alias, o si definisce in che modo raggruppare o suddividere in contenitori i valori nella colonna. Per ulteriori informazioni, vedere Creare una struttura di data mining relazionale.

  • Quando si utilizzano dati da un cubo OLAP, la struttura di data mining deve trovarsi nello stesso database della soluzione OLAP. Per creare una struttura di data mining, selezionare gli attributi dalle dimensioni e le misure correlate nella soluzione OLAP. I valori numerici sono in genere presenti nelle misure e le variabili di categoria nelle dimensioni. Per ulteriori informazioni, vedere Creare una struttura di data mining OLAP.

  • Per definire le strutture di data mining è inoltre possibile utilizzare DMX. Per ulteriori informazioni, vedere Istruzioni DMX (Data Mining Extensions) per la definizione dei dati.

Dopo avere creato la struttura di data mining iniziale, è possibile copiare, modificare e creare alias delle colonne della struttura.

Ogni struttura di data mining può contenere più modelli di data mining. Pertanto, al termine dell'operazione è possibile aprire nuovamente la struttura di data mining e utilizzare Progettazione modelli di data mining per aggiungere altri modelli di data mining alla stessa.

È inoltre possibile separare i dati in un training set, utilizzato per la compilazione di modelli, e in un set di dati di controllo da utilizzare nei test o nella convalida dei modelli di data mining.

Nota di attenzioneAttenzione

Alcuni tipi di modelli, ad esempio i modelli Time Series, non supportano la creazione di set di dati di controllo perché richiedono una serie continua di dati per il training. Per ulteriori informazioni, vedere Set di dati di training e di testing.

Torna all'inizio

Modelli di data mining

Il modello di data mining definisce l'algoritmo o il metodo di analisi che verrà utilizzato per i dati. A ogni struttura di data mining si aggiunge uno o più modelli di data mining.

A seconda delle esigenze, è possibile combinare più modelli in un solo progetto o creare progetti separati per ogni tipo di modello o attività analitica.

Dopo avere creato una struttura e un modello, ciascun modello viene elaborato eseguendo i dati dalla vista origine dati tramite l'algoritmo, che genera un modello matematico dei dati. Questo processo è anche noto come training del modello. Per ulteriori informazioni, vedere Requisiti e considerazioni sull'elaborazione (data mining).

Dopo l'elaborazione del modello, è possibile esplorare visivamente il modello di data mining e creare query di stima basate su di esso. Se i dati ottenuti dal processo di training sono stati memorizzati nella cache, è possibile utilizzare query drill-through per restituire informazioni dettagliate sui case utilizzati nel modello.

Quando si desidera utilizzare un modello per la produzione (ad esempio per l'utilizzo nell'esecuzione di stime o per l'esplorazione da parte di utenti generici), è possibile distribuirlo in un server diverso. Se è necessario rielaborare il modello in futuro, occorre esportare anche la definizione della struttura di data mining sottostante (e necessariamente la definizione dell'origine dati e della vista origine dati).

Quando si distribuisce un modello, è necessario inoltre assicurarsi che siano impostate le opzioni di elaborazione corrette nella struttura e nel modello e che i potenziali utenti dispongano delle autorizzazioni necessarie per eseguire query, visualizzare modelli o eseguire il drill-through sulla struttura o i dati del modello. Per ulteriori informazioni, vedere Panoramica della sicurezza (data mining).

Torna all'inizio

Utilizzo del progetto di data mining completato

In questa sezione vengono riepilogate le modalità di utilizzo del progetto di data mining completato. È possibile creare grafici di accuratezza, esplorare e convalidare i dati e rendere disponibili agli utenti i modelli di data mining.

Nota di attenzioneAttenzione

I grafici, le query e le visualizzazioni che si utilizzano con i modelli di data mining non vengono salvati come parte del progetto di data mining e non possono essere distribuiti. Se è necessario rendere persistenti tali oggetti, è necessario salvare il contenuto presentato o crearne uno script come descritto per ogni oggetto.

Torna all'inizio

Visualizzare ed esplorare modelli

Dopo avere creato un modello, è possibile utilizzare query e strumenti visivi per esplorare i modelli che contiene e acquisire ulteriori informazioni sui modelli e le statistiche sottostanti. Nella scheda Visualizzatore modello di data mining in Progettazione modelli di data mining di Analysis Services sono disponibili visualizzatori per ogni tipo di modello di data mining che possono essere utilizzati per esplorare i modelli di data mining.

Queste visualizzazioni sono temporanee e vengono chiuse senza essere salvate quando si esce dalla sessione di Analysis Services. Pertanto, se è necessario esportare tali visualizzazioni in un'altra applicazione per una presentazione o un'ulteriore analisi, utilizzare i comandi Copia forniti in ogni scheda o riquadro dell'interfaccia del visualizzatore.

I componenti aggiuntivi Data mining per Excel forniscono inoltre un modello di Visio che è possibile utilizzare per rappresentare i modelli in un diagramma di Visio e annotare e modificare il diagramma utilizzando gli strumenti di Visio. Per ulteriori informazioni, vedere Componenti aggiuntivi Data mining per Excel.

Torna all'inizio

Eseguire test e convalidare modelli

Dopo avere creato un modello, è possibile analizzare i risultati e decidere quali modelli offrono prestazioni ottimali.

In Analysis Services sono disponibili diversi grafici che è possibile utilizzare per fornire strumenti che consentono di confrontare direttamente i modelli di data mining e di scegliere quello più accurato o più utile. Questi strumenti includono un grafico di accuratezza, un grafico dei profitti e una matrice di classificazione. È possibile generare tali grafici tramite la scheda Grafico accuratezza modello di data mining di Progettazione modello di data mining.

È anche possibile utilizzare il report convalida incrociata per eseguire il campionamento secondario iterativo dei dati per determinare se il modello è influenzato da un determinato set di dati. Le statistiche fornite dal report possono essere utilizzate per confrontare in modo obiettivo i modelli e per valutare la qualità dei dati di training.

Si noti che questi report e grafici non sono archiviati con il progetto o nel database di ssASnoversion, pertanto se è necessario conservare o duplicare i risultati, è necessario salvarli o creare script degli oggetti tramite DMX o AMO. È inoltre possibile utilizzare stored procedure per la convalida incrociata.

Per ulteriori informazioni, vedere Test e convalida (Data mining).

Torna all'inizio

Creare stime

In Analysis Services è disponibile un linguaggio di query denominato DMX (Data Mining Extension) che costituisce la base per la creazione di stime ed è facilmente gestibile tramite script. Per agevolare la compilazione di query di stima DMX, in SQL Server è disponibile un generatore query in SQL Server Management Studio. In SQL Server Management Studio sono inoltre presenti molti modelli DMX per l'editor di query. Se non si ha esperienza nelle query di stima, è consigliabile utilizzare il generatore query fornito sia in Progettazione modello di data mining sia in SQL Server Management Studio. Per ulteriori informazioni, vedere Strumenti di data mining.

Le stime create in SQL Server Data Tools (SSDT) o in SQL Server Management Studio non sono persistenti, pertanto se le query sono complesse o è necessario riprodurre i risultati, è consigliabile salvare le query di stima in file di query DMX, generarne script o incorporarle come parte di un pacchetto di Integration Services.

Torna all'inizio

Accesso a livello di codice agli oggetti di data mining

Analysis Services offre diversi strumenti per l'utilizzo a livello di codice dei progetti di data mining e dei relativi oggetti. Il linguaggio DMX offre istruzioni che è possibile utilizzare per creare origini dati e viste origine dati, nonché per creare, eseguire il training e utilizzare strutture e modelli di data mining. Per ulteriori informazioni, vedere Guida di riferimento a DMX (Data Mining Extensions).

È inoltre possibile eseguire tali attività tramite ASSL (Analysis Services Scripting Language) oppure mediante AMO (Analysis Management Objects). Per ulteriori informazioni, vedere Sviluppo con XMLA in Analysis Services.

Torna all'inizio

Attività correlate

Negli argomenti seguenti viene descritto l'utilizzo della Creazione guidata modello di data mining per creare un progetto di data mining e gli oggetti associati.

Attività

Argomenti

Viene descritto come utilizzare colonne della struttura di data mining

Creare una struttura di data mining relazionale

Vengono fornite ulteriori informazioni sull'aggiunta di nuovi modelli di data mining e sull'elaborazione di una struttura e dei relativi modelli

Aggiungere modelli di data mining a una struttura (Analysis Services - Data mining)

Vengono forniti collegamenti a risorse utili per personalizzare gli algoritmi per la compilazione di modelli di data mining

Personalizzare struttura e modelli di data mining

Vengono forniti collegamenti alle informazioni su ciascuno dei visualizzatori dei modelli di data mining

Visualizzatori modello di data mining

Vengono fornite informazioni sulla creazione di un grafico di accuratezza, un grafico dei profitti o una matrice di classificazione o sul test di una struttura di data mining

Test e convalida (Data mining)

Vengono fornite informazioni sulle opzioni di elaborazione e sulle autorizzazioni

Elaborazione di oggetti di data mining

Vengono fornite ulteriori informazioni su Analysis Services

Database modelli multidimensionali (SSAS)

Vedere anche

Concetti

Progettazione modelli di data mining

Creazione di modelli multidimensionali tramite SQL Server Data Tools (SSDT)

Database dell'area di lavoro (SSAS tabulare)