Architettura logica (Analysis Services – Data mining)

Il processo di data mining è basato sull'interazione di più componenti. Si accede a origini dati in un database SQL Server o a qualsiasi altra origine i cui dati verranno utilizzati a scopo di training, testing o stima. Si definiscono modelli e strutture di data mining tramite Business Intelligence Development Studio o Visual Studio 2005. È possibile gestire gli oggetti di data mining e creare stime e query tramite SQL Server Management Studio. Dopo avere completato la soluzione, è possibile distribuirla a un'istanza di Analysis Services.

Soluzioni e progetti di data mining

Per creare un progetto di data mining, è necessario definire origini dati, nonché modelli e strutture di data mining. Il progetto di data mining può anche contenere set di test per la convalida del modello. Dopo avere distribuito un progetto al server, è possibile continuare lo sviluppo e il test di nuovi modelli nella soluzione originale.

Dati di origine di data mining

Il processo di data mining non richiede l'utilizzo di un cubo o di un'altra origine dati specializzata. Può essere eseguito con rapidità e facilità nelle tabelle di dati relazionali o in qualsiasi altra origine dati definita come vista origine dati di Analysis Services. Nella soluzione di data mining vengono archiviate solo le associazioni, non i dati utilizzati nel processo di data mining. I dati potrebbero essere contenuti in un database creato in una versione precedente di SQL Server, in un sistema CRM o anche in un file flat. Una vista origine dati di Analysis Services consente di combinare diverse origini dati specificando join tra più tabelle. È inoltre possibile aggiungere tabelle con una relazione molti-a-uno per creare colonne di tabelle nidificate.

Quando è necessario utilizzare i dati nella soluzione di data mining, Analysis Services legge i dati dall'origine e genera una cache di aggregazioni e altre informazioni utilizzate. È possibile conservare le informazioni memorizzate nella cache e utilizzarle per creare nuovi modelli di data mining oppure eliminarle per liberare spazio di archiviazione.

È possibile aggiornare continuamente la soluzione di data mining con nuovi dati oppure, se si trova un modello che funziona bene, è possibile distribuirlo così come è senza aggiungervi nuovi dati.

SQL Server 2008 Analysis Services consente inoltre di separare i dati in set di dati di training e di testing, in modo da poter testare i modelli di data mining rispetto a un set di dati selezionato a caso e rappresentativo.

Per ulteriori informazioni sulla creazione e utilizzo di viste origine dati e di origini dati di Analysis Services, vedere Definizione di origini dei dati (Analysis Services).

Strutture di data mining

Una struttura di data mining è una struttura di dati logica che definisce il dominio di dati in base al quale vengono creati i modelli di data mining. Una singola struttura di data mining può supportare più modelli di data mining che condividono lo stesso dominio. La struttura di data mining può anche essere partizionata in un set di testing e training, specificando una percentuale o una quantità di dati come HOLDOUT. Questo partizionamento può essere eseguito automaticamente alla definizione della struttura di data mining.

Per ulteriori informazioni, vedere Strutture di data mining (Analysis Services – Data mining).

Una struttura di data mining può contenere tabelle nidificate. In una tabella nidificata vengono forniti dettagli aggiuntivi sul case di cui viene definito il modello nella tabella di dati primaria. Per ulteriori informazioni, vedere Tabelle nidificate (Analysis Services - Data mining)

Modelli di data mining

Un modello di data mining rappresenta una combinazione di dati, un algoritmo di data mining e una raccolta di impostazioni di parametri e filtri che influiscono sui dati utilizzati e sul modo in cui vengono elaborati. Per ulteriori informazioni, vedere Modelli di data mining (Analysis Services - Data mining).

Un modello di data mining viene definito tramite il linguaggio DMX (Data Mining Extensions) o la Creazione guidata modello di data mining in BI Development Studio. Per ulteriori informazioni sull'utilizzo della Creazione guidata modello di data mining, vedere Creazione guidata modello di data mining (Analysis Services - Data mining). Per ulteriori informazioni sull'utilizzo del linguaggio DMX, vedere Guida di riferimento a DMX (Data Mining Extensions).

Dopo avere definito la struttura del modello di data mining, è necessario elaborarla, popolando la struttura vuota con gli schemi che descrivono il modello. Tale processo è noto come training del modello. Gli schemi vengono trovati passando i dati originali attraverso un algoritmo matematico. È possibile regolare ogni algoritmo tramite l'utilizzo di parametri. Per ulteriori informazioni sulla selezione di un algoritmo di data mining, vedere Algoritmi di data mining (Analysis Services - Data mining). Per ulteriori informazioni sull'impostazione di parametri per singoli algoritmi di data mining per ottimizzare i risultati di un modello, vedere Personalizzazione di un modello di data mining (Analysis Services - Data mining).

Ogni nuovo modello di data mining può essere testato in modo iterativo, facendo stime e apportando modifiche allo scopo di migliorare i risultati. Tali modifiche possono includere l'aggiunta di ulteriori dati o la modifica dei parametri del modello per ottenere un migliore adattamento dei dati. Per informazioni sul test dell'accuratezza delle stime, vedere Convalida di modelli di data mining (Analysis Services - Data mining).

Distribuzione

L'obiettivo finale dello sviluppo di data mining consiste nel creare un modello che gli utenti finali e gli analisti potranno utilizzare per fare stime e analisi approfondite. Pertanto, quando si ritiene che i risultati generati da un modello siano soddisfacenti, è possibile procedere alla distribuzione del modello in un ambiente di produzione. Nell'ambiente di produzione i modelli di data mining potrebbero servire a diversi scopi, a seconda delle specifiche esigenze. Nell'elenco seguente vengono forniti alcuni esempi di attività che è possibile eseguire tramite un modello di data mining:

  • Utilizzare i modelli per creare stime, in base alle quali prendere in seguito decisioni aziendali. In SQL Server vengono forniti il linguaggio DMX, che consente di creare query di stima, e il generatore delle query di stima, che facilita la creazione di tali query.

  • Incorporare la funzionalità di data mining direttamente in un'applicazione. È possibile includere la libreria AMO (Analysis Management Objects) o un assembly contenente un set di oggetti utilizzabili dall'applicazione per creare, modificare, elaborare ed eliminare strutture e modelli di data mining. In alternativa, è possibile inviare messaggi XMLA (XML for Analysis) direttamente a un'istanza di Analysis Services.

  • Utilizzare Integration Services per creare un pacchetto in cui viene utilizzato un modello di data mining per separare in modo intelligente i dati in entrata dividendoli tra più tabelle. Se ad esempio un database viene aggiornato continuamente con i potenziali clienti, è possibile utilizzare un modello di data mining insieme a Integration Services per dividere i dati in entrata separando i clienti che probabilmente acquisteranno un prodotto dai clienti che probabilmente non lo acquisteranno.

  • Creare un report che consenta agli utenti di eseguire direttamente le query su un modello di data mining esistente. Gli utenti possono avere la necessità di fare stime diverse, mentre gli analisti di ottenere l'accesso diretto al contenuto del modello di data mining, in modo da poter osservare schemi interessanti nei dati.

L'aggiornamento del modello rientra nell'ambito della strategia di distribuzione. Ogni volta che giungono nuovi dati nell'organizzazione, è necessario rielaborare i modelli per migliorarne l'efficacia. Per ulteriori informazioni, vedere Distribuzione (Analysis Services - Data mining) e Creazione di query di stima DMX.