Aggiunta di un modello di previsione basato su dati aggregati (Esercitazione intermedia sul data mining)
Dall'esplorazione del modello di previsione è emerso che, benché le vendite nella maggior parte delle aree geografiche seguano uno schema, alcune aree e alcuni modelli, ad esempio il modello M200 nell'area del Pacifico, mostrano tendenze molto diverse. Le differenze tra le diverse aree sono comuni e possono essere causate da numerosi fattori, tra cui promozioni marketing, produzione di report imprecisi o eventi geopolitici.
Per ridurre l'influenza di questi fattori sulle proiezioni, si decide di compilare un modello di data mining generalizzato basato su misure aggregate di vendite mondiali. Sarà quindi possibile eseguire stime con questo modello e applicarle alle singole aree. Le stime create dai vari prodotti verranno infine sottoposte a confronto.
Creazione dei dati per il modello generale
Il primo passaggio nella creazione del modello generalizzato consiste nell'aggregare i dati di vendita mondiali. A tale scopo, è necessario creare una vista origine dati speciale che utilizza un'origine dati esistente ma esegue calcoli quali somme o medie.
Per creare una vista origine dati utilizzando un calcolo o una query personalizzata
In Esplora soluzioni fare clic con il pulsante destro del mouse su Viste origine dati e scegliere Nuova vista origine dati.
Nella pagina di benvenuto della procedura guidata fare clic su Avanti.
Nella pagina Selezionare un'origine dati selezionare Adventure Works DW2008R2 e fare clic su Avanti.
Nella pagina Selezione tabelle e viste fare quindi clic su Avanti.
Nella pagina Completamento procedura guidata digitare il nome AllRegions e fare clic su Fine.
Fare clic con il pulsante destro del mouse sull'area di progettazione della vista origine dati vuota, quindi scegliere Nuova query denominata.
Nella finestra di dialogo Crea query denominata digitare AllRegions nella casella Nome e Somma e media delle vendite per tutti i modelli e aree nella casella Descrizione.
Nel riquadro Testo SQL digitare l'istruzione seguente:
SELECT ReportingDate, SUM([Quantity]) as SumQty, AVG([Quantity]) as AvgQty, SUM([Amount]) AS SumAmt, AVG([Amount]) AS AvgAmt, 'All Regions' as [Region] FROM dbo.vTimeSeries GROUP BY ReportingDate
Fare clic su OK..
Fare clic con il pulsante destro del mouse sulla tabella AllRegions, quindi scegliere Esplora dati.
La nuova vista origine dati contiene sia una somma che una media per le vendite di tutti i prodotti a livello mondiale. È anche possibile raggruppare e aggregare le vendite per modello, tuttavia ai fini di questa esercitazione si creerà un modello Time Series che è possibile utilizzare per l'esecuzione di stime con qualsiasi combinazione di area o prodotto.
Dopo avere creato la vista dei dati, è necessario compilare una nuova struttura di data mining e, quindi, un modello di data mining basato su tale struttura. A questo punto si dovrebbe avere acquisito familiarità con la compilazione di una struttura di data mining, pertanto le indicazioni riportate di seguito sono semplificate.
Per compilare una struttura e un modello di data mining utilizzando i dati aggregati
In Esplora soluzioni fare clic con il pulsante destro del mouse su Strutture di data mining e scegliere Nuova struttura di data mining per aprire la Creazione guidata modello di data mining.
Nella Creazione guidata modello di data mining effettuare le seguenti selezioni:
Algoritmo: Microsoft Time Series
Vista origine dati: AllRegions
Chiave: ReportingDate (Key Time) e Region (Key)
Input e Predict: AvgAmt, AvgQty, SumAmt, SumQty
Nome struttura di data mining: All Regions
Nome modello di data mining: All Regions
Elaborare la struttura e il modello.
Visualizzazione dei risultati
Prima di decidere quale modello applicare come modello generale per la creazione di proiezioni a livello mondiale, è importante comprendere meglio le stime. Esaminando i modelli di data mining e le stime per le varie serie aggregate nel Visualizzatore Microsoft Time Series, sorgono diverse domande:
Fino a giugno 2006, ognuna delle linee di tendenza segue quasi lo stesso schema. A partire da quel periodo, le righe per quantità e importo divergono. Che cosa ha provocato il cambiamento?
A luglio 2008 le righe divergono nuovamente. Che cosa è accaduto?
Tenere presente che le stime per la serie M200 North America sono risultate molto più elevate rispetto agli altri prodotti e aree. Si teme che queste proiezioni possano essere errate e che l'incorporamento di questa serie possa influire sul modello generale creato.
Nell'attività successiva le linee di tendenza e le stime relative ai modelli delle singole serie verranno confrontate con il modello basato sui dati aggregati, per vedere in che modo i dati sottostanti influiscono sul modello.
Se si ritiene che il modello sia corretto e non è necessario comprendere meglio i risultati, è possibile passare all'attività Creazione di stime tramite il modello di previsione basato sulla media (Esercitazione intermedia sul data mining).
Attività successiva della lezione
Informazioni sulle tendenze nel modello Time Series (Esercitazione intermedia sul data mining)
Vedere anche