Contenuto dei modelli di data mining per i modelli Time Series (Analysis Services - Data mining)

Tutti i modelli di data mining utilizzano la stessa struttura per archiviare i propri contenuti. Tale struttura viene definita secondo il set di righe dello schema relativo al contenuto di data mining. Tuttavia, all'interno della struttura standard i nodi che contengono informazioni vengono disposti in modi diversi per rappresentare vari tipi di albero. In questo argomento vengono descritti l'organizzazione e il significato dei nodi per i modelli di data mining basati sull'algoritmo Microsoft Time Series.

Per una spiegazione del contenuto generale dei modelli di data mining applicabile a tutti i tipi di modello, vedere Contenuto del modello di data mining (Analysis Services - Data mining).

Quando si rivede questo argomento, potrebbe risultare utile seguirlo esplorando il contenuto di un modello Time Series. È possibile creare un modello Time Series completando l'esercitazione di base sul data mining. Il modello creato nell'esercitazione è un modello misto che esegue il training dei dati utilizzando gli algoritmi ARIMA e ARTxp. Per ulteriori informazioni, vedere Creazione di una struttura e di un modello di previsione (Esercitazione intermedia sul data mining). Per informazioni sulla visualizzazione del contenuto di un modello di data mining, vedere Visualizzazione di un modello di data mining.

Informazioni sulla struttura di un modello Time Series

Un modello Time Series include un singolo nodo padre che rappresenta il modello e i relativi metadati. Sotto il nodo padre sono presenti uno o due alberi Time Series, a seconda dell'algoritmo utilizzato per creare il modello.

Se si crea un modello misto, vengono aggiunti due alberi separati al modello, uno per ARIMA e uno per ARTxp. Se si sceglie di utilizzare solo l'algoritmo ARTxp o solo l'algoritmo ARIMA, sarà disponibile un solo albero corrispondente all'algoritmo. È possibile specificare l'algoritmo da utilizzare impostando il parametro FORECAST_METHOD. Per ulteriori informazioni sull'opportunità di utilizzare ARTxp, ARIMA o un modello misto, vedere Algoritmo Microsoft Time Series.

Struttura del contenuto del modello per i modelli Time Series

Nel diagramma viene visualizzato un esempio di un modello di data mining Time Series creato con le impostazioni predefinite, per la creazione di un modello misto. Per consentire di confrontare con maggiore semplicità le differenze tra i due modelli, il modello ARTxp è mostrato sul lato sinistro del diagramma, mentre il modello ARIMA è mostrato sul lato destro. Mentre la struttura di ARTxp è simile a un albero che si divide in rami sempre più piccoli, la struttura creata dall'algoritmo ARIMA è più simile a una piramide costruita verso l'alto dai componenti più piccoli.

Se si visualizza un modello misto utilizzando Microsoft Generic Content Tree Viewer, i nodi dei modelli ARTxp e ARIMA sono presentati come nodi figlio del modello Time Series padre. Nella visualizzazione generica di un modello misto, il primo set di nodi viene identificato come (Tutto) e rappresenta i risultati dell'analisi da parte dell'algoritmo ARTxp. Il secondo set di nodi viene identificato come ARIMA e rappresenta i risultati dell'analisi da parte dell'algoritmo ARIMA.

L'aspetto importante da ricordare è che le informazioni sono disposte all'interno degli alberi ARIMA e ARTxp in modi completamente diversi ed è necessario considerare i due alberi correlati solo a livello del nodo radice. Anche se le due rappresentazioni vengono sono presentate in un solo modello per convenienza, devono essere considerate come due modelli indipendenti. ARTxp rappresenta un albero effettivo, diversamente da ARIMA.

[!NOTA]

Il nome (Tutto) sull'albero ARTxp viene mantenuto per compatibilità con le versioni precedenti. Prima di SQL Server 2008, l'algoritmo Time Series utilizzava un solo algoritmo per l'analisi, l'algoritmo ARTxp.

Struttura del modello ARTxp

L'algoritmo ARTxp consente di creare un modello simile a un modello di albero delle decisioni. Raggruppa attributi stimabili e li divide quando rileva differenze significative. Pertanto, ogni modello ARTxp contiene un ramo separato per ciascun attributo stimabile. Ad esempio, l'esercitazione di base sul data mining consente di creare un modello per la stima dei ricavi delle vendite per molte aree. In questo caso, [Amount] è l'attributo stimabile e viene creato un ramo separato per ciascuna area. Se si disponesse di due attributi stimabili, [Amount] e [Quantity], verrebbe creato un ramo separato per ogni combinazione di un attributo e di un'area.

Il nodo di livello superiore del ramo ARTxp contiene le stesse informazioni del nodo radice dell'albero delle decisioni. Tra queste, il numero di elementi figlio del nodo (CHILDREN_CARDINALITY), il numero di case che soddisfano le condizioni del nodo (NODE_SUPPORT) e varie statistiche descrittive (NODE_DISTRIBUTION).

Se il nodo non dispone di elementi figlio, significa che non sono state rilevate condizioni tali da giustificare la divisione dei case in ulteriori sottogruppi. Il ramo termina in questo punto e il nodo è denominato nodo foglia. Il nodo foglia contiene attributi, coefficienti e valori che costituiscono gli elementi fondamentali della formula ARTxp.

Alcuni rami possono presentare divisioni aggiuntive, simili a un modello di albero delle decisioni. Ad esempio, il ramo dell'albero che rappresenta le vendite per l'area Europa viene diviso in due rami. La divisione si verifica in presenza di una condizione che causa una differenza significativa tra i due gruppi. Il nodo padre indica il nome dell'attributo che ha causato la divisione, ad esempio [Amount], e il numero di case presenti nel nodo padre. I nodi foglia forniscono ulteriori dettagli: il valore dell'attributo, ad esempio Sales >10.000 rispetto a Sales < 10.000), il numero di case che supportano ciascuna condizione e la formula ARTxp.

[!NOTA]

Per visualizzare le formule, è possibile trovare la formula di regressione completa a livello del nodo foglia, ma non in un nodo intermedio o radice.

Struttura del modello ARIMA

Per ogni combinazione di una serie temporale, ad esempio [Region], e un attributo stimabile, ad esempio [Sales Amount], è disponibile una singola informazione, l'equazione che descrive la variazione dell'attributo stimabile nel tempo.

L'equazione di base per ogni serie deriva da più componenti, uno per ogni struttura periodica rilevata nei dati. Ad esempio, se si dispone di dati delle vendite raccolti su base mensile, l'algoritmo potrebbe rilevare strutture periodiche mensili, trimestrali o annuali.

L'algoritmo restituisce un set separato di nodi padre e figlio per ciascuna periodicità rilevata. La periodicità predefinita è 1 per singolo intervallo di tempo e viene automaticamente aggiunta in tutti i modelli. È possibile specificare le possibili strutture periodiche immettendo più valori nel parametro PERIODICITY_HINT. Tuttavia, se l'algoritmo non rileva una struttura periodica, non restituirà risultati per l'hint in questione.

Ogni struttura periodica restituita nel contenuto del modello contiene i nodi componente seguenti: un nodo per un ordine autoregressivo e un nodo per la media mobile . Ogni ordine delle differenze è rappresentato nell'equazione. Per informazioni sul significato di questi termini, vedere Algoritmo Microsoft Time Series.

Contenuto di un modello Time Series

In questa sezione vengono forniti dettagli ed esempi specifici delle colonne del contenuto del modello di data mining particolarmente importanti per i modelli Time Series.

Per informazioni sulle colonne generiche nel set di righe dello schema, ad esempio MODEL_CATALOG e MODEL_NAME, o per spiegazioni della terminologia dei modelli di data mining, vedere Contenuto del modello di data mining (Analysis Services - Data mining).

  • MODEL_CATALOG
    Nome del database in cui è archiviato il modello.

  • MODEL_NAME
    Nome del modello.

  • ATTRIBUTE_NAME
    Attributo stimabile della serie di dati rappresentata nel nodo. Stesso valore di MSOLAP_MODEL_COLUMN.

  • NODE_NAME
    Nome del nodo. Attualmente, questa colonna contiene lo stesso valore di NODE_UNIQUE_NAME, anche se nelle versioni future il valore potrebbe essere diverso.

  • NODE_UNIQUE_NAME
    Nome univoco del nodo. Il nodo padre del modello è sempre denominato TS.

    ARTxp: ogni nodo è rappresentato da TS seguito da un valore numerico esadecimale. Ad esempio, i nodi ARTxp direttamente sotto l'albero TS potrebbero essere numerati come segue: TS00000001-TS0000000b. L'ordine dei nodi non è importante.

    ARIMA: ogni nodo in un albero ARIMA è rappresentato da TA seguito da un valore numerico esadecimale. I nodi figlio contengono il nome univoco del nodo padre seguito da un altro numero esadecimale che indica la sequenza all'interno del nodo.

    Tutti gli alberi ARIMA sono strutturati allo stesso modo. Ogni radice contiene i nodi e la convenzione di denominazione indicati nella tabella seguente:

    ID e tipo di nodo ARIMA

    Esempio di nome di nodo

    Radice ARIMA (27)

    TA0000000b

    Struttura periodica ARIMA (28)

    TA0000000b00000000

    Autoregressione ARIMA (29)

    TA0000000b000000000

    Media mobile ARIMA (30)

    TA0000000b000000001

  • NODE_TYPE
    Un modello Time Series restituisce i tipi di nodo seguenti, a seconda dell'algoritmo.

    ARTxp:

    ID tipo di nodo

    Descrizione

    1 (Modello)

    Time Series

    3 (Interno)

    Rappresenta un ramo interno all'interno di un albero Time Series ARTxp.

    16 (Albero Time Series)

    Radice dell'albero ARTxp che corrisponde a un attributo e una serie stimabili.

    15 (Time Series)

    Nodo foglia nell'albero ARTxp.

    ARIMA:

    ID tipo di nodo

    Descrizione

    27 (Radice ARIMA)

    Nodo principale di un albero ARIMA.

    28 (Struttura periodica ARIMA)

    Componente di un albero ARIMA che descrive una singola struttura periodica.

    29 (Autoregressivo ARIMA)

    Contiene un coefficiente per una singola struttura periodica.

    30 (Media mobile ARIMA)

    Contiene un coefficiente per una singola struttura periodica.

  • NODE_CAPTION
    Etichetta o didascalia associata al nodo. La proprietà viene utilizzata soprattutto a scopo di visualizzazione.

    ARTxp: contiene la condizione di divisione del nodo, visualizzata come una combinazione di attributo e intervallo di valori.

    ARIMA: contiene la forma abbreviata dell'equazione ARIMA.

    Per informazioni sul formato dell'equazione ARIMA, vedere Legenda data mining per ARIMA.

  • CHILDREN_CARDINALITY
    Numero di elementi figlio diretti del nodo.

  • PARENT_UNIQUE_NAME
    Nome univoco dell'elemento padre del nodo. Per tutti i nodi a livello di radice viene restituito NULL.

  • NODE_DESCRIPTION
    Descrizione in formato testo delle regole, delle divisioni o delle formule nel nodo corrente.

    ARTxp: Per ulteriori informazioni, vedere Informazioni sull'albero ARTxp.

    ARIMA: Per ulteriori informazioni, vedere Informazioni sull'albero ARIMA.

  • NODE_RULE
    Descrizione XML delle regole, delle divisioni o delle formule nel nodo corrente.

    ARTxp: NODE_RULE corrisponde in genera a NODE_CAPTION.

    ARIMA: Per ulteriori informazioni, vedere Informazioni sull'albero ARIMA.

  • MARGINAL_RULE
    Descrizione XML della divisione o del contenuto specifico del nodo.

    ARTxp: MARGINAL_RULE corrisponde in genere a NODE_DESCRIPTION.

    ARIMA: sempre vuoto; utilizzare invece NODE_RULE.

  • NODE_PROBABILITY
    ARTxp: per i nodi dell'albero, sempre 1. Per i nodi foglia, la probabilità di raggiungere il nodo dal nodo radice del modello.

    ARIMA: sempre 0.

  • MARGINAL_PROBABILITY
    ARTxp: per i nodi dell'albero, sempre 1. Per i nodi foglia, la probabilità di raggiungere il nodo dal nodo padre diretto.

    ARIMA: Sempre 0.

  • NODE_DISTRIBUTION
    Tabella contenente l'istogramma delle probabilità del nodo. In un modello Time Series, questa tabella nidificata contiene tutti i componenti richiesti per assemblare la formula di regressione effettiva.

    Per ulteriori informazioni sulla tabella NODE_DISTRIBUTION in un albero ARTxp, vedere Informazioni sull'albero ARTxp.

    Per ulteriori informazioni sulla tabella NODE_DISTRIBUTION in un albero ARIMA, vedere Informazioni sull'albero ARIMA.

    Per visualizzare tutte le costanti e altri componenti composti in un formato leggibile, utilizzare il Visualizzatore Microsoft Time Series,fare clic sul nodo e aprire la Legenda data mining..

  • NODE_SUPPORT
    Numero di case che supportano il nodo.

    ARTxp: Per il nodo (Tutto), indica il numero totale di intervalli di tempo inclusi nel ramo. Nei nodi finali, indica il numero di intervalli di tempo inclusi nell'intervallo descritto da NODE_CAPTION. Il numero di intervalli di tempo nei nodi finali viene sempre sommato al valore NODE_SUPPORT del nodo (Tutto) del ramo.

    ARIMA: conteggio dei case che supportano la struttura periodica corrente. Il valore del supporto viene ripetuto in tutti i nodi della struttura periodica corrente.

  • MSOLAP_MODEL_COLUMN
    Attributo stimabile della serie di dati rappresentata nel nodo. Stesso valore di ATTRIBUTE_NAME.

  • MSOLAP_NODE_SCORE
    Valore numerico che caratterizza il valore delle informazioni dell'albero o della divisione.

    ARTxp: il valore è sempre 0,0 per i nodi senza divisione. Per i nodi che contengono una divisione, rappresenta il punteggio di interesse della divisione.

    Per ulteriori informazioni sui metodi di punteggio, vedere Funzionalità di selezione degli attributi nel data mining.

    ARIMA: punteggio BIC (Bayesian Information Criterion) del modello ARIMA. Lo stesso punteggio viene impostato su tutti i nodi ARIMA correlati all'equazione.

  • MSOLAP_NODE_SHORT_CAPTION
    ARTxp: stesse informazioni di NODE_DESCRIPTION.

    ARIMA: stesse informazioni di NODE_CAPTION, ovvero la forma abbreviata dell'equazione ARIMA.

Informazioni sull'albero ARTxp

Il modello ARTxp separa chiaramente le aree dei dati lineari dalle aree dei dati divisi in altri fattori. Dove le modifiche nell'attributo stimabile possono essere rappresentate direttamente come una funzione delle variabili indipendenti, viene calcolata una formula di regressione per rappresentare la relazione. Ad esempio, se è presente una correlazione diretta tra periodo di tempo e vendite per la maggior parte della serie di dati, ciascuna serie è compresa all'interno di un albero Time Series (NODE_TYPE = 16) che non dispone di nodi figlio per ciascuna serie di dati, ma solo un'equazione di regressione. Tuttavia, se la relazione non è lineare, un albero Time Series ARTxp consente di dividere in base alle condizioni in nodi figlio, come un modello di albero delle decisioni. Visualizzando il contenuto del modello nel Microsoft Generic Content Tree Viewer , è possibile osservare le divisioni e il modo in cui influiscono sulla linea di tendenza.

Ad esempio, rivedere il modello Time Series creato nell'Esercitazione di base sul data mining. Questo modello, preso da Adventure Works, non è basato su dati complessi. Pertanto, l'albero ARTxp non presenta molte divisioni. Tuttavia, anche questo modello relativamente semplice presenta tre tipi diversi di divisioni:

  • La linea di tendenza Amount per l'area Pacifico si divide sulla chiave temporale. Una divisione sulla chiave temporale indica una modifica nella tendenza in un determinato momento. La linea di tendenza è lineare solo fino a un certo punto, quindi la curva assume una forma diversa. Ad esempio, una serie temporale continua fino al 6 agosto 2002 e un'altra comincia dopo tale data.

  • La linea di tendenza Amount per l'area relativa al Nord America si divide in un'altra variabile. In questo caso, la tendenza per il Nord America si divide in base al valore dello stesso modello nell'area dell'Europa. In altre parole, l'algoritmo rileva che quando il valore dell'area dell'Europa viene modificato, anche il valore dell'area del Nord America A viene modificato.

  • La linea di tendenza dell'area dell'Europa si divide in base a se stessa.

Significato di ciascuna divisione L'interpretazione delle informazioni fornite dal contenuto del modello richiede una conoscenza approfondita dei dati e del relativo significato nel contesto aziendale.

L'apparente collegamento tra le tendenze nelle aree del Nord America e dell'Europa potrebbe significare semplicemente che la serie di dati dell'Europa dispone di maggiore entropia, facendo apparire più debole la tendenza dell'area del Nord America. Oppure, potrebbe non esserci una differenza significativa nel punteggio delle due aree e la correlazione potrebbe essere accidentale, basata semplicemente sul fatto che il calcolo dell'area dell'Europa è avvenuto prima del calcolo dell'area del Nord America. È tuttavia possibile rivedere i dati per verificare se la correlazione è false oppure determinare l'eventuale coinvolgimento di altri fattori.

La divisione sulla chiave temporale indica una modifica statisticamente significativa nel gradiente della linea. Ciò potrebbe essere causato da fattori matematici, quali il supporto di ciascun intervallo o i calcoli di entropia richiesti dalla divisione. Pertanto, la divisione potrebbe non essere importante per il significato del modello nel mondo reale. Tuttavia, quando si rivede il periodo di tempo indicato nella divisione, si potrebbero trovare correlazioni interessanti non rappresentate nei dati, come promozioni di vendite o altri eventi che iniziano in quel periodo e che possono aver influito sui dati.

Se i dati contengono altri attributi, è probabile che si verifichino esempi interessanti di diramazioni nell'albero. Ad esempio, se informazioni meteo sono state rilevate e utilizzate come attributo per l'analisi, nell'albero potrebbero essere visualizzate più divisioni che rappresentano l'interazione complessa tra vendite e previsioni del tempo.

In breve, il data mining è utile per fornire suggerimenti sul punto in cui si verificano fenomeni potenzialmente interessanti, ma sono necessarie l'analisi e l'esperienza da parte degli utenti aziendali per interpretare accuratamente il valore delle informazioni nel contesto.

Elementi della formula Time Series ARTxp

Per visualizzare la formula completa per un ramo o albero ARTxp, è consigliabile utilizzare la Legenda data mining del Visualizzatore Microsoft Time Seriesin cui sono presentate tutte le costanti in formato leggibile.

In questa sezione viene presentato un esempio di equazione e vengono spiegati i termini di base.

Legenda data mining per la formula ARTxp

Nell'esempio seguente viene illustrata la formula ARTxp per una parte del modello, come visualizzata nella Legenda data mining. Per visualizzare questa formula, aprire il modello Forecasting creato nell'esercitazione di base sul data mining nel Visualizzatore Microsoft Time Series, fare clic sulla scheda Modello e selezionare l'albero per la serie di dati R250: Europe, quindi fare clic sul nodo che rappresenta la serie di date relativa al 5/7/2003 o successiva.

Esempio di equazione del nodo radice:

Quantity = 21,322

-0,293 * Quantity(R250 North America,-7) + 0,069 * Quantity(R250 Europe,-1) + 0,023 *

Quantity(R250 Europe,-3) -0,142 * Quantity(R750 Europe,-8)

In questo caso, il valore 21,322 rappresenta il valore stimato per Quantity come funzione degli elementi dell'equazione. Ad esempio, un elemento è Quantity(R250 North America,-7). Questa notazione indica la quantità per l'area del Nord America in corrispondenza di t-7 oppure sette intervalli di tempo prima dell'intervallo di tempo corrente. Il valore della serie di dati viene moltiplicato per il coefficiente -0,293. Il coefficiente per ogni elemento deriva dal processo di training ed è basato sulle tendenze nei dati.

L'equazione presenta più elementi poiché è stato calcolato che la quantità del modello R250 nell'area relativa all'Europa dipende dai valori di altre serie di dati.

Contenuto del modello per la formula ARTxp

Nella tabella seguente vengono presentate le stesse informazioni sul nodo visualizzate in Microsoft Generic Content Tree Viewer (Progettazione modelli di data mining).

ATTRIBUTE_NAME

ATTRIBUTE_VALUE

SUPPORT

PROBABILITY

VARIANCE

VALUETYPE

Quantity(R250 Europe,y-intercept)

21,3223433563772

11

0

1,65508795539661

11 (Intercept)

Quantity(R250 Europe,-1)

0,0691694140876526

0

0

0

7 (Coefficiente)

Quantity(R250 Europe,-1)

20,6363635858123

0

0

182,380682874818

9 (Statistiche)

Quantity(R750 Europe,-8)

-0,1421203048299

0

0

0

7 (Coefficiente)

Quantity(R750 Europe,-8)

22,5454545333019

0

0

104,362130048408

9 (Statistiche)

Quantity(R250 Europe,-3)

0,0234095979448281

0

0

0

7 (Coefficiente)

Quantity(R250 Europe,-3)

24,8181818883176

0

0

176,475304989169

9 (Statistiche)

Quantity(R250 North America,-7)

-0,292914186039869

0

0

0

7 (Coefficiente)

Quantity(R250 North America,-7)

10,36363640433

0

0

701,882534898676

9 (Statistiche)

Il contenuto del modello di data mining contiene le stesse informazioni disponibili in Legenda data mining, ma con colonne aggiuntive per varianza e supporto. Il valore del supporto indica il conteggio dei case che supportano la tendenza descritta dall'equazione.

Utilizzo della formula Time Series ARTxp

Per la maggior parte degli utenti aziendali, il valore del contenuto del modello ARTxp è la possibilità di avere sia una visualizzazione albero sia una rappresentazione lineare dei dati. Se le modifiche nell'attributo stimabile possono essere rappresentate come funzione delle variabili indipendenti, l'algoritmo calcolerà automaticamente l'equazione di regressione e restituirà la serie in un nodo separato. Tuttavia, se altri fattori impediscono una correlazione lineare, la serie temporale si dirama come un albero delle decisioni. Esplorando il contenuto del modello nel Visualizzatore Microsoft Time Series , è possibile osservare le divisioni e il modo in cui influiscono sulla linea di tendenza.

Se esiste una correlazione diretta tra i periodi di tempo e le vendite per qualsiasi parte della serie di dati, il modo più semplice di ottenere la formula consiste nel copiarla da Legenda data mininge incollarla in un documento o una presentazione per favorire la spiegazione del modello. In alternativa, è possibile estrarre il mezzo, il coefficiente e altre informazioni dalla tabella NODE_DISTRIBUTION per l'albero e utilizzarle per calcolare le estensioni della tendenza. Se l'intera serie mostra una relazione lineare coerente, l'equazione viene contenuta nel nodo (Tutto). Se sono presenti diramazioni nell'albero, l'equazione viene contenuta nel nodo foglia.

Nella query seguente vengono restituiti tutti i nodi foglia ARTxp da un modello di data mining, insieme alla tabella nidificata NODE_DISTRIBUTION che contiene l'equazione.

SELECT MODEL_NAME, ATTRIBUTE_NAME, NODE_NAME,
NODE_CAPTION, 
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [VARIANCE], VALUETYPE
FROM NODE_DISTRIBUTION) as t
FROM Forecasting.CONTENT
WHERE NODE_TYPE = 15

Informazioni sull'albero ARIMA

Ogni struttura di un modello ARIMA corrisponde a una periodicità o a una struttura periodica. Una struttura periodica è uno schema di dati ripetuto in tutta la serie di dati. Sono consentite variazioni secondarie entro limiti statistici. La periodicità viene misurata secondo le unità di tempo predefinite utilizzate nei dati di training. Ad esempio, se i dati di training forniscono dati di vendita per ogni giorno, l'unità di tempo predefinita è un giorno e tutte le strutture periodiche vengono definite come un numero specifico di giorni.

Ogni periodo rilevato dall'algoritmo ottiene il proprio nodo della struttura. Ad esempio, se si analizzano i dati di vendita giornalieri, potrebbero essere rilevate strutture periodiche che rappresentano le settimane. In questo caso, verranno create due strutture periodiche nel modello finito: una per il periodo giornaliero predefinito, indicata come {1}, e una per le settimane, indicata da {7}.

Ad esempio, nella query seguente vengono restituite tutte le strutture ARIMA da un modello di data mining.

SELECT MODEL_NAME, ATTRIBUTE_NAME, NODE_NAME, NODE_CAPTION
FROM Forecasting.CONTENT
WHERE NODE_TYPE = 27

Risultati dell'esempio:

MODEL_NAME

ATTRIBUTE_NAME

NODE_NAME

NODE_TYPE

NODE_CAPTION

Forecasting

M200 Europe:Quantity

TA00000000

27

ARIMA (1,0,1)

Forecasting

M200 North America:Quantity

TA00000001

27

ARIMA (1,0,4) X (1,1,4)(6)

Forecasting

M200 Pacific:Quantity

TA00000002

27

ARIMA (2,0,8) X (1,0,0)(4)

Forecasting

M200 Pacific:Quantity

TA00000002

27

ARIMA (2,0,8) X (1,0,0)(4)

Forecasting

R250 Europe:Quantity

TA00000003

27

ARIMA (1,0,7)

Forecasting

R250 North America:Quantity

TA00000004

27

ARIMA (1,0,2)

Forecasting

R250 Pacific:Quantity

TA00000005

27

ARIMA (2,0,2) X (1,1,2)(12)

Forecasting

R750 Europe:Quantity

TA00000006

27

ARIMA (2,1,1) X (1,1,5)(6)

Forecasting

T1000 Europe:Quantity

TA00000009

27

ARIMA (1,0,1)

Forecasting

T1000 North America:Quantity

TA0000000a

27

ARIMA (1,1,1)

Forecasting

T1`000 Pacific:Quantity

TA0000000b

27

ARIMA (1,0,3)

Da questi risultati, esplorabili anche attraverso il Microsoft Generic Content Tree Viewer (Progettazione modelli di data mining), è possibile stabilire immediatamente quali serie sono completamente lineari, quali dispongono di più strutture periodiche e quali sono le relative periodicità individuate.

Ad esempio, la forma abbreviata dell'equazione ARIMA per la serie M200 Europa indica che è stato rilevato solo il ciclo predefinito o giornaliero. La forma abbreviata dell'equazione viene fornita nella colonna NODE_CAPTION.

Tuttavia, nella serie M200 North America è stata rilevata una struttura periodica aggiuntiva. Il nodo TA00000001 dispone di due nodi figlio, uno con l'equazione (1,0,4), l'altro con l'equazione (1,1,4)(6). Tali equazioni sono concatenate e presentate nel nodo padre.

Per ogni struttura periodica, il contenuto del modello fornisce anche l' ordine e la media mobile come nodi figlio. Ad esempio, la query seguente consente di recuperare i nodi figlio di uno dei nodi elencati nell'esempio precedente. È necessario includere la colonna PARENT_UNIQUE_NAME tra parentesi quadre per distinguerla dalla parola chiave riservata con lo stesso nome.

SELECT * 
FROM Forecasting.CONTENT
WHERE [PARENT_UNIQUE_NAME] = ' TA00000001'

Poiché si tratta di un albero ARIMA, non ARTxp, non è possibile utilizzare la funzione IsDescendant (DMX) per restituire i nodi che rappresentano il nodo figlio di questa struttura periodica. È possibile invece utilizzare i tipi di nodo e di attributo per filtrare i risultati e ottenere i nodi figlio che forniscono ulteriori dettagli su come è stata generata l'equazione, inclusi le medie mobili e l'ordine delle differenze.

SELECT MODEL_NAME, ATTRIBUTE_NAME, NODE_UNIQUE_NAME,
NODE_TYPE,  NODE_CAPTION
FROM Forecasting.CONTENT
WHERE [MSOLAP_MODEL_COLUMN] ='M200 North America:Quantity'
AND (NODE_TYPE = 29 or NODE_TYPE = 30)

Risultati dell'esempio:

MODEL_NAME

ATTRIBUTE_NAME

NODE_UNIQUE_NAME

NODE_TYPE

NODE_CAPTION

Forecasting

M200 North America:Quantity

TA00000001000000010

29

ARIMA {1,0.961832044807041}

Forecasting

M200 North America:Quantity

TA00000001000000011

30

ARIMA {1,-3.51073103693271E-02,2.15731642954099,-0.220314343327742,-1.33151478258758}

Forecasting

M200 North America:Quantity

TA00000001000000000

29

ARIMA {1,0.643565911081657}

Forecasting

M200 North America:Quantity

TA00000001000000001

30

ARIMA {1,1.45035399809581E-02,-4.40489283927752E-02,-0.19203901352577,0.242202497643993}

In questi esempi viene illustrato che ogni ulteriore drill-down dell'albero ARIMA consente di rivelare maggiori dettagli, ma le informazioni importanti sono combinate e vengono presentate anche nel nodo padre.

Formula Time Series per ARIMA

Per visualizzare la formula completa per nodo ARIMA, è consigliabile utilizzare Legenda data mining del Visualizzatore Microsoft Time SeriesChe presenta l'ordine autoregressivo, le medie mobili e altri elementi dell'equazione già composti in un formato coerente.

In questa sezione viene presentato un esempio di equazione e vengono spiegati i termini di base.

Legenda data mining per la formula ARIMA

Nell'esempio seguente viene illustrata la formula ARIMA per una parte del modello, come visualizzata nella Legenda data mining. Per visualizzare questa formula, aprire il modello Forecasting utilizzando il Visualizzatore Microsoft Time Series, fare clic sulla scheda Modello , selezionare l'albero per la serie di dati R250 Europe , quindi fare clic sul nodo che rappresenta la serie di date relativa al 7/5/2003 o successiva. La Legenda data mining dell'estrazione compone tutte le costanti in un formato leggibile, mostrato nell'esempio:

Equazione ARIMA:

ARIMA ({1,1} ,0, {1,1.49791920964142,1.10640053499397,0.888873034670339, -5.05429403071953E-02 -0.905265316720334, -0.961908900643379 -0.649991020901922}) Intersezione:56 .8888888888889

L'equazione è il formato ARIMA lungo, che include i valori dei coefficienti e l'intersezione. Il formato abbreviato di questa equazione è {1,0,7}, dove 1 indica il periodo come conteggio degli intervalli di tempo, 0 indica l'ordine delle differenze del termine e 7 indica il numero di coefficienti.

[!NOTA]

In Analysis Services viene calcolata una costante per il calcolo della varianza, ma la costante non viene visualizzata nell'interfaccia utente. È tuttavia possibile visualizzare la varianza per qualsiasi punto della serie come funzione di questa costante se si seleziona Mostra deviazioni nella vista Grafico. La descrizione comando per ogni serie di dati mostra la varianza di un punto stimato specifico.

Contenuto del modello per la formula ARIMA

Un modello ARIMA segue una struttura standard, con informazioni differenti contenute in nodi di diversi tipi. Per visualizzare il contenuto del modello ARIMA, utilizzare il Microsoft Generic Content Tree Viewer, quindi espandere il nodo con il nome dell'attributo R250 Europe: Quantity.

Un modello ARIMA per una serie di dati contiene l'equazione periodica di base in quattro formati diversi, selezionabili a seconda dell'applicazione.

NODE_CAPTION: visualizza il formato abbreviato dell'equazione. Il formato abbreviato indica la quantità di strutture periodiche rappresentate e dei relativi coefficienti. Ad esempio, se il formato abbreviato dell'equazione è {4,0,6}, il modo rappresenta una struttura periodica con 6 coefficienti. Se il formato abbreviato è simile al seguente {2,0,8} x {1,0,0}(4), il nodo contiene due strutture periodiche.

NODE DESCRIPTION: visualizza il formato esteso dell'equazione, che è anche il formato dell'equazione visualizzata in Legenda data mining.. La forma estesa dell'equazione è simile alla forma breve, con l'eccezione che i valori effettivi dei coefficienti vengono visualizzati anziché contati.

NODE_RULE: visualizza una rappresentazione XML dell'equazione. A seconda del tipo di nodo, la rappresentazione XML può includere una o più strutture periodiche. Nella tabella seguente viene illustrato come viene eseguito il rollup dei nodi XML a livelli più elevati del modello ARIMA.

Tipo di nodo

Contenuto XML

27 (radice ARIMA)

Include tutte le strutture periodiche per la serie di dati e il contenuto di tutti i nodi figlio per ogni struttura periodica.

28 (struttura periodica ARIMA)

Definisce una singola struttura periodica, includendo il nodo dei termini autoregressivi e i relativi coefficienti delle medie mobili.

29 (autoregressione ARIMA)

Elenca i termini di una singola struttura periodica.

30 (media mobile ARIMA)

Elenca i coefficienti di una singola struttura periodica.

NODE_DISTRIBUTION: visualizza i termini dell'equazione in una tabella nidificata in cui è possibile eseguire una query per ottenere termini specifici. La tabella di distribuzione del nodo segue la stessa struttura gerarchica delle regole XML: il nodo radice della serie ARIMA (NODE_TYPE = 27) contiene il valore di intersezione e le periodicità dell'equazione completa, che può includere più periodicità, mentre i nodi figlio contengono solo informazioni specifiche su una certa struttura periodica o sui nodi figlio di tale struttura periodica.

Tipo di nodo

Attributo

Tipo valore

27 (radice ARIMA)

Intersezione

Periodicità

11

28 (struttura periodica ARIMA)

Periodicità

Ordine autoregressivo

Ordine delle differenze

Ordine media mobile

12

13

15

14

29 (autoregressione ARIMA)

Coefficiente

(complemento del coefficiente)

7

30 (media mobile ARIMA)

Valore a t

Valore a t-1

Valore a t-n

7

Il valore per l' ordine della media mobile indica il numero di medie mobili in una serie. La media mobile viene in genere calcolata n-1 volte in caso di n termini in una serie, ma il numero può essere ridotto per semplificare il calcolo.

Il valore per l' ordine autoregressivo indica il numero di serie autoregressive.

Il valore per l' ordine delle differenze indica il numero di volte in cui le serie vengono confrontate o in cui viene calcolata la differenza.

Per un'enumerazione dei tipi di valore possibili, vedere MiningValueType.

Utilizzo delle informazioni dell'albero ARIMA

Se si utilizzano stime basate sull'algoritmo ARIMA in una soluzione aziendale, è necessario incollare l'equazione in un report per illustrare il metodo utilizzato per creare la stima. È possibile utilizzare la didascalia o la descrizione per presentare le formule rispettivamente in formato abbreviato o esteso.

Se si sviluppa un'applicazione che utilizza stime basate su serie temporali, potrebbe risultare utile ottenere l'equazione ARIMA dal contenuto del modello, quindi creare le proprie stime. Per ottenere l'equazione ARIMA per un determinato output, è possibile eseguire direttamente una query sulla radice ARIMA per l'attributo specifico, come mostrato negli esempi precedenti.

Se si conosce l'ID del nodo che contiene la serie desiderata, sono disponibili due opzioni per recuperare i componenti dell'equazione:

  • Formato della tabella nidificata: utilizzare una query DMX o eseguire una query via client OLE DB.

  • Rappresentazione XML: utilizzare una query XML.

Osservazioni

Il recupero di informazioni da un albero ARTxp potrebbe risultare difficile, poiché le informazioni di ciascuna divisione si trovano in un punto diverso dell'albero. Pertanto, con un modello ARTxp è necessario ottenere tutte le parti, quindi procedere alla ricostruzione della formula completa. Il recupero di un'equazione da un modello ARIMA è più facile, poiché la formula è stata resa disponibile in tutto l'albero. Per ulteriori informazioni sulla creazione di una query per recuperare le informazioni, vedere Esecuzione di una query su un modello Time Series (Analysis Services - Data mining).