ClusterDistance (DMX)

Articolo
05/07/2013

La funzione ClusterDistance restituisce la distanza del case di input dal cluster specificato o la distanza del case di input dal cluster più probabile, se non viene specificato alcun cluster.

Sintassi

ClusterDistance([<ClusterID expression>])

Si applica a

È possibile utilizzare questa funzione solo se il modello di data mining sottostante supporta il clustering. La funzione può essere utilizzata con qualsiasi tipo di modello di clustering (EM, K-medie, ecc.), ma i risultati variano in base all'algoritmo.

Tipo restituito

Valore scalare.

Osservazioni

La funzione ClusterDistance restituisce la distanza tra il case di input e il cluster con la probabilità più alta per il case di input.

Poiché con il clustering K-medie un case può appartenere solo a un cluster, la distanza del cluster è sempre 0 con un peso di appartenenza di 1.0. Tuttavia, in K-medie si presuppone che per ogni cluster sia presente un centro. È possibile ottenere il valore del centro esplorando o eseguendo una query sulla tabella nidificata NODE_DISTRIBUTION nel contenuto del modello di data mining . Per ulteriori informazioni, vedere Contenuto dei modelli di data mining per i modelli di clustering (Analysis Services - Data mining).

Con il metodo di clustering predefinito EM tutti i punti nel cluster presentano la stessa probabilità; pertanto, per motivi strutturali non è previsto un centro per il cluster. Il valore di ClusterDistance tra un case specifico e un cluster specifico N viene calcolato come segue:

ClusterDistance(N) = 1–(membershipWeight(N))

Oppure:

ClusterDistance(N) = 1–ClusterProbability (N))

Funzioni di stima correlate

In Analysis Services sono disponibili le seguenti funzioni aggiuntive per l'esecuzione di query sui modelli di clustering:

Per restituire il cluster più probabile, utilizzare la funzione Cluster (DMX).
Per ottenere la probabilità che un case appartenga a un cluster specifico, utilizzare la funzione ClusterProbability (DMX). Questo valore viene utilizzato come valore inverso della distanza del cluster.
Per restituire un istogramma della probabilità dell'esistenza di un case di input in ognuno dei cluster del modello, utilizzare la funzione PredictHistogram (DMX).
Per restituire una misura da 0 a 1 che indichi la probabilità dell'esistenza di un case di input in base al modello appreso dall'algoritmo, utilizzare la funzione PredictCaseLikelihood (DMX).

Esempio 1: Acquisizione della distanza del cluster rispetto al cluster più probabile

Nell'esempio seguente viene restituita la distanza dal case specificato al cluster a cui appartiene il case più probabile.

SELECT
    ClusterDistance()
FROM
    [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
    '2-5 Miles' AS [Commute Distance],
    'Graduate Degree' AS [Education],
    0 AS [Number Cars Owned],
    0 AS [Number Children At Home]) AS t

Risultati dell'esempio:

Expression
0.0477390930705145

Per individuare il tipo di cluster, è possibile utilizzare Cluster al posto di ClusterDistance nell'esempio precedente.

Risultati dell'esempio:

$CLUSTER
Cluster 6

Esempio 2: Acquisizione della distanza rispetto a un cluster specificato

La sintassi seguente utilizza il set di righe dello schema relativo al contenuto del modello di data mining per restituire l'elenco degli ID dei nodi e le didascalie dei nodi per i cluster del modello di data mining. È possibile utilizzare quindi la didascalia del nodo come argomento per l'identificatore del cluster nella funzione ClusterDistance.

SELECT NODE_UNIQUE_NAME, NODE_CAPTION 
FROM <model>.CONTENT 
WHERE NODE_TYPE = 5

Risultati dell'esempio:

NODE_UNIQUE_NAME	NODE_CAPTION
001	Cluster 1
002	Cluster 2

Nell'esempio di sintassi seguente viene restituita la distanza del case specificato dal cluster con etichetta Cluster 2.

SELECT
    ClusterDistance('Cluster 2')
AS [Cluster 2 Distance]
FROM [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
    '2-5 Miles' AS [Commute Distance],
    'Graduate Degree' AS [Education],
    0 AS [Number Cars Owned],
    0 AS [Number Children At Home]) AS t

Risultati dell'esempio: