ClusterDistance (DMX)
Si applica a: SQL Server Analysis Services
La funzione ClusterDistance restituisce la distanza del case di input dal cluster specificato o, se non viene specificato alcun cluster, la distanza del case di input dal cluster più probabile.
Sintassi
ClusterDistance([<ClusterID expression>])
Si applica a
È possibile utilizzare questa funzione solo se il modello di data mining sottostante supporta il clustering. La funzione può essere utilizzata con qualsiasi tipo di modello di clustering (EM, K-medie, ecc.), ma i risultati variano in base all'algoritmo.
Tipo restituito
Valore scalare.
Osservazioni:
La funzione ClusterDistance restituisce la distanza tra il case di input e il cluster con la probabilità più alta per tale caso di input.
Poiché con il clustering K-medie un case può appartenere solo a un cluster, la distanza del cluster è sempre 0 con un peso di appartenenza di 1.0. Tuttavia, in K-medie si presuppone che per ogni cluster sia presente un centro. È possibile ottenere il valore del centro esplorando o eseguendo una query sulla tabella nidificata NODE_DISTRIBUTION nel contenuto del modello di data mining. Per altre informazioni, vedere Contenuto del modello di data mining per i modelli di clustering (Analysis Services - Data mining).
Con il metodo di clustering predefinito EM tutti i punti nel cluster presentano la stessa probabilità; pertanto, per motivi strutturali non è previsto un centro per il cluster. Il valore di ClusterDistance tra un caso specifico e un particolare cluster N viene calcolato come segue:
ClusterDistance(N) =1-(membershipWeight(N))
Oppure:
ClusterDistance(N) =1-ClusterProbability (N))
Funzioni di stima correlate
Analysis Services offre le funzioni aggiuntive seguenti per l'esecuzione di query sui modelli di clustering:
Usare la funzione Cluster (DMX) per restituire il cluster più probabile.
Usare la funzione ClusterProbability (DMX) per ottenere la probabilità che un case appartenga a un cluster specifico. Questo valore viene utilizzato come valore inverso della distanza del cluster.
Usare la funzione DMX (PredictHistogram) per restituire un istogramma della probabilità del case di input esistente in ognuno dei cluster del modello.
Usare la funzione PredictCaseLikelihood (DMX) per restituire una misura da 0 a 1 che indica la probabilità che esista un caso di input considerando il modello appreso dall'algoritmo.
Esempio 1: Acquisizione della distanza del cluster rispetto al cluster più probabile
Nell'esempio seguente viene restituita la distanza dal case specificato al cluster a cui appartiene il case più probabile.
SELECT
ClusterDistance()
FROM
[TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
'2-5 Miles' AS [Commute Distance],
'Graduate Degree' AS [Education],
0 AS [Number Cars Owned],
0 AS [Number Children At Home]) AS t
Risultati dell'esempio:
Espressione |
---|
0.0477390930705145 |
Per individuare il tipo di cluster, è possibile utilizzare Cluster
al posto di ClusterDistance
nell'esempio precedente.
Risultati dell'esempio:
$CLUSTER |
---|
Cluster 6 |
Esempio 2: Acquisizione della distanza rispetto a un cluster specificato
La sintassi seguente utilizza il set di righe dello schema relativo al contenuto del modello di data mining per restituire l'elenco degli ID dei nodi e le didascalie dei nodi per i cluster del modello di data mining. È quindi possibile usare la didascalia del nodo come argomento dell'identificatore del cluster nella funzione ClusterDistance .
SELECT NODE_UNIQUE_NAME, NODE_CAPTION
FROM <model>.CONTENT
WHERE NODE_TYPE = 5
Risultati dell'esempio:
NODE_UNIQUE_NAME | NODE_CAPTION |
---|---|
001 | Cluster 1 |
002 | Cluster 2 |
Nell'esempio di sintassi seguente viene restituita la distanza del case specificato dal cluster con etichetta Cluster 2.
SELECT
ClusterDistance('Cluster 2')
AS [Cluster 2 Distance]
FROM [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
'2-5 Miles' AS [Commute Distance],
'Graduate Degree' AS [Education],
0 AS [Number Cars Owned],
0 AS [Number Children At Home]) AS t
Risultati dell'esempio:
Cluster 2 Distance |
---|
0.97008209236394 |
Vedi anche
Cluster (DMX)
Informazioni di riferimento sulle funzioni DMX (Data Mining Extensions)
Funzioni (DMX)
Contenuto del modello di data mining per i modelli di clustering (Analysis Services - Data mining)