Assign Data to Clusters

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Assegna i dati ai cluster con un modello di clustering con training esistente

Categoria: Punteggio

Nota

Si applica a: Machine Learning Studio (versione classica)

Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.

Panoramica del modulo

Questo articolo descrive come usare il modulo Assign Data to Clusters (Assegna dati a cluster) in Machine Learning Studio (versione classica) per generare stime usando un modello di clustering di cui è stato training l'algoritmo di clustering K-Means.

Il modulo restituisce un set di dati che contiene le probabili assegnazioni per ogni nuovo punto dati. Crea anche un grafo PCA (Principal Component Analysis) per visualizzare la dimensionalità dei cluster.

Avviso

Questo modulo sostituisce il modulo Assign to Clusters (deprecato), disponibile solo per il supporto di esperimenti precedenti.

Come usare l'assegnazione di dati ai cluster

  1. In Machine Learning Studio (versione classica) individuare un modello di clustering con training precedente. È possibile creare ed eseguire il training di un modello di clustering usando uno dei metodi seguenti:

    È anche possibile aggiungere un modello di clustering con training esistente dal gruppo Modelli salvati nell'area di lavoro.

  2. Collegare il modello con training alla porta di input sinistra di Assegna dati ai cluster.

  3. Collegare un nuovo set di dati come input. In questo set di dati le etichette sono facoltative. In genere, il clustering è un metodo di apprendimento non supervisionato, quindi non è previsto che si conoscono le categorie in anticipo.

    Tuttavia, le colonne di input devono corrispondere alle colonne usate per il training del modello di clustering, in caso contrario si verifica un errore.

    Suggerimento

    Per ridurre il numero di colonne restituite dalle stime del cluster, usare Seleziona colonne nel set di datie selezionare un subset delle colonne.

  4. Lasciare selezionata l'opzione Controlla accodamento o Deseleziona solo risultati se si vuole che i risultati contengano il set di dati di input completo, insieme a una colonna che indica i risultati (assegnazioni di cluster).

    Se si deseleziona questa opzione, si ottengono solo i risultati. Ciò può essere utile quando si creano stime come parte di un servizio Web.

  5. Eseguire l'esperimento.

Risultati

Il modulo Assign Data to Clusters ( Assegna dati a cluster) restituisce due tipi di risultati nell'output del set di dati Results :

  • Per visualizzare la separazione dei cluster nel modello, fare clic sull'output del modulo e selezionare Visualizza

    Questo comando visualizza un grafico PCA (Principal Component Analysis) che esegue il mapping della raccolta di valori in ogni cluster a due assi dei componenti.

    • Il primo asse dei componenti è il set combinato di funzioni che acquisisce la varianza maggiore nel modello. Viene tracciato sull'asse x (componente principale 1).
    • L'asse dei componenti successivo rappresenta un set combinato di caratteristiche ortogonali al primo componente e che aggiunge al grafico la maggior parte delle informazioni. Viene tracciato sull'asse y (componente principale 2).

    Dal grafico è possibile visualizzare la separazione tra i cluster e la modalità di distribuzione dei cluster lungo gli assi che rappresentano i componenti principali.

  • Per visualizzare la tabella dei risultati per ogni case nei dati di input, collegare il modulo Converti in set di dati e visualizzare i risultati in Studio (versione classica).

    Questo set di dati contiene le assegnazioni del cluster per ogni caso e una metrica di distanza che fornisce indicazioni sulla distanza tra questo caso specifico e il centro del cluster.

    Nome colonna di output Descrizione
    Assegnazioni Indice in base 0 che indica a quale cluster è stato assegnato il punto dati.
    DistancesToClusterCenter n. n Per ogni punto dati, questo valore indica la distanza dal punto dati al centro del cluster assegnato e la distanza dagli altri cluster.

    La metrica usata per calcolare la distanza viene determinata quando si configura il modello di clustering K-means.

Input previsti

Nome Tipo Descrizione
Trained model ICluster interface Modello di clustering con training
Set di dati Tabella dati Origine dati di input

Parametri del modulo

Nome Tipo Intervallo Facoltativo Predefinito Descrizione
Solo accodamento o risultato Necessario true Indicare se il set di dati di output deve contenere il set di dati di input, nonché i risultati o solo i risultati
Specifica la modalità di sweep dei parametri Metodi sweep Elenco:Intera griglia| Sweep casuale Necessario Sweep casuale Esegue lo sweep dell'intera griglia nello spazio dei parametri oppure esegue lo sweep usando un numero limitato di esecuzioni di esempio

Output

Nome Tipo Descrizione
Set di dati di risultati Tabella dati Set di dati di input aggiunto dalla colonna di dati delle assegnazioni oppure solo la colonna delle assegnazioni

Eccezioni

Eccezione Descrizione
Errore 0003 L'eccezione si verifica se uno o più input sono null o vuoti.

Vedi anche

Clustering K-Means
Punteggio