Assign Data to Clusters
Importante
Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.
A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).
- Vedere leinformazioni sullo spostamento di progetti di Machine Learning da ML Studio (versione classica) ad Azure Machine Learning.
- Altre informazioni sulle Azure Machine Learning.
La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.
Assegna i dati ai cluster con un modello di clustering con training esistente
Categoria: Punteggio
Nota
Si applica a: Machine Learning Studio (versione classica)
Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.
Panoramica del modulo
Questo articolo descrive come usare il modulo Assign Data to Clusters (Assegna dati a cluster) in Machine Learning Studio (versione classica) per generare stime usando un modello di clustering di cui è stato training l'algoritmo di clustering K-Means.
Il modulo restituisce un set di dati che contiene le probabili assegnazioni per ogni nuovo punto dati. Crea anche un grafo PCA (Principal Component Analysis) per visualizzare la dimensionalità dei cluster.
Avviso
Questo modulo sostituisce il modulo Assign to Clusters (deprecato), disponibile solo per il supporto di esperimenti precedenti.
Come usare l'assegnazione di dati ai cluster
In Machine Learning Studio (versione classica) individuare un modello di clustering con training precedente. È possibile creare ed eseguire il training di un modello di clustering usando uno dei metodi seguenti:
Configurare l'algoritmo K-means usando il modulo K-Means Clustering e quindi eseguire il training del modello usando un set di dati e il modulo Train Clustering Model .
Configurare una gamma di opzioni per l'algoritmo K-means usando K-Means Clustering e quindi eseguire il training del modello usando il modulo Sweep Clustering .
È anche possibile aggiungere un modello di clustering con training esistente dal gruppo Modelli salvati nell'area di lavoro.
Collegare il modello con training alla porta di input sinistra di Assegna dati ai cluster.
Collegare un nuovo set di dati come input. In questo set di dati le etichette sono facoltative. In genere, il clustering è un metodo di apprendimento non supervisionato, quindi non è previsto che si conoscono le categorie in anticipo.
Tuttavia, le colonne di input devono corrispondere alle colonne usate per il training del modello di clustering, in caso contrario si verifica un errore.
Suggerimento
Per ridurre il numero di colonne restituite dalle stime del cluster, usare Seleziona colonne nel set di datie selezionare un subset delle colonne.
Lasciare selezionata l'opzione Controlla accodamento o Deseleziona solo risultati se si vuole che i risultati contengano il set di dati di input completo, insieme a una colonna che indica i risultati (assegnazioni di cluster).
Se si deseleziona questa opzione, si ottengono solo i risultati. Ciò può essere utile quando si creano stime come parte di un servizio Web.
Eseguire l'esperimento.
Risultati
Il modulo Assign Data to Clusters ( Assegna dati a cluster) restituisce due tipi di risultati nell'output del set di dati Results :
Per visualizzare la separazione dei cluster nel modello, fare clic sull'output del modulo e selezionare Visualizza
Questo comando visualizza un grafico PCA (Principal Component Analysis) che esegue il mapping della raccolta di valori in ogni cluster a due assi dei componenti.
- Il primo asse dei componenti è il set combinato di funzioni che acquisisce la varianza maggiore nel modello. Viene tracciato sull'asse x (componente principale 1).
- L'asse dei componenti successivo rappresenta un set combinato di caratteristiche ortogonali al primo componente e che aggiunge al grafico la maggior parte delle informazioni. Viene tracciato sull'asse y (componente principale 2).
Dal grafico è possibile visualizzare la separazione tra i cluster e la modalità di distribuzione dei cluster lungo gli assi che rappresentano i componenti principali.
Per visualizzare la tabella dei risultati per ogni case nei dati di input, collegare il modulo Converti in set di dati e visualizzare i risultati in Studio (versione classica).
Questo set di dati contiene le assegnazioni del cluster per ogni caso e una metrica di distanza che fornisce indicazioni sulla distanza tra questo caso specifico e il centro del cluster.
Nome colonna di output Descrizione Assegnazioni Indice in base 0 che indica a quale cluster è stato assegnato il punto dati. DistancesToClusterCenter n. n Per ogni punto dati, questo valore indica la distanza dal punto dati al centro del cluster assegnato e la distanza dagli altri cluster.
La metrica usata per calcolare la distanza viene determinata quando si configura il modello di clustering K-means.
Input previsti
Nome | Tipo | Descrizione |
---|---|---|
Trained model | ICluster interface | Modello di clustering con training |
Set di dati | Tabella dati | Origine dati di input |
Parametri del modulo
Nome | Tipo | Intervallo | Facoltativo | Predefinito | Descrizione |
---|---|---|---|---|---|
Solo accodamento o risultato | Necessario | true | Indicare se il set di dati di output deve contenere il set di dati di input, nonché i risultati o solo i risultati | ||
Specifica la modalità di sweep dei parametri | Metodi sweep | Elenco:Intera griglia| Sweep casuale | Necessario | Sweep casuale | Esegue lo sweep dell'intera griglia nello spazio dei parametri oppure esegue lo sweep usando un numero limitato di esecuzioni di esempio |
Output
Nome | Tipo | Descrizione |
---|---|---|
Set di dati di risultati | Tabella dati | Set di dati di input aggiunto dalla colonna di dati delle assegnazioni oppure solo la colonna delle assegnazioni |
Eccezioni
Eccezione | Descrizione |
---|---|
Errore 0003 | L'eccezione si verifica se uno o più input sono null o vuoti. |