Usare i set di dati di esempio in Machine Learning Studio (versione classica)
SI APPLICA A: Machine Learning Studio (versione classica) di Azure Machine Learning
Importante
Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.
A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).
- Vedere le informazioni sullo spostamento di progetti di apprendimento automatico da ML Studio (versione classica) ad Azure Machine Learning.
- Scoprire di più su Azure Machine Learning
La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.
Quando si crea una nuova area di lavoro in Machine Learning Studio (versione classica), per impostazione predefinita vengono inclusi diversi set di dati e esperimenti di esempio. Molti di questi set di dati di esempio vengono usati dai modelli di esempio in Raccolta di intelligenza artificiale per Azure. Altri sono inclusi come esempi di diversi tipi di dati usati in genere per l'apprendimento automatico.
Alcuni di questi set di dati sono disponibili nell'archivio BLOB di Azure. La tabella seguente include un collegamento diretto per questi set di dati. È possibile usare questi set di dati negli esperimenti tramite il modulo Importa dati.
La parte rimanente di questi set di dati di esempio è disponibile nell'area di lavoro presente in Saved Datasets (Set di dati salvati). In particolare, è possibile trovarli nella tavolozza dei moduli a sinistra del canvas di esperimenti in Machine Learning Studio (versione classica). Per usare uno qualsiasi di questi set di dati in un esperimento personalizzato, trascinarlo all'area di disegno dell'esperimento.
Set di dati
Nome del set di dati | Descrizione del set di dati |
---|---|
Adult Census Income Binary Classification dataset | Subset del database relativo al censimento del 1994, che usa adulti lavoratori di età superiore ai 16 anni con un indice di reddito adeguato > 100. Utilizzo: classificare le persone usando i dati demografici per prevedere se una persona ha un guadagno superiore a 50.000 dollari all'anno. Ricerca correlata: Kohavi, R., Becker, B., (1996). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Airport Codes Dataset | Codici degli aeroporti degli Stati Uniti. Questo set di dati contiene una riga per ogni aeroporto degli Stati Uniti, contenente il nome e il numero ID dell'aeroporto, la città e lo stato. |
Automobile price data (Raw) | Informazioni sulle automobili in base a marchio e modello, inclusi il prezzo, funzionalità quali il numero di cilindri e il consumo di carburante, oltre a un punteggio relativo al rischio assicurativo. Il punteggio di rischio viene inizialmente associato al prezzo dell'automobile e quindi adeguato in base al rischio effettivo in un processo noto agli attuari come simbolizzazione. Un valore pari a +3 indica che l'automobile è rischiosa e un valore pari a -3 indica che è probabilmente sicura. Utilizzo: prevedere il punteggio di rischio in base alle funzionalità, usando la regressione o la classificazione multivariata. Ricerca correlata: Schlimmer, J.C. (1987). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Bike Rental UCI dataset | Set di dati UCI relativo al noleggio di biciclette basato su dati reali della società Capital Bikeshare che gestisce una rete di noleggio di biciclette a Washington DC. Il set di dati comprende una riga per ogni ora di ogni giorno del 2011 e del 2012, per un totale di 17.379 righe. Il numero di biciclette noleggiate su base oraria è compreso tra 1 e 977. |
Bill Gates RGB Image | File di immagine pubblicamente disponibile convertito in dati in formato CSV. Il codice per la conversione dell'immagine è disponibile nella pagina descrittiva del modello di quantizzazione dei colori tramite clustering K-Means. |
Blood donation data | Sottoinsieme di dati dal database di donatori di sangue del Blood Transfusion Service Center di Hsin-Chu City, Taiwan. I dati relativi al donatore includono i mesi trascorsi dopo l'ultima donazione, la frequenza o il numero totale di donazioni, il tempo trascorso dopo l'ultima donazione e la quantità di sangue donata. Utilizzo: l'obiettivo consiste nel prevedere tramite classificazione se il donatore abbia donato sangue nel mese di marzo 2007; 1 indica un donatore nel periodo in esame e 0 un non donatore. Ricerca correlata: Yeh, I.C., (2008). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science Yeh, I-Cheng, Yang, King-Jang and Ting, Tao-Ming, "Knowledge discovery on RFM model using Bernoulli sequence", Expert Systems with Applications, 2008, https://dx.doi.org/10.1016/j.eswa.2008.07.018 |
Breast cancer data | Uno dei tre set di dati relativi al tumore fornito dall'istituto oncologico e usato spesso nella letteratura di Machine Learning. Combina informazioni diagnostiche con funzionalità relative ad analisi di laboratorio effettuate su circa 300 campioni di tessuto. Utilizzo: classificare il tipo di tumore, in base a 9 attributi, alcuni dei quali lineari e altri categorici. Ricerca correlata: Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Caratteristiche del cancro al seno | Il set di dati contiene le informazioni relative a 102.000 aree sospette (candidati) di radiografie, ognuna descritta mediante 117 caratteristiche. Le caratteristiche sono proprietarie e il loro significato non è stato rivelato dagli autori del set di dati (Siemens Healthcare). |
Breast Cancer Info | Il set di dati contiene informazioni aggiuntive su ogni area sospetta di una radiografia. Per ogni esempio vengono fornite le informazioni, ad esempio etichetta, ID paziente e coordinate della lesione in relazione all'intera immagine, sul numero di riga corrispondente nel set di dati delle caratteristiche del tumore al seno. Per ogni paziente sono disponibili diversi esempi. Per i pazienti in cui è stato riscontrato un tumore, alcuni esempio sono positivi ed altri sono negativi. Per i pazienti sani, tutti gli esempi sono negativi. Il set di dati contiene 102.000 esempi. Al set di dati è stata applicata la compensazione: lo 0,6% dei punti è positivo, mentre il resto è negativo. Il set di dati è stato messo a disposizione da Siemens Healthcare. |
CRM Appetency Labels Shared | Etichette dalla competizione KDD Cup 2009 di previsione delle relazioni con i clienti (orange_small_train_appetency.labels). |
CRM Churn Labels Shared | Etichette dalla competizione KDD Cup 2009 di previsione delle relazioni con i clienti (orange_small_train_churn.labels). |
CRM Dataset Shared | Questi dati vengono dalla competizione KDD Cup 2009 di previsione delle relazioni con i clienti (orange_small_train.data.zip). Il set di dati contiene 50.000 clienti della società di telecomunicazioni francese Orange. Ogni cliente dispone di 230 elementi resi anonimi, 190 dei quali numerici e 40 categorici. Gli elementi sono molto sparsi. |
CRM Upselling Labels Shared | Etichette dalla competizione KDD Cup 2009 di previsione delle relazioni con i clienti (orange_large_train_upselling.labels). |
Energy-Efficiency Regression data | Raccolta di profili energetici simulati, basati su 12 forme di edifici diverse. Gli edifici si differenziano in base a 8 caratteristiche specifiche, ad esempio il numero di finestre e la distribuzione e l'orientamento delle finestre. Utilizzo: usare la regressione o la classificazione per prevedere il livello di efficienza energetica in base a una delle due risposte con valori reali. Per la classificazione a più classi, la variabile di risposta verrà arrotondata al valore Integer più vicino. Ricerca correlata: Xifara, A. & Tsanas, A. (2012). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Flight Delays Data |
Dati relativi alle prestazioni nel tempo dei voli passeggeri ottenuti dalla raccolta dati TranStats del Dipartimento dei trasporti degli Stati Uniti (On-Time).
Il set di dati copre il periodo aprile-ottobre 2013. Prima del caricamento in Machine Learning Studio (versione classica), il set di dati è stato elaborato come segue:
|
Flight on-time performance (Raw) | Record degli arrivi e delle partenze dei voli all'interno degli Stati Uniti da ottobre 2011. Utilizzo: prevedere i ritardi dei voli. Ricerca correlata: Dipartimento dei trasporti degli Stati Uniti d'America https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time. |
Forest fires data | Contiene dati climatici, ad esempio temperatura, indici di umidità e velocità del vento. Questi dati si riferiscono a un'area nella parte nordorientale del Portogallo e sono combinati con i record relativi agli incendi nei boschi. Utilizzo: si tratta di un'attività di regressione complessa, il cui scopo consiste nel prevedere l'area bruciata degli incendi boschivi. Ricerca correlata: Cortez, P., & Morais, A. (2008). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science [Cortez e Morais, 2007] P. Cortez e A. Morais. Approccio di data mining per la previsione degli incendi nei boschi usando i dati meteorologici. In J. Neves, M. F. Santos e J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 - Portuguese Conference on Artificial Intelligence, December, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. Disponibile all'indirizzo http://www.dsi.uminho.pt/~pcortez/fires.pdf. |
German Credit Card UCI dataset | Set di dati UCI Statlog (German Credit Card) (Statlog+German+Credit+Data), con l'uso del file german.data. Il set di dati classifica le persone, descritte da un set di attributi, come rischi di credito alti o bassi. Ogni esempio rappresenta una persona. Sono presenti 20 variabili, sia numeriche che relative alle categorie, nonché un'etichetta binaria (il valore del rischio di credito). Le voci che rappresentano un rischio di credito elevato hanno l'etichetta 2, quelle che rappresentano un rischio di credito hanno l'etichetta 1. Classificare erroneamente un cliente come a basso rischio mentre è ad alto rischio implica costi cinque volte più alti. |
IMDB Movie Titles | Il set di dati contiene informazioni sui film che sono stati valutati nei tweet di Twitter: ID del film nel database IMDB, nome, genere e anno di produzione del film. Il set di dati contiene 17.000 film. Il set di dati è stato introdotto nel documento di S. Dooms, T. De Pessemier e L. Martens. "MovieTweetings: a Movie Rating Dataset Collected From Twitter. Workshop on Crowdsourcing and Human Computation for Recommender Systems, CrowdRec at RecSys 2013." |
Iris two class data | Si tratta probabilmente del database più conosciuto disponibile nella letteratura relativa al riconoscimento di schemi. Il set di dati è relativamente piccolo, perché contiene 50 esempi di misurazione di ogni petalo di tre varietà di iris. Utilizzo: prevedere il tipo di iris in base alle misurazioni. Ricerca correlata: Fisher, R.A. (1988). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Movie Tweets | Il set di dati è una versione estesa di quello relativo ai tweet sui film. Il set di dati contiene 170.000 valutazioni di film, estratti da tweet ben strutturati pubblicati su Twitter. Ogni istanza rappresenta un tweet ed è una tupla: ID utente, ID del film nel database IMDB, valutazione, data e ora, numero di preferenze per questo tweet e numero di retweet. Il set di dati è stato messo a disposizione da A. Said, S. Dooms, B. Loni e D. Tikk per Recommender Systems Challenge 2014. |
MPG data for various automobiles | Questo set di dati è una versione leggermente modificata del set di dati disponibile nella raccolta StatLib della Carnegie Mellon University. Il set di dati è stato usato presso la American Statistical Association Exposition del 1983. I dati elencano il consumo di carburante per diverse automobili, in miglia per gallone, oltre a informazioni quali numero di cilindri, cilindrata, potenza, peso totale e accelerazione. Utilizzo: prevedere il risparmio di carburante in base a tre attributi discreti multivalore e cinque attributi continui. Ricerca correlata: StatLib, Carnegie Mellon University, (1993). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Pima Indians Diabetes Binary Classification dataset | Sottoinsieme di dati del database del National Institute of Diabetes and Digestive and Kidney Diseases. Il set di dati è stato filtrato in modo da evidenziare solo i pazienti di genere femminile di etnia Pima. I dati includono dati medici quali i livelli di glucosio e di insulina, oltre a fattori relativi allo stile di vita. Utilizzo: prevedere se il soggetto è diabetico (classificazione binaria). Ricerca correlata: Sigillito, V. (1990). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science |
Restaurant customer data | Set di metadati relativi ai clienti, inclusi dati demografici e preferenze. Utilizzo: usare questo set di dati, con altri due set di dati relativi ai ristoranti, per il training e il test di un sistema di raccomandazione. Ricerca correlata: Bache, K. e Lichman, M. (2013). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science. |
Restaurant feature data | Set di metadati relativi ai ristoranti e alle rispettive caratteristiche, ad esempio tipo di cibo, stile del ristorante e ubicazione. Utilizzo: usare questo set di dati, con altri due set di dati relativi ai ristoranti, per il training e il test di un sistema di raccomandazione. Ricerca correlata: Bache, K. e Lichman, M. (2013). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science. |
Restaurant ratings | Include le valutazioni assegnate dagli utenti ai ristoranti in una scala da 0 a 2. Utilizzo: usare questo set di dati, con altri due set di dati relativi ai ristoranti, per il training e il test di un sistema di raccomandazione. Ricerca correlata: Bache, K. e Lichman, M. (2013). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science. |
Steel Annealing multi-class dataset | Questo set di dati include una serie di record relativi a tentativi di ricottura di acciaio e include gli attributi fisici (larghezza, spessore e tipo, ad esempio spirale, lamina e così via) dei tipi di acciaio risultanti. Utilizzo: prevedere uno dei due attributi numerici della classe, ovvero durezza o forza. È anche possibile analizzare le correlazioni tra gli attributi. Le designazioni dell'acciaio sono basate su uno standard definito da SAE e da altre organizzazioni. Si cerca una 'designazione' specifica (variabile della classe) e si vogliono comprendere i valori necessari. Ricerca correlata: Sterling, D. & Buntine, W. (NA). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science Una guida utile alle designazioni dell'acciaio è disponibile qui: https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf |
Telescope data | Record di esplosioni di particelle gamma a energia elevata insieme alla radiazione di fondo, simulate entrambe tramite un processo Monte Carlo. Lo scopo della simulazione consiste nel migliorare la precisione dei telescopi gamma Cherenkov posizionati a terra, usando metodi statistici per rilevare la differenza tra il segnale desiderato (pioggia di radiazioni Cherenkov) e la radiazione di fondo (piogge adroniche generate da raggi cosmici nella parte superiore dell'atmosfera). I dati sono stati pre-elaborati in modo da creare un cluster allungato il cui asse longitudinale è orientato verso il centro della fotocamera. Le caratteristiche di questa ellissi, spesso definite parametri Hillas, si trovano tra i parametri dell'immagine che possono essere usati per la discriminazione. Utilizzo: prevedere se l'immagine di una pioggia rappresenta un segnale o radiazioni di fondo. Note: la semplice precisione della classificazione non è significativa per questi dati, poiché la classificazione di un evento di fondo come segnale è ritenuta peggiore della classificazione di un evento di segnale come evento di fondo. Per un confronto dei diversi classificatori, è consigliabile usare il grafico ROC. La probabilità di accettazione di un evento di fondo come un segnale deve essere inferiore a una delle soglie seguenti: 0,01, 0,02, 0,05, 0,1 o 0,2. Si noti anche che il numero di eventi di fondo (h per piogge adroniche) è sottostimato, mentre nelle misurazioni reali la classe h o noise rappresenta la maggior parte degli eventi. Ricerca correlata: Bock, R.K. (1995). UCI Machine Learning Repository https://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information |
Weather Dataset |
Le osservazioni meteo sono su base oraria e al suolo e vengono fornite dalla NOAA (dati uniti dal mese di aprile al mese di ottobre 2013).
I dati relativi al meteo riguardano le osservazioni effettuate dalle stazioni meteo degli aeroporti nel periodo aprile-ottobre 2013. Prima del caricamento in Machine Learning Studio (versione classica), il set di dati è stato elaborato come segue:
|
Set di dati SP 500 di Wikipedia |
I dati sono tratti da articoli di Wikipedia (https://www.wikipedia.org/) su ognuna delle società incluse nell'indice S&P 500 e sono archiviati come dati XML.
Prima del caricamento in Machine Learning Studio (versione classica), il set di dati è stato elaborato come segue:
|
direct_marketing.csv | Il set di dati contiene i dati dei clienti e le indicazioni sulle risposte ottenute in seguito a una campagna di mailing diretto. Ogni riga rappresenta un cliente. Il set di dati contiene nove caratteristiche sui dati personali degli utenti e sui comportamenti passati, oltre a tre colonne con etichetta (visita, conversione e spesa). La visita è una colonna binaria usata per indicare che un cliente è stato visitato dopo la campagna di marketing, la conversione indica che il cliente ha effettuato un acquisto e la spesa corrisponde all'importo speso. Il set di dati è stato messo a disposizione da Kevin Hillstrom per MineThatData E-Mail Analytics And Data Mining Challenge. |
lyrl2004_tokens_test.csv | Caratteristiche degli esempi di test nel set di dati relativi alle notizie RCV1-V2 Reuters. Il set di dati contiene 781.000 articoli, a ognuno dei quali è associato un ID (prima colonna del set di dati). Ogni articolo è stato analizzato per identificare token, parole non significative e sottoposto a stemming. Il set di dati è stato messo a disposizione da David. D. Lewis. |
lyrl2004_tokens_train.csv | Funzionalità degli esempi di training nel set di dati relativi alle notizie RCV1-V2 Reuters. Il set di dati contiene 23.000 articoli, a ognuno dei quali è associato un ID (prima colonna del set di dati). Ogni articolo è stato analizzato per identificare token, parole non significative e sottoposto a stemming. Il set di dati è stato messo a disposizione da David. D. Lewis. |
network_intrusion_detection.csv |
Set di dati dalla KDD Cup 1999 Knowledge Discovery and Data Mining Tools Competition (kddcup99.html). Questo set di dati è stato scaricato e memorizzato nell'archiviazione BLOB di Azure (network_intrusion_detection.csv) e include set di dati sia di training che di test. Il set di dati di training contiene circa 126K righe e 43 colonne, comprese le etichette. Tre colonne fanno parte delle informazioni sulle etichette e 40 colonne, composte da funzioni numeriche, stringa o categoriali, sono disponibili per il training del modello. I dati di test contengono circa 225.000 esempi di test con le stesse 43 colonne nei dati di training. |
rcv1-v2.topics.qrels.csv | Assegnazioni degli argomenti per gli articoli del set di dati relativo alle notizie RCV1-V2 Reuters. Un articolo può essere assegnato a più argomenti. Il formato di ogni riga è "<nome argomento><ID documento> 1". Il set di dati contiene 2,6 milioni di assegnazioni di argomenti. Il set di dati è stato messo a disposizione da David. D. Lewis. |
student_performance.txt | Questi dati provengono dalla competizione KDD Cup 2010 Student performance evaluation (student performance evaluation). I dati usati sono il set di training Algebra_2008_2009 (Stamper, J., Niculmultidimensional-Mişo, A., Ritter, S., Gordon, G.J., & Koedinger, K.R. (2010). Algebra I 2008-2009. Set di dati di competizione dalla KDD Cup 2010 dedicata al data mining in ambito didattico. È disponibile in downloads.jsp. Il set di dati è stato scaricato e memorizzato Archiviazione BLOB di Azure (student_performance.txt) e contiene i file di log provenienti dal sistema relativo alle lezioni private per gli studenti. Le funzionalità fornite includono: ID del problema e breve descrizione, ID dello studente, timestamp e numero di tentativi effettuati dallo studente prima di risolvere il problema nel modo corretto. Il set di dati originale contiene 8,9 milioni di record e questo set di dati è stato ridotto alle prime 100.000 righe. Nel set di dati sono presenti 23 colonne separate da tabulazioni, di vari tipi: numerico, categorico e timestamp. |